diff --git a/.gitmodules b/.gitmodules
new file mode 100644
index 000000000..2ce99d5bb
--- /dev/null
+++ b/.gitmodules
@@ -0,0 +1,4 @@
+[submodule "extern/blis"]
+	path = extern/blis
+	url = https://github.com/amd/blis.git
+	branch = 1.3
diff --git a/.jenkins/Dependency b/.jenkins/Dependency
new file mode 100644
index 000000000..c668975fb
--- /dev/null
+++ b/.jenkins/Dependency
@@ -0,0 +1,140 @@
+#!/usr/bin/env groovy
+// This shared library is available at https://github.com/ROCmSoftwarePlatform/rocJENKINS/
+@Library('rocJenkins') _
+
+// This is file for internal AMD use.
+// If you are interested in running your own Jenkins, please raise a github issue for assistance.
+
+import com.amd.project.*
+import com.amd.docker.*
+
+
+////////////////////////////////////////////////////////////////////////
+// Mostly generated from snippet generator 'properties; set job properties'
+// Time-based triggers added to execute nightly tests, eg '30 2 * * *' means 2:30 AM
+properties([
+    pipelineTriggers([[$class: 'PeriodicFolderTrigger', interval: '1d']]),
+    buildDiscarder(logRotator(
+      artifactDaysToKeepStr: '',
+      artifactNumToKeepStr: '',
+      daysToKeepStr: '',
+      numToKeepStr: '10')),
+    disableConcurrentBuilds(),
+    [$class: 'CopyArtifactPermissionProperty', projectNames: '*']
+   ])
+
+import java.nio.file.Path;
+
+rocBLASCI:
+{
+
+    def rocblas = new rocProject('rocBLAS')
+    // customize for project
+    rocblas.paths.build_command = './install.sh -lasm_ci -c -b develop'
+
+    // Define test architectures, optional rocm version argument is available
+    def nodes = new dockerNodes(['gfx900 && ubuntu', 'gfx906 && centos7'], rocblas)
+
+    boolean formatCheck = true
+
+    def compileCommand =
+    {
+        platform, project->
+
+        project.paths.construct_build_prefix()
+
+        def command
+
+        if(platform.jenkinsLabel.contains('hip-clang'))
+        {
+            command = """#!/usr/bin/env bash
+                    set -x
+                    cd ${project.paths.project_build_prefix}
+                    LD_LIBRARY_PATH=/opt/rocm/hcc/lib CXX=/opt/rocm/bin/hipcc ${project.paths.build_command} --hip-clang
+                    """
+        }
+        else
+        {
+            command = """#!/usr/bin/env bash
+                    set -x
+                    cd ${project.paths.project_build_prefix}
+                    LD_LIBRARY_PATH=/opt/rocm/hcc/lib CXX=/opt/rocm/bin/hcc ${project.paths.build_command}
+                    """
+        }
+        platform.runCommand(this, command)
+    }
+
+    def testCommand =
+    {
+        platform, project->
+
+        def command
+
+        if(platform.jenkinsLabel.contains('centos'))
+        {
+            command = """#!/usr/bin/env bash
+                    set -x
+                    cd ${project.paths.project_build_prefix}/build/release/clients/staging
+                    LD_LIBRARY_PATH=/opt/rocm/hcc/lib GTEST_LISTENER=NO_PASS_LINE_IN_LOG sudo ./rocblas-test --gtest_output=xml --gtest_color=yes --gtest_filter=*nightly*-*known_bug* #--gtest_filter=*nightly*
+                """
+
+            platform.runCommand(this, command)
+            junit "${project.paths.project_build_prefix}/build/release/clients/staging/*.xml"
+        }
+        else
+        {
+            command = """#!/usr/bin/env bash
+                    set -x
+                    cd ${project.paths.project_build_prefix}/build/release/clients/staging
+                    LD_LIBRARY_PATH=/opt/rocm/hcc/lib GTEST_LISTENER=NO_PASS_LINE_IN_LOG ./rocblas-test --gtest_output=xml --gtest_color=yes --gtest_filter=*nightly*-*known_bug* #--gtest_filter=*nightly*
+                """
+
+            platform.runCommand(this, command)
+            junit "${project.paths.project_build_prefix}/build/release/clients/staging/*.xml"
+        }
+    }
+
+    def packageCommand =
+    {
+        platform, project->
+
+        def command
+
+        if(platform.jenkinsLabel.contains('centos'))
+        {
+            command = """
+                    set -x
+                    cd ${project.paths.project_build_prefix}/build/release
+                    make package
+                    mkdir -p package
+                    mv *.rpm package/
+                    rpm -qlp package/*.rpm
+                """
+
+            platform.runCommand(this, command)
+            platform.archiveArtifacts(this, """${project.paths.project_build_prefix}/build/release/package/*.rpm""")
+        }
+        else if(platform.jenkinsLabel.contains('hip-clang'))
+        {
+            packageCommand = null
+        }
+        else
+        {
+            command = """
+                    set -x
+                    cd ${project.paths.project_build_prefix}/build/release
+                    make package
+                    make package_clients
+                    mkdir -p package
+                    mv *.deb package/
+                    mv clients/*.deb package/
+                """
+
+            platform.runCommand(this, command)
+            platform.archiveArtifacts(this, """${project.paths.project_build_prefix}/build/release/package/*.deb""")
+        }
+    }
+
+    buildProject(rocblas, formatCheck, nodes.dockerArray, compileCommand, testCommand, packageCommand)
+
+}
diff --git a/CMakeLists.txt b/CMakeLists.txt
index 0710dd914..7c872ca3d 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -7,6 +7,8 @@ cmake_minimum_required( VERSION 3.5 )
 
 # We use C++14 features, this will add compile option: -std=c++14
 set( CMAKE_CXX_STANDARD 14 )
+# Without this line, it will add -std=gnu++14 instead, which has some issues.
+set( CMAKE_CXX_EXTENSIONS OFF )
 
 # Consider removing this in the future
 # This should appear before the project command, because it does not use FORCE
@@ -33,6 +35,9 @@ endif()
 
 project( rocblas LANGUAGES CXX )
 
+set(THREADS_PREFER_PTHREAD_FLAG ON)
+find_package(Threads REQUIRED)
+
 # ########################################################################
 # NOTE:  CUDA compiling path
 # ########################################################################
@@ -135,7 +140,7 @@ include( ROCMPackageConfigHelpers )
 include( ROCMInstallSymlinks )
 
 # Versioning via rocm-cmake
-set ( VERSION_STRING "2.6.4" )
+set ( VERSION_STRING "2.8.0" )
 rocm_setup_version( VERSION ${VERSION_STRING} )
 
 # Append our library helper cmake path and the cmake path for hip (for convenience)
@@ -171,21 +176,18 @@ if( BUILD_WITH_TENSILE )
   set_property( CACHE Tensile_COMPILER PROPERTY STRINGS hcc hipcc)
 
   include(virtualenv)
-
   if (Tensile_TEST_LOCAL_PATH)
     virtualenv_install(${Tensile_TEST_LOCAL_PATH})
     message (STATUS "using local Tensile from ${Tensile_TEST_LOCAL_PATH}, copied to ${Tensile_ROOT}")
   else()
     # Use the virtual-env setup and download package from specified repot:
     set( tensile_fork "ROCmSoftwarePlatform" CACHE STRING "Tensile fork to use" )
-    set( tensile_tag 1c58828cafd5f1285bf17b75ad5c04ca6c8fa88c CACHE STRING "Tensile tag to download" )
+    set( tensile_tag 015477ad8c8ea0ef6f59b8d49a65015b46b8a48e CACHE STRING "Tensile tag to download" )
     virtualenv_install("git+https://github.com/${tensile_fork}/Tensile.git@${tensile_tag}")
     message (STATUS "using GIT Tensile fork=${tensile_fork} from branch=${tensile_tag}")
   endif()
   list(APPEND CMAKE_PREFIX_PATH ${VIRTUALENV_HOME_DIR})
-  set( Tensile_ROOT "${VIRTUALENV_HOME_DIR}/bin" CACHE STRING "Local path of Tensile" )
-  set( Tensile_TensileConfig ${VIRTUALENV_HOME_DIR}/cmake/TensileConfig.cmake)
-
+  find_package(Tensile 4.11.0 EXACT REQUIRED HIP LLVM OpenMP PATHS "${INSTALLED_TENSILE_PATH}")
 endif()
 
 # Find HCC/HIP dependencies
diff --git a/Jenkinsfile b/Jenkinsfile
index 5bef76620..f988ab19b 100644
--- a/Jenkinsfile
+++ b/Jenkinsfile
@@ -32,7 +32,7 @@ rocBLASCI:
     rocblas.paths.build_command = './install.sh -lasm_ci -c'
 
     // Define test architectures, optional rocm version argument is available
-    def nodes = new dockerNodes(['gfx900 && ubuntu', 'gfx906 && centos7'], rocblas)
+    def nodes = new dockerNodes(['gfx900 && ubuntu', 'gfx906 && ubuntu', 'gfx900 && centos7', 'gfx906 && centos7'], rocblas)
 
     boolean formatCheck = true
 
@@ -41,7 +41,7 @@ rocBLASCI:
         platform, project->
 
         project.paths.construct_build_prefix()
-        
+
         def command
 
         if(platform.jenkinsLabel.contains('hip-clang'))
@@ -63,6 +63,8 @@ rocBLASCI:
         platform.runCommand(this, command)
     }
 
+    rocblas.timeout.test = 10
+
     def testCommand =
     {
         platform, project->
@@ -78,7 +80,7 @@ rocBLASCI:
                         cd ${project.paths.project_build_prefix}/build/release/clients/staging
                         LD_LIBRARY_PATH=/opt/rocm/hcc/lib GTEST_LISTENER=NO_PASS_LINE_IN_LOG sudo ./rocblas-test --gtest_output=xml --gtest_color=yes --gtest_filter=*nightly*-*known_bug* #--gtest_filter=*nightly*
                     """
-                
+
                 platform.runCommand(this, command)
                 junit "${project.paths.project_build_prefix}/build/release/clients/staging/*.xml"
             }
@@ -90,7 +92,7 @@ rocBLASCI:
                         LD_LIBRARY_PATH=/opt/rocm/hcc/lib ./example-sscal
                         LD_LIBRARY_PATH=/opt/rocm/hcc/lib GTEST_LISTENER=NO_PASS_LINE_IN_LOG sudo ./rocblas-test --gtest_output=xml --gtest_color=yes  --gtest_filter=*quick*:*pre_checkin*-*known_bug* #--gtest_filter=*checkin*
                     """
-        
+                
                 platform.runCommand(this, command)
                 junit "${project.paths.project_build_prefix}/build/release/clients/staging/*.xml"
             }
@@ -104,7 +106,7 @@ rocBLASCI:
                         cd ${project.paths.project_build_prefix}/build/release/clients/staging
                         LD_LIBRARY_PATH=/opt/rocm/hcc/lib GTEST_LISTENER=NO_PASS_LINE_IN_LOG ./rocblas-test --gtest_output=xml --gtest_color=yes --gtest_filter=*nightly*-*known_bug* #--gtest_filter=*nightly*
                     """
-                
+
                 platform.runCommand(this, command)
                 junit "${project.paths.project_build_prefix}/build/release/clients/staging/*.xml"
             }
@@ -116,7 +118,7 @@ rocBLASCI:
                         LD_LIBRARY_PATH=/opt/rocm/hcc/lib ./example-sscal
                         LD_LIBRARY_PATH=/opt/rocm/hcc/lib GTEST_LISTENER=NO_PASS_LINE_IN_LOG ./rocblas-test --gtest_output=xml --gtest_color=yes  --gtest_filter=*quick*:*pre_checkin*-*known_bug* #--gtest_filter=*checkin*
                     """
-        
+
                 platform.runCommand(this, command)
                 junit "${project.paths.project_build_prefix}/build/release/clients/staging/*.xml"
             }
@@ -127,21 +129,21 @@ rocBLASCI:
     {
         platform, project->
 
-        def command 
-        
+        def command
+
         if(platform.jenkinsLabel.contains('centos'))
         {
             command = """
                     set -x
                     cd ${project.paths.project_build_prefix}/build/release
                     make package
-                    rm -rf package && mkdir -p package
+                    mkdir -p package
                     mv *.rpm package/
                     rpm -qlp package/*.rpm
                 """
 
             platform.runCommand(this, command)
-            platform.archiveArtifacts(this, """${project.paths.project_build_prefix}/build/release/package/*.rpm""")        
+            platform.archiveArtifacts(this, """${project.paths.project_build_prefix}/build/release/package/*.rpm""")
         }
         else if(platform.jenkinsLabel.contains('hip-clang'))
         {
@@ -153,9 +155,10 @@ rocBLASCI:
                     set -x
                     cd ${project.paths.project_build_prefix}/build/release
                     make package
-                    rm -rf package && mkdir -p package
+                    make package_clients
+                    mkdir -p package
                     mv *.deb package/
-                    dpkg -c package/*.deb
+                    mv clients/*.deb package/
                 """
 
             platform.runCommand(this, command)
diff --git a/bump_develop_version.sh b/bump_develop_version.sh
index b1d7ab28b..557af9c80 100755
--- a/bump_develop_version.sh
+++ b/bump_develop_version.sh
@@ -5,11 +5,11 @@
 # - run this script in master branch 
 # - after running this script merge master into develop 
 
-OLD_ROCBLAS_VERSION="2.6.0"
-NEW_ROCBLAS_VERSION="2.7.0"
+OLD_ROCBLAS_VERSION="2.8.0"
+NEW_ROCBLAS_VERSION="2.9.0"
 
-OLD_TENSILE_VERSION="tensile_tag f5b33e22367807ca5bff1002b6e7e8939409d961"
-NEW_TENSILE_VERSION="tensile_tag develop"
+OLD_TENSILE_VERSION="tensile_tag 015477ad8c8ea0ef6f59b8d49a65015b46b8a48e"
+NEW_TENSILE_VERSION="tensile_tag 015477ad8c8ea0ef6f59b8d49a65015b46b8a48e"
 
 sed -i "s/${OLD_ROCBLAS_VERSION}/${NEW_ROCBLAS_VERSION}/g" CMakeLists.txt
 sed -i "s/${OLD_TENSILE_VERSION}/${NEW_TENSILE_VERSION}/g" CMakeLists.txt
diff --git a/bump_master_version.sh b/bump_master_version.sh
index 3e6324de8..5f1029d24 100755
--- a/bump_master_version.sh
+++ b/bump_master_version.sh
@@ -6,11 +6,11 @@
 # - after running this script and merging develop into master, run bump_develop_version.sh in master and
 #   merge master into develop
 
-OLD_ROCBLAS_VERSION="2.5.0"
-NEW_ROCBLAS_VERSION="2.6.0"
+OLD_ROCBLAS_VERSION="2.7.0"
+NEW_ROCBLAS_VERSION="2.8.0"
 
-OLD_TENSILE_VERSION="tensile_tag develop"
-NEW_TENSILE_VERSION="tensile_tag f5b33e22367807ca5bff1002b6e7e8939409d961"
+OLD_TENSILE_VERSION="tensile_tag 9c63a0bf1c0acdb44376ddc80b867beb3386981a"
+NEW_TENSILE_VERSION="tensile_tag 015477ad8c8ea0ef6f59b8d49a65015b46b8a48e"
 
 OLD_MINIMUM_REQUIRED_VERSION="MinimumRequiredVersion: 4.6.0"
 NEW_MINIMUM_REQUIRED_VERSION="MinimumRequiredVersion: 4.7.1"
diff --git a/clients/CMakeLists.txt b/clients/CMakeLists.txt
index 060453744..9d8ebcb94 100755
--- a/clients/CMakeLists.txt
+++ b/clients/CMakeLists.txt
@@ -24,6 +24,15 @@ endif()
 # This project may compile dependencies for clients
 project( rocblas-clients LANGUAGES CXX )
 
+if(EXISTS /etc/redhat-release)
+    set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -fopenmp=libgomp -pthread")
+else()
+    set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -fopenmp -pthread")
+endif()
+
+set(THREADS_PREFER_PTHREAD_FLAG ON)
+find_package(Threads REQUIRED)
+
 list( APPEND CMAKE_MODULE_PATH ${CMAKE_CURRENT_SOURCE_DIR}/cmake )
 
 include( build-options )
@@ -75,3 +84,46 @@ add_custom_command( OUTPUT "${ROCBLAS_GENTEST}"
                     WORKING_DIRECTORY "${CMAKE_CURRENT_SOURCE_DIR}" )
 
 add_custom_target( rocblas-common DEPENDS "${ROCBLAS_COMMON}" "${ROCBLAS_TEMPLATE}" "${ROCBLAS_GENTEST}" )
+
+
+# TODO: move to rocm-cmake
+include(CMakeParseArguments)
+
+function(rocm_create_package_clients)
+    set(options)
+    set(oneValueArgs LIB_NAME DESCRIPTION SECTION MAINTAINER VERSION)
+    set(multiValueArgs DEPENDS)
+
+    cmake_parse_arguments(PARSE "${options}" "${oneValueArgs}" "${multiValueArgs}" ${ARGN})
+
+    string(CONCAT PACKAGE_NAME ${PARSE_LIB_NAME} "-clients-" ${PARSE_VERSION} "-Linux.deb")
+    string(CONCAT DEB_CONTROL_FILE_CONTENT "Package: " ${PARSE_LIB_NAME} "-clients"
+                                           "\nVersion: " ${PARSE_VERSION}
+                                           "\nSection: " ${PARSE_SECTION}
+                                           "\nPriority: optional"
+                                           "\nArchitecture: amd64"
+                                           "\nMaintainer: " ${PARSE_MAINTAINER}
+                                           "\nDescription: " ${PARSE_DESCRIPTION}
+                                           "\nDepends: " ${PARSE_LIB_NAME} "(>=" ${PARSE_VERSION} ")\n\n")
+
+    if(EXISTS "${PROJECT_BINARY_DIR}/package")
+        file(REMOVE_RECURSE "${PROJECT_BINARY_DIR}/package")
+    endif()
+    file(MAKE_DIRECTORY "${PROJECT_BINARY_DIR}/package/opt/rocm/${PARSE_LIB_NAME}/bin")
+    file(WRITE "${PROJECT_BINARY_DIR}/package/DEBIAN/control" ${DEB_CONTROL_FILE_CONTENT})
+
+    add_custom_target(package_clients
+        COMMAND ${CMAKE_COMMAND} -E remove -f "${PROJECT_BINARY_DIR}/package/opt/rocm/${PARSE_LIB_NAME}/bin/*"
+        COMMAND ${CMAKE_COMMAND} -E copy "${PROJECT_BINARY_DIR}/staging/*" "${PROJECT_BINARY_DIR}/package/opt/rocm/${PARSE_LIB_NAME}/bin"
+        COMMAND dpkg -b "${PROJECT_BINARY_DIR}/package/"  ${PACKAGE_NAME})
+endfunction(rocm_create_package_clients)
+
+
+if (BUILD_CLIENTS_SAMPLES OR  BUILD_CLIENTS_TESTS OR BUILD_CLIENTS_SELFTEST OR BUILD_CLIENTS_RIDER)
+
+rocm_create_package_clients(LIB_NAME rocblas
+                            DESCRIPTION "Radeon Open Compute BLAS library"
+                            MAINTAINER "rocblas-maintainer@amd.com>"
+                            SECTION "dev"
+                            VERSION ${rocblas_VERSION})
+endif()
diff --git a/clients/benchmarks/CMakeLists.txt b/clients/benchmarks/CMakeLists.txt
index 1b175009e..b27746611 100644
--- a/clients/benchmarks/CMakeLists.txt
+++ b/clients/benchmarks/CMakeLists.txt
@@ -8,6 +8,12 @@ set( Boost_DETAILED_FAILURE_MSG ON )
 set( Boost_ADDITIONAL_VERSIONS 1.65.1 1.65 )
 set( Boost_USE_STATIC_LIBS OFF )
 
+if(EXISTS /etc/redhat-release)
+    set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -fopenmp=libgomp -pthread")
+else()
+    set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -fopenmp -pthread")
+endif()
+
 find_package( Boost COMPONENTS program_options )
 
 if( NOT Boost_FOUND )
@@ -20,6 +26,9 @@ if( NOT Boost_FOUND )
   endif( )
 endif( )
 
+set( THREADS_PREFER_PTHREAD_FLAG ON )
+find_package( Threads REQUIRED )
+
 # Linking lapack library requires fortran flags
 enable_language( Fortran )
 find_package( cblas CONFIG REQUIRED )
@@ -27,15 +36,19 @@ if( NOT cblas_FOUND )
   message( FATAL_ERROR "cblas is a required dependency and is not found;  try adding cblas path to CMAKE_PREFIX_PATH" )
 endif( )
 
+if(LINK_BLIS)
+  set( BLIS_CPP ../common/blis_interface.cpp )
+endif()
+
 set( rocblas_benchmark_common
       ../common/utility.cpp
       ../common/cblas_interface.cpp
-      ../common/norm.cpp
+      ${BLIS_CPP}
       ../common/rocblas_parse_data.cpp
     )
 
 add_executable( rocblas-bench client.cpp ${rocblas_benchmark_common} )
-target_compile_features( rocblas-bench PRIVATE cxx_static_assert cxx_nullptr cxx_auto_type )
+target_compile_features( rocblas-bench PRIVATE cxx_static_assert cxx_nullptr cxx_auto_type)
 
 if( BUILD_WITH_TENSILE )
     target_compile_definitions( rocblas-bench PRIVATE BUILD_WITH_TENSILE=1 )
@@ -49,16 +62,49 @@ target_include_directories( rocblas-bench
     $<BUILD_INTERFACE:${CMAKE_CURRENT_SOURCE_DIR}/../include>
 )
 
-# External header includes included as system files
-target_include_directories( rocblas-bench
-  SYSTEM PRIVATE
-    $<BUILD_INTERFACE:${HIP_INCLUDE_DIRS}>
-    $<BUILD_INTERFACE:${HCC_INCLUDE_DIRS}>
-    $<BUILD_INTERFACE:${Boost_INCLUDE_DIRS}>
-    $<BUILD_INTERFACE:${CBLAS_INCLUDE_DIRS}>
+set( BLIS_INCLUDE_DIR ${CMAKE_SOURCE_DIR}/build/deps/blis/include/blis )
+set( BLIS_LIBRARY ${CMAKE_SOURCE_DIR}/build/deps/blis/lib/libblis.so )
+
+if( EXISTS /etc/redhat-release)
+    set( OPENMP_INCLUDE_DIR /opt/rh/devtoolset-7/root/usr/lib/gcc/x86_64-redhat-linux/7/include )
+    set( OPENMP_LIBRARY /opt/rh/devtoolset-7/root/usr/lib/gcc/x86_64-redhat-linux/7/libgomp.so ) 
+    set( CLANG_INCLUDE_DIR /opt/rocm/hcc/lib/clang/9.0.0/include ) 
+
+    # External header includes included as system files
+    target_include_directories( rocblas-bench
+      SYSTEM PRIVATE
+        $<BUILD_INTERFACE:${CLANG_INCLUDE_DIR}> 
+        $<BUILD_INTERFACE:${BLIS_INCLUDE_DIR}>
+        $<BUILD_INTERFACE:${HIP_INCLUDE_DIRS}>
+        $<BUILD_INTERFACE:${HCC_INCLUDE_DIRS}>
+        $<BUILD_INTERFACE:${Boost_INCLUDE_DIRS}>
+        $<BUILD_INTERFACE:${CBLAS_INCLUDE_DIRS}>
+        $<BUILD_INTERFACE:${OPENMP_INCLUDE_DIR}> 
+	)
+    if(LINK_BLIS)
+      target_link_libraries( rocblas-bench PRIVATE ${Boost_LIBRARIES} ${BLIS_LIBRARY} ${OPENMP_LIBRARY} cblas lapack roc::rocblas )
+    else()
+      target_link_libraries( rocblas-bench PRIVATE ${Boost_LIBRARIES} ${OPENMP_LIBRARY} cblas lapack roc::rocblas )
+    endif()
+
+else()
+    # External header includes included as system files
+    target_include_directories( rocblas-bench
+      SYSTEM PRIVATE
+        $<BUILD_INTERFACE:${HIP_INCLUDE_DIRS}>
+        $<BUILD_INTERFACE:${HCC_INCLUDE_DIRS}>
+        $<BUILD_INTERFACE:${Boost_INCLUDE_DIRS}>
+        $<BUILD_INTERFACE:${CBLAS_INCLUDE_DIRS}>
+        $<BUILD_INTERFACE:${BLIS_INCLUDE_DIR}>
     )
+    
+    if(LINK_BLIS)
+      target_link_libraries( rocblas-bench PRIVATE ${Boost_LIBRARIES} ${BLIS_LIBRARY} cblas lapack roc::rocblas )
+    else()
+      target_link_libraries( rocblas-bench PRIVATE ${Boost_LIBRARIES} cblas lapack roc::rocblas )
+    endif()
 
-target_link_libraries( rocblas-bench PRIVATE ${Boost_LIBRARIES} cblas lapack roc::rocblas )
+endif()
 
 get_target_property( HIPHCC_LOCATION hip::hip_hcc IMPORTED_LOCATION_RELEASE )
 
diff --git a/clients/benchmarks/client.cpp b/clients/benchmarks/client.cpp
index 4ff1679e5..944ff95df 100644
--- a/clients/benchmarks/client.cpp
+++ b/clients/benchmarks/client.cpp
@@ -13,9 +13,15 @@
 #include "testing_dot.hpp"
 #include "testing_geam.hpp"
 #include "testing_gemv.hpp"
+#include "testing_gemv_batched.hpp"
+#include "testing_gemv_strided_batched.hpp"
 #include "testing_ger.hpp"
 #include "testing_iamax_iamin.hpp"
 #include "testing_nrm2.hpp"
+#include "testing_rot.hpp"
+#include "testing_rotg.hpp"
+#include "testing_rotm.hpp"
+#include "testing_rotmg.hpp"
 #include "testing_scal.hpp"
 #include "testing_set_get_matrix.hpp"
 #include "testing_set_get_vector.hpp"
@@ -48,7 +54,7 @@ using namespace std::literals;
 #include "testing_trsv.hpp"
 
 // Template to dispatch testing_gemm_ex for performance tests
-// When Ti == void or complex, the test is marked invalid
+// When Ti == void or Ti == To == Tc == bfloat16, the test is marked invalid
 template <typename Ti, typename To = Ti, typename Tc = To, typename = void>
 struct perf_gemm_ex : rocblas_test_invalid
 {
@@ -58,7 +64,9 @@ template <typename Ti, typename To, typename Tc>
 struct perf_gemm_ex<Ti,
                     To,
                     Tc,
-                    typename std::enable_if<!std::is_same<Ti, void>{} && !is_complex<Ti>>::type>
+                    typename std::enable_if<!std::is_same<Ti, void>{}
+                                            && !(std::is_same<Ti, To>{} && std::is_same<Ti, Tc>{}
+                                                 && std::is_same<Ti, rocblas_bfloat16>{})>::type>
 {
     explicit operator bool()
     {
@@ -71,7 +79,7 @@ struct perf_gemm_ex<Ti,
 };
 
 // Template to dispatch testing_gemm_strided_batched_ex for performance tests
-// When Ti == void or complex, the test is marked invalid
+// When Ti == void or Ti == To == Tc == bfloat16, the test is marked invalid
 template <typename Ti, typename To = Ti, typename Tc = To, typename = void>
 struct perf_gemm_strided_batched_ex : rocblas_test_invalid
 {
@@ -82,7 +90,9 @@ struct perf_gemm_strided_batched_ex<
     Ti,
     To,
     Tc,
-    typename std::enable_if<!std::is_same<Ti, void>{} && !is_complex<Ti>>::type>
+    typename std::enable_if<!std::is_same<Ti, void>{}
+                            && !(std::is_same<Ti, To>{} && std::is_same<Ti, Tc>{}
+                                 && std::is_same<Ti, rocblas_bfloat16>{})>::type>
 {
     explicit operator bool()
     {
@@ -141,6 +151,10 @@ struct perf_blas<
             testing_nrm2<T>(arg);
         else if(!strcmp(arg.function, "gemv"))
             testing_gemv<T>(arg);
+        else if(!strcmp(arg.function, "gemv_batched"))
+            testing_gemv_batched<T>(arg);
+        else if(!strcmp(arg.function, "gemv_strided_batched"))
+            testing_gemv_strided_batched<T>(arg);
         else if(!strcmp(arg.function, "ger"))
             testing_ger<T>(arg);
         else if(!strcmp(arg.function, "syr"))
@@ -155,6 +169,31 @@ struct perf_blas<
             testing_set_get_vector<T>(arg);
         else if(!strcmp(arg.function, "set_get_matrix"))
             testing_set_get_matrix<T>(arg);
+        else if(!strcmp(arg.function, "rot"))
+            testing_rot<T>(arg);
+        else if(!strcmp(arg.function, "rotg"))
+            testing_rotg<T>(arg);
+        else if(!strcmp(arg.function, "rotm"))
+            testing_rotm<T>(arg);
+        else if(!strcmp(arg.function, "rotmg"))
+            testing_rotmg<T>(arg);
+        else
+            throw std::invalid_argument("Invalid combination --function "s + arg.function
+                                        + " --a_type "s + rocblas_datatype2string(arg.a_type));
+    }
+};
+
+template <typename T, typename U>
+struct perf_blas<T, U, typename std::enable_if<std::is_same<T, rocblas_bfloat16>{}>::type>
+{
+    explicit operator bool()
+    {
+        return true;
+    }
+    void operator()(const Arguments& arg)
+    {
+        if(!strcmp(arg.function, "dot"))
+            testing_dot<T>(arg);
         else
             throw std::invalid_argument("Invalid combination --function "s + arg.function
                                         + " --a_type "s + rocblas_datatype2string(arg.a_type));
@@ -172,6 +211,8 @@ struct perf_blas<T, U, typename std::enable_if<std::is_same<T, rocblas_half>{}>:
     {
         if(!strcmp(arg.function, "axpy"))
             testing_axpy<T>(arg);
+        else if(!strcmp(arg.function, "dot"))
+            testing_dot<T>(arg);
         else if(!strcmp(arg.function, "gemm"))
             testing_gemm<T>(arg);
         else if(!strcmp(arg.function, "gemm_strided_batched"))
@@ -194,7 +235,11 @@ struct perf_blas<T,
     }
     void operator()(const Arguments& arg)
     {
-        if(!strcmp(arg.function, "asum"))
+        if(!strcmp(arg.function, "gemm"))
+            testing_gemm<T>(arg);
+        else if(!strcmp(arg.function, "gemm_strided_batched"))
+            testing_gemm_strided_batched<T>(arg);
+        else if(!strcmp(arg.function, "asum"))
             testing_asum<T>(arg);
         else if(!strcmp(arg.function, "axpy"))
             testing_axpy<T>(arg);
@@ -500,6 +545,16 @@ try
          "Specific stride of strided_batched matrix D, is only applicable to strided batched"
          "BLAS_EX: second dimension * leading dimension.")
 
+        ("stride_x",
+         value<rocblas_int>(&arg.stride_x)->default_value(128*128),
+         "Specific stride of strided_batched vector x, is only applicable to strided batched"
+         "BLAS_2: second dimension.")
+
+        ("stride_y",
+         value<rocblas_int>(&arg.stride_y)->default_value(128*128),
+         "Specific stride of strided_batched vector y, is only applicable to strided batched"
+         "BLAS_2: leading dimension.")
+
         ("incx",
          value<rocblas_int>(&arg.incx)->default_value(1),
          "increment between values in x vector")
@@ -518,7 +573,7 @@ try
          value<double>(&arg.beta)->default_value(0.0), "specifies the scalar beta")
 
         ("betai",
-         value<double>(&arg.beta)->default_value(0.0), "specifies the imaginary part of the scalar beta")
+         value<double>(&arg.betai)->default_value(0.0), "specifies the imaginary part of the scalar beta")
 
         ("function,f",
          value<std::string>(&function),
diff --git a/clients/common/blis_interface.cpp b/clients/common/blis_interface.cpp
new file mode 100644
index 000000000..2f279f6db
--- /dev/null
+++ b/clients/common/blis_interface.cpp
@@ -0,0 +1,9 @@
+#include "blis.h"
+#include "omp.h"
+
+void setup_blis()
+{
+    bli_init();
+}
+
+static int initialize_blis = (setup_blis(), 0);
diff --git a/clients/common/cblas_interface.cpp b/clients/common/cblas_interface.cpp
index 86a7fa3b7..74eb44ceb 100644
--- a/clients/common/cblas_interface.cpp
+++ b/clients/common/cblas_interface.cpp
@@ -39,6 +39,50 @@ void cblas_axpy<rocblas_half>(rocblas_int   n,
     }
 }
 
+template <>
+void cblas_dot<rocblas_half>(rocblas_int         n,
+                             const rocblas_half* x,
+                             rocblas_int         incx,
+                             const rocblas_half* y,
+                             rocblas_int         incy,
+                             rocblas_half*       result)
+{
+    size_t             abs_incx = incx >= 0 ? incx : -incx;
+    size_t             abs_incy = incy >= 0 ? incy : -incy;
+    host_vector<float> x_float(n * abs_incx);
+    host_vector<float> y_float(n * abs_incy);
+
+    for(size_t i = 0; i < n; i++)
+    {
+        x_float[i * abs_incx] = half_to_float(x[i * abs_incx]);
+        y_float[i * abs_incy] = half_to_float(y[i * abs_incy]);
+    }
+
+    *result = float_to_half(cblas_sdot(n, x_float, incx, y_float, incy));
+}
+
+template <>
+void cblas_dot<rocblas_bfloat16>(rocblas_int             n,
+                                 const rocblas_bfloat16* x,
+                                 rocblas_int             incx,
+                                 const rocblas_bfloat16* y,
+                                 rocblas_int             incy,
+                                 rocblas_bfloat16*       result)
+{
+    size_t             abs_incx = incx >= 0 ? incx : -incx;
+    size_t             abs_incy = incy >= 0 ? incy : -incy;
+    host_vector<float> x_float(n * abs_incx);
+    host_vector<float> y_float(n * abs_incy);
+
+    for(size_t i = 0; i < n; i++)
+    {
+        x_float[i * abs_incx] = float(x[i * abs_incx]);
+        y_float[i * abs_incy] = float(y[i * abs_incy]);
+    }
+
+    *result = rocblas_bfloat16(cblas_sdot(n, x_float, incx, y_float, incy));
+}
+
 /*
  * ===========================================================================
  *    level 2 BLAS
diff --git a/clients/common/norm.cpp b/clients/common/norm.cpp
deleted file mode 100644
index b350e6c2d..000000000
--- a/clients/common/norm.cpp
+++ /dev/null
@@ -1,596 +0,0 @@
-/* ************************************************************************
- * Copyright 2018-2019 Advanced Micro Devices, Inc.
- *
- * ************************************************************************ */
-
-#include "norm.hpp"
-#include "cblas.h"
-#include "rocblas.h"
-#include "rocblas_vector.hpp"
-#include "utility.hpp"
-#include <cstdio>
-#include <limits>
-#include <memory>
-
-/* =====================================================================
-     README: Norm check: norm(A-B)/norm(A), evaluate relative error
-             Numerically, it is recommended by lapack.
-
-    Call lapack fortran routines that do not exsit in cblas library.
-    No special header is required. But need to declare
-    function prototype
-
-    All the functions are fortran and should append underscore (_) while
-    declaring prototype and calling.
-    xlange and xaxpy prototype are like following
-    =================================================================== */
-
-extern "C" {
-float  slange_(char* norm_type, int* m, int* n, float* A, int* lda, float* work);
-double dlange_(char* norm_type, int* m, int* n, double* A, int* lda, double* work);
-float  clange_(char* norm_type, int* m, int* n, rocblas_float_complex* A, int* lda, float* work);
-double zlange_(char* norm_type, int* m, int* n, rocblas_double_complex* A, int* lda, double* work);
-
-float  slansy_(char* norm_type, char* uplo, int* n, float* A, int* lda, float* work);
-double dlansy_(char* norm_type, char* uplo, int* n, double* A, int* lda, double* work);
-float clanhe_(char* norm_type, char* uplo, int* n, rocblas_float_complex* A, int* lda, float* work);
-double
-    zlanhe_(char* norm_type, char* uplo, int* n, rocblas_double_complex* A, int* lda, double* work);
-
-void saxpy_(int* n, float* alpha, float* x, int* incx, float* y, int* incy);
-void daxpy_(int* n, double* alpha, double* x, int* incx, double* y, int* incy);
-void caxpy_(
-    int* n, float* alpha, rocblas_float_complex* x, int* incx, rocblas_float_complex* y, int* incy);
-void zaxpy_(int*                    n,
-            double*                 alpha,
-            rocblas_double_complex* x,
-            int*                    incx,
-            rocblas_double_complex* y,
-            int*                    incy);
-}
-
-/* ============================Norm Check for General Matrix: float/double/complex template
- * speciliazation ======================================= */
-
-/*! \brief compare the norm error of two matrices hCPU & hGPU */
-template <>
-double norm_check_general<rocblas_bfloat16>(char              norm_type,
-                                            rocblas_int       M,
-                                            rocblas_int       N,
-                                            rocblas_int       lda,
-                                            rocblas_bfloat16* hCPU,
-                                            rocblas_bfloat16* hGPU)
-{
-    // norm type can be 'O', 'I', 'F', 'o', 'i', 'f' for one, infinity or Frobenius norm
-    // one norm is max column sum
-    // infinity norm is max row sum
-    // Frobenius is l2 norm of matrix entries
-
-    double error_double = std::numeric_limits<double>::quiet_NaN();
-
-    host_vector<float> hCPU_float(N * lda), hGPU_float(N * lda);
-    for(rocblas_int i = 0; i < N * lda; i++)
-    {
-        hCPU_float[i] = float(hCPU[i]);
-        hGPU_float[i] = float(hGPU[i]);
-    }
-
-    float       work;
-    rocblas_int incx  = 1;
-    float       alpha = -1.0f;
-    rocblas_int size  = lda * N;
-
-    float cpu_norm = slange_(&norm_type, &M, &N, hCPU_float, &lda, &work);
-    saxpy_(&size, &alpha, hCPU_float, &incx, hGPU_float, &incx);
-
-    float error_float = slange_(&norm_type, &M, &N, hGPU_float, &lda, &work) / cpu_norm;
-    error_double      = double(error_float);
-
-    return error_double;
-}
-
-template <>
-double norm_check_general<rocblas_half>(char          norm_type,
-                                        rocblas_int   M,
-                                        rocblas_int   N,
-                                        rocblas_int   lda,
-                                        rocblas_half* hCPU,
-                                        rocblas_half* hGPU)
-{
-    // norm type can be 'O', 'I', 'F', 'o', 'i', 'f' for one, infinity or Frobenius norm
-    // one norm is max column sum
-    // infinity norm is max row sum
-    // Frobenius is l2 norm of matrix entries
-
-    double error_double = std::numeric_limits<double>::quiet_NaN();
-
-    host_vector<float> hCPU_float(N * lda), hGPU_float(N * lda);
-    for(rocblas_int i = 0; i < N * lda; i++)
-    {
-        hCPU_float[i] = half_to_float(hCPU[i]);
-        hGPU_float[i] = half_to_float(hGPU[i]);
-    }
-
-    float       work;
-    rocblas_int incx  = 1;
-    float       alpha = -1.0f;
-    rocblas_int size  = lda * N;
-
-    float cpu_norm = slange_(&norm_type, &M, &N, hCPU_float, &lda, &work);
-    saxpy_(&size, &alpha, hCPU_float, &incx, hGPU_float, &incx);
-
-    float error_float = slange_(&norm_type, &M, &N, hGPU_float, &lda, &work) / cpu_norm;
-    error_double      = double(error_float);
-
-    return error_double;
-}
-
-template <>
-double norm_check_general<float>(
-    char norm_type, rocblas_int M, rocblas_int N, rocblas_int lda, float* hCPU, float* hGPU)
-{
-    // norm type can be O', 'I', 'F', 'o', 'i', 'f' for one, infinity or Frobenius norm
-    // one norm is max column sum
-    // infinity norm is max row sum
-    // Frobenius is l2 norm of matrix entries
-
-    float       work;
-    rocblas_int incx  = 1;
-    float       alpha = -1.0f;
-    rocblas_int size  = lda * N;
-
-    float cpu_norm = slange_(&norm_type, &M, &N, hCPU, &lda, &work);
-    saxpy_(&size, &alpha, hCPU, &incx, hGPU, &incx);
-
-    float error = slange_(&norm_type, &M, &N, hGPU, &lda, &work) / cpu_norm;
-
-    return (double)error;
-}
-
-template <>
-double norm_check_general<double>(
-    char norm_type, rocblas_int M, rocblas_int N, rocblas_int lda, double* hCPU, double* hGPU)
-{
-    // norm type can be O', 'I', 'F', 'o', 'i', 'f' for one, infinity or Frobenius norm
-    // one norm is max column sum
-    // infinity norm is max row sum
-    // Frobenius is l2 norm of matrix entries
-
-    double      work[1];
-    rocblas_int incx  = 1;
-    double      alpha = -1.0;
-    rocblas_int size  = lda * N;
-
-    double cpu_norm = dlange_(&norm_type, &M, &N, hCPU, &lda, work);
-    daxpy_(&size, &alpha, hCPU, &incx, hGPU, &incx);
-
-    double error = dlange_(&norm_type, &M, &N, hGPU, &lda, work) / cpu_norm;
-
-    return error;
-}
-
-template <>
-double norm_check_general<int32_t>(
-    char norm_type, rocblas_int M, rocblas_int N, rocblas_int lda, int32_t* hCPU, int32_t* hGPU)
-{
-    // Upconvert int32_t to double and call double version
-    host_vector<double> hCPU_double(M * N), hGPU_double(M * N);
-
-    for(int i = 0; i < M * N; i++)
-    {
-        hCPU_double[i] = double(hCPU[i]);
-        hGPU_double[i] = double(hGPU[i]);
-    }
-    return norm_check_general<double>(norm_type, M, N, lda, hCPU_double, hGPU_double);
-}
-
-template <>
-double norm_check_general<rocblas_float_complex>(char                   norm_type,
-                                                 rocblas_int            M,
-                                                 rocblas_int            N,
-                                                 rocblas_int            lda,
-                                                 rocblas_float_complex* hCPU,
-                                                 rocblas_float_complex* hGPU)
-{
-    // norm type can be O', 'I', 'F', 'o', 'i', 'f' for one, infinity or Frobenius norm
-    // one norm is max column sum
-    // infinity norm is max row sum
-    // Frobenius is l2 norm of matrix entries
-
-    float       work[1];
-    rocblas_int incx  = 1;
-    float       alpha = -1.0f;
-    rocblas_int size  = lda * N;
-
-    float cpu_norm = clange_(&norm_type, &M, &N, hCPU, &lda, work);
-    caxpy_(&size, &alpha, hCPU, &incx, hGPU, &incx);
-
-    float error = clange_(&norm_type, &M, &N, hGPU, &lda, work) / cpu_norm;
-
-    return (double)error;
-}
-
-template <>
-double norm_check_general<rocblas_double_complex>(char                    norm_type,
-                                                  rocblas_int             M,
-                                                  rocblas_int             N,
-                                                  rocblas_int             lda,
-                                                  rocblas_double_complex* hCPU,
-                                                  rocblas_double_complex* hGPU)
-{
-    // norm type can be O', 'I', 'F', 'o', 'i', 'f' for one, infinity or Frobenius norm
-    // one norm is max column sum
-    // infinity norm is max row sum
-    // Frobenius is l2 norm of matrix entries
-
-    double      work[1];
-    rocblas_int incx  = 1;
-    double      alpha = -1.0;
-    rocblas_int size  = lda * N;
-
-    double cpu_norm = zlange_(&norm_type, &M, &N, hCPU, &lda, work);
-    zaxpy_(&size, &alpha, hCPU, &incx, hGPU, &incx);
-
-    double error = zlange_(&norm_type, &M, &N, hGPU, &lda, work) / cpu_norm;
-
-    return error;
-}
-
-//=====Norm Check for strided_batched matrix
-template <>
-double norm_check_general<rocblas_bfloat16>(char              norm_type,
-                                            rocblas_int       M,
-                                            rocblas_int       N,
-                                            rocblas_int       lda,
-                                            rocblas_int       stride_a,
-                                            rocblas_int       batch_count,
-                                            rocblas_bfloat16* hCPU,
-                                            rocblas_bfloat16* hGPU)
-{
-    // norm type can be O', 'I', 'F', 'o', 'i', 'f' for one, infinity or Frobenius norm
-    // one norm is max column sum
-    // infinity norm is max row sum
-    // Frobenius is l2 norm of matrix entries
-    //
-    // use triangle inequality ||a+b|| <= ||a|| + ||b|| to calculate upper limit for Frobenius norm
-    // of strided batched matrix
-
-    rocblas_int        totalsize = N * lda + (batch_count - 1) * stride_a;
-    host_vector<float> hCPU_float(totalsize), hGPU_float(totalsize);
-    for(rocblas_int i_batch = 0; i_batch < batch_count; i_batch++)
-    {
-        for(rocblas_int i = 0; i < N * lda; i++)
-        {
-            auto index        = i + i_batch * stride_a;
-            hCPU_float[index] = float(hCPU[index]);
-            hGPU_float[index] = float(hGPU[index]);
-        }
-    }
-
-    float       work;
-    rocblas_int incx  = 1;
-    float       alpha = -1.0f;
-    rocblas_int size  = lda * N;
-
-    double cumulative_error = 0.0;
-
-    for(rocblas_int i = 0; i < batch_count; i++)
-    {
-        float cpu_norm = slange_(&norm_type, &M, &N, &hCPU_float[i * stride_a], &lda, &work);
-
-        saxpy_(&size, &alpha, &hCPU_float[i * stride_a], &incx, &hGPU_float[i * stride_a], &incx);
-
-        float error
-            = slange_(&norm_type, &M, &N, &hGPU_float[i * stride_a], &lda, &work) / cpu_norm;
-
-        if(norm_type == 'F' || norm_type == 'f')
-        {
-            cumulative_error += error;
-        }
-        else if(norm_type == 'O' || norm_type == 'o' || norm_type == 'I' || norm_type == 'i')
-        {
-            cumulative_error = cumulative_error > error ? cumulative_error : error;
-        }
-    }
-
-    return cumulative_error;
-}
-
-template <>
-double norm_check_general<rocblas_half>(char          norm_type,
-                                        rocblas_int   M,
-                                        rocblas_int   N,
-                                        rocblas_int   lda,
-                                        rocblas_int   stride_a,
-                                        rocblas_int   batch_count,
-                                        rocblas_half* hCPU,
-                                        rocblas_half* hGPU)
-{
-    // norm type can be O', 'I', 'F', 'o', 'i', 'f' for one, infinity or Frobenius norm
-    // one norm is max column sum
-    // infinity norm is max row sum
-    // Frobenius is l2 norm of matrix entries
-    //
-    // use triangle inequality ||a+b|| <= ||a|| + ||b|| to calculate upper limit for Frobenius norm
-    // of strided batched matrix
-
-    rocblas_int        totalsize = N * lda + (batch_count - 1) * stride_a;
-    host_vector<float> hCPU_float(totalsize), hGPU_float(totalsize);
-    for(rocblas_int i_batch = 0; i_batch < batch_count; i_batch++)
-    {
-        for(rocblas_int i = 0; i < N * lda; i++)
-        {
-            auto index        = i + i_batch * stride_a;
-            hCPU_float[index] = half_to_float(hCPU[index]);
-            hGPU_float[index] = half_to_float(hGPU[index]);
-        }
-    }
-
-    float       work;
-    rocblas_int incx  = 1;
-    float       alpha = -1.0f;
-    rocblas_int size  = lda * N;
-
-    double cumulative_error = 0.0;
-
-    for(rocblas_int i = 0; i < batch_count; i++)
-    {
-        float cpu_norm = slange_(&norm_type, &M, &N, &hCPU_float[i * stride_a], &lda, &work);
-
-        saxpy_(&size, &alpha, &hCPU_float[i * stride_a], &incx, &hGPU_float[i * stride_a], &incx);
-
-        float error
-            = slange_(&norm_type, &M, &N, &hGPU_float[i * stride_a], &lda, &work) / cpu_norm;
-
-        if(norm_type == 'F' || norm_type == 'f')
-        {
-            cumulative_error += error;
-        }
-        else if(norm_type == 'O' || norm_type == 'o' || norm_type == 'I' || norm_type == 'i')
-        {
-            cumulative_error = cumulative_error > error ? cumulative_error : error;
-        }
-    }
-
-    return cumulative_error;
-}
-
-//=====Norm Check for strided_batched matrix
-template <>
-double norm_check_general(char         norm_type,
-                          rocblas_int  M,
-                          rocblas_int  N,
-                          rocblas_int  lda,
-                          rocblas_int  stride_a,
-                          rocblas_int  batch_count,
-                          rocblas_int* hCPU,
-                          rocblas_int* hGPU)
-{
-    // norm type can be O', 'I', 'F', 'o', 'i', 'f' for one, infinity or Frobenius norm
-    // one norm is max column sum
-    // infinity norm is max row sum
-    // Frobenius is l2 norm of matrix entries
-    //
-    // use triangle inequality ||a+b|| <= ||a|| + ||b|| to calculate upper limit for Frobenius norm
-    // of strided batched matrix
-
-    rocblas_int         totalsize = N * lda + (batch_count - 1) * stride_a;
-    host_vector<double> hCPU_double(totalsize), hGPU_double(totalsize);
-    for(rocblas_int i_batch = 0; i_batch < batch_count; i_batch++)
-    {
-        for(rocblas_int i = 0; i < N * lda; i++)
-        {
-            auto index         = i + i_batch * stride_a;
-            hCPU_double[index] = hCPU[index];
-            hGPU_double[index] = hGPU[index];
-        }
-    }
-
-    double      work;
-    rocblas_int incx             = 1;
-    double      alpha            = -1.0f;
-    rocblas_int size             = lda * N;
-    double      cumulative_error = 0.0;
-
-    for(rocblas_int i = 0; i < batch_count; i++)
-    {
-        double cpu_norm = dlange_(&norm_type, &M, &N, &hCPU_double[i * stride_a], &lda, &work);
-
-        daxpy_(&size, &alpha, &hCPU_double[i * stride_a], &incx, &hGPU_double[i * stride_a], &incx);
-
-        double error
-            = dlange_(&norm_type, &M, &N, &hGPU_double[i * stride_a], &lda, &work) / cpu_norm;
-
-        if(norm_type == 'F' || norm_type == 'f')
-        {
-            cumulative_error += error;
-        }
-        else if(norm_type == 'O' || norm_type == 'o' || norm_type == 'I' || norm_type == 'i')
-        {
-            cumulative_error = cumulative_error > error ? cumulative_error : error;
-        }
-    }
-
-    return cumulative_error;
-}
-
-template <>
-double norm_check_general<float>(char        norm_type,
-                                 rocblas_int M,
-                                 rocblas_int N,
-                                 rocblas_int lda,
-                                 rocblas_int stride_a,
-                                 rocblas_int batch_count,
-                                 float*      hCPU,
-                                 float*      hGPU)
-{
-    // norm type can be O', 'I', 'F', 'o', 'i', 'f' for one, infinity or Frobenius norm
-    // one norm is max column sum
-    // infinity norm is max row sum
-    // Frobenius is l2 norm of matrix entries
-    //
-    // use triangle inequality ||a+b|| <= ||a|| + ||b|| to calculate upper limit for Frobenius norm
-    // of strided batched matrix
-
-    float       work;
-    rocblas_int incx  = 1;
-    float       alpha = -1.0f;
-    rocblas_int size  = lda * N;
-
-    double cumulative_error = 0.0;
-
-    for(int i = 0; i < batch_count; i++)
-    {
-        float cpu_norm = slange_(&norm_type, &M, &N, &(hCPU[i * stride_a]), &lda, &work);
-
-        saxpy_(&size, &alpha, &(hCPU[i * stride_a]), &incx, &(hGPU[i * stride_a]), &incx);
-
-        float error = slange_(&norm_type, &M, &N, &(hGPU[i * stride_a]), &lda, &work) / cpu_norm;
-
-        if(norm_type == 'F' || norm_type == 'f')
-        {
-            cumulative_error += error;
-        }
-        else if(norm_type == 'O' || norm_type == 'o' || norm_type == 'I' || norm_type == 'i')
-        {
-            cumulative_error = cumulative_error > error ? cumulative_error : error;
-        }
-    }
-
-    return cumulative_error;
-}
-
-template <>
-double norm_check_general<double>(char        norm_type,
-                                  rocblas_int M,
-                                  rocblas_int N,
-                                  rocblas_int lda,
-                                  rocblas_int stride_a,
-                                  rocblas_int batch_count,
-                                  double*     hCPU,
-                                  double*     hGPU)
-{
-    // norm type can be O', 'I', 'F', 'o', 'i', 'f' for one, infinity or Frobenius norm
-    // one norm is max column sum
-    // infinity norm is max row sum
-    // Frobenius is l2 norm of matrix entries
-    //
-    // use triangle inequality ||a+b|| <= ||a|| + ||b|| to calculate upper limit for Frobenius norm
-    // of strided batched matrix
-
-    double      work;
-    rocblas_int incx  = 1;
-    double      alpha = -1.0f;
-    rocblas_int size  = lda * N;
-
-    double cumulative_error = 0.0;
-
-    for(int i = 0; i < batch_count; i++)
-    {
-        double cpu_norm = dlange_(&norm_type, &M, &N, &(hCPU[i * stride_a]), &lda, &work);
-
-        daxpy_(&size, &alpha, &(hCPU[i * stride_a]), &incx, &(hGPU[i * stride_a]), &incx);
-
-        double error = dlange_(&norm_type, &M, &N, &(hGPU[i * stride_a]), &lda, &work) / cpu_norm;
-
-        if(norm_type == 'F' || norm_type == 'f')
-        {
-            cumulative_error += error;
-        }
-        else if(norm_type == 'O' || norm_type == 'o' || norm_type == 'I' || norm_type == 'i')
-        {
-            cumulative_error = cumulative_error > error ? cumulative_error : error;
-        }
-    }
-
-    return cumulative_error;
-}
-
-/* ============================Norm Check for Symmetric Matrix: float/double/complex template
- * speciliazation ======================================= */
-
-/*! \brief compare the norm error of two hermitian/symmetric matrices hCPU & hGPU */
-
-template <>
-double norm_check_symmetric<float>(
-    char norm_type, char uplo, rocblas_int N, rocblas_int lda, float* hCPU, float* hGPU)
-{
-    // norm type can be M', 'I', 'F', 'l': 'F' (Frobenius norm) is used mostly
-
-    float       work[1];
-    rocblas_int incx  = 1;
-    float       alpha = -1.0f;
-    rocblas_int size  = lda * N;
-
-    float cpu_norm = slansy_(&norm_type, &uplo, &N, hCPU, &lda, work);
-    saxpy_(&size, &alpha, hCPU, &incx, hGPU, &incx);
-
-    float error = slansy_(&norm_type, &uplo, &N, hGPU, &lda, work) / cpu_norm;
-
-    return (double)error;
-}
-
-template <>
-double norm_check_symmetric<double>(
-    char norm_type, char uplo, rocblas_int N, rocblas_int lda, double* hCPU, double* hGPU)
-{
-    // norm type can be M', 'I', 'F', 'l': 'F' (Frobenius norm) is used mostly
-
-    double      work[1];
-    rocblas_int incx  = 1;
-    double      alpha = -1.0;
-    rocblas_int size  = lda * N;
-
-    double cpu_norm = dlansy_(&norm_type, &uplo, &N, hCPU, &lda, work);
-    daxpy_(&size, &alpha, hCPU, &incx, hGPU, &incx);
-
-    double error = dlansy_(&norm_type, &uplo, &N, hGPU, &lda, work) / cpu_norm;
-
-    return error;
-}
-
-template <>
-double norm_check_symmetric<rocblas_float_complex>(char                   norm_type,
-                                                   char                   uplo,
-                                                   rocblas_int            N,
-                                                   rocblas_int            lda,
-                                                   rocblas_float_complex* hCPU,
-                                                   rocblas_float_complex* hGPU)
-{
-    // norm type can be M', 'I', 'F', 'l': 'F' (Frobenius norm) is used mostly
-
-    float       work[1];
-    rocblas_int incx  = 1;
-    float       alpha = -1.0f;
-    rocblas_int size  = lda * N;
-
-    float cpu_norm = clanhe_(&norm_type, &uplo, &N, hCPU, &lda, work);
-    caxpy_(&size, &alpha, hCPU, &incx, hGPU, &incx);
-
-    float error = clanhe_(&norm_type, &uplo, &N, hGPU, &lda, work) / cpu_norm;
-
-    return (double)error;
-}
-
-template <>
-double norm_check_symmetric<rocblas_double_complex>(char                    norm_type,
-                                                    char                    uplo,
-                                                    rocblas_int             N,
-                                                    rocblas_int             lda,
-                                                    rocblas_double_complex* hCPU,
-                                                    rocblas_double_complex* hGPU)
-{
-    // norm type can be M', 'I', 'F', 'l': 'F' (Frobenius norm) is used mostly
-
-    double      work[1];
-    rocblas_int incx  = 1;
-    double      alpha = -1.0;
-    rocblas_int size  = lda * N;
-
-    double cpu_norm = zlanhe_(&norm_type, &uplo, &N, hCPU, &lda, work);
-    zaxpy_(&size, &alpha, hCPU, &incx, hGPU, &incx);
-
-    double error = zlanhe_(&norm_type, &uplo, &N, hGPU, &lda, work) / cpu_norm;
-
-    return error;
-}
diff --git a/clients/common/rocblas_gentest.py b/clients/common/rocblas_gentest.py
index e2437e28b..f2b7ab4a1 100755
--- a/clients/common/rocblas_gentest.py
+++ b/clients/common/rocblas_gentest.py
@@ -195,6 +195,19 @@ def setdefaults(test):
     # Do not put constant defaults here -- use rocblas_common.yaml for that.
     # These are only for dynamic defaults
     # TODO: This should be ideally moved to YAML file, with eval'd expressions.
+
+    if all([x in test for x in ('M', 'incx', 'strideScale')]) and test['function']=='ger_strided_batched':
+        test.setdefault('stride_x', int(test['M'] * abs(test['incx']) *
+                                    test['strideScale']))
+    else:
+       test.setdefault('stride_x', 0)
+
+    if all([x in test for x in ('N', 'incy', 'strideScale')]) and test['function']=='ger_strided_batched':
+        test.setdefault('stride_y', int(test['N'] * abs(test['incy']) *
+                                        test['strideScale']))
+    else:
+        test.setdefault('stride_y', 0)
+
     if test['transA'] == '*' or test['transB'] == '*':
         test.setdefault('lda', 0)
         test.setdefault('ldb', 0)
diff --git a/clients/gtest/CMakeLists.txt b/clients/gtest/CMakeLists.txt
index a6c602bda..0ad325a4b 100644
--- a/clients/gtest/CMakeLists.txt
+++ b/clients/gtest/CMakeLists.txt
@@ -4,6 +4,7 @@
 
 # For debugging, uncomment this
 # set( CMAKE_CXX_FLAGS_RELEASE "${CMAKE_CXX_FLAGS_RELEASE} -g -O0" )
+set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -fopenmp")
 
 # set( Boost_DEBUG ON )
 set( Boost_USE_MULTITHREADED ON )
@@ -61,11 +62,14 @@ set(rocblas_test_source
     trtri_gtest.cpp
     )
 
+if(LINK_BLIS)
+  set( BLIS_CPP ../common/blis_interface.cpp )
+endif()
 
 set( rocblas_benchmark_common
       ../common/utility.cpp
       ../common/cblas_interface.cpp
-      ../common/norm.cpp
+      ${BLIS_CPP}
       ../common/rocblas_parse_data.cpp
     )
 
@@ -91,9 +95,53 @@ target_include_directories( rocblas-test
     $<BUILD_INTERFACE:${Boost_INCLUDE_DIRS}>
     $<BUILD_INTERFACE:${GTEST_INCLUDE_DIRS}>
     $<BUILD_INTERFACE:${CBLAS_INCLUDE_DIRS}>
+    $<BUILD_INTERFACE:${BLIS_INCLUDE_DIR}>
     )
 
-target_link_libraries( rocblas-test PRIVATE ${GTEST_LIBRARIES} ${Boost_LIBRARIES} cblas lapack roc::rocblas Threads::Threads )
+set( BLIS_INCLUDE_DIR ${CMAKE_SOURCE_DIR}/build/deps/blis/include/blis )
+set( BLIS_LIBRARY ${CMAKE_SOURCE_DIR}/build/deps/blis/lib/libblis.so )
+
+if( EXISTS /etc/redhat-release)
+    set( OPENMP_INCLUDE_DIR /opt/rh/devtoolset-7/root/usr/lib/gcc/x86_64-redhat-linux/7/include )
+    set( OPENMP_LIBRARY /opt/rh/devtoolset-7/root/usr/lib/gcc/x86_64-redhat-linux/7/libgomp.so )
+    set( CLANG_INCLUDE_DIR /opt/rocm/hcc/lib/clang/9.0.0/include ) 
+
+    # External header includes included as system files
+    target_include_directories( rocblas-test
+      SYSTEM PRIVATE
+        $<BUILD_INTERFACE:${CLANG_INCLUDE_DIR}> 
+        $<BUILD_INTERFACE:${BLIS_INCLUDE_DIR}>
+        $<BUILD_INTERFACE:${HIP_INCLUDE_DIRS}>
+        $<BUILD_INTERFACE:${HCC_INCLUDE_DIRS}>
+        $<BUILD_INTERFACE:${Boost_INCLUDE_DIRS}>
+        $<BUILD_INTERFACE:${GTEST_INCLUDE_DIRS}>
+        $<BUILD_INTERFACE:${CBLAS_INCLUDE_DIRS}>
+        $<BUILD_INTERFACE:${OPENMP_INCLUDE_DIR}> 
+        )
+
+    if(LINK_BLIS)
+      target_link_libraries( rocblas-test PRIVATE ${GTEST_LIBRARIES} ${Boost_LIBRARIES} ${BLIS_LIBRARY} ${OPENMP_LIBRARY} cblas lapack roc::rocblas )
+    else()
+      target_link_libraries( rocblas-test PRIVATE ${GTEST_LIBRARIES} ${Boost_LIBRARIES} ${OPENMP_LIBRARY} cblas lapack roc::rocblas )
+    endif()
+else()
+    # External header includes included as system files
+    target_include_directories( rocblas-test
+      SYSTEM PRIVATE
+        $<BUILD_INTERFACE:${HIP_INCLUDE_DIRS}>
+        $<BUILD_INTERFACE:${HCC_INCLUDE_DIRS}>
+        $<BUILD_INTERFACE:${Boost_INCLUDE_DIRS}>
+        $<BUILD_INTERFACE:${GTEST_INCLUDE_DIRS}>
+        $<BUILD_INTERFACE:${CBLAS_INCLUDE_DIRS}>
+        $<BUILD_INTERFACE:${BLIS_INCLUDE_DIR}>
+    )
+    
+    if(LINK_BLIS)
+      target_link_libraries( rocblas-test PRIVATE ${GTEST_LIBRARIES} ${Boost_LIBRARIES} ${BLIS_LIBRARY} cblas lapack roc::rocblas )
+    else()
+      target_link_libraries( rocblas-test PRIVATE ${GTEST_LIBRARIES} ${Boost_LIBRARIES} cblas lapack roc::rocblas )
+    endif()
+endif()
 
 get_target_property( HIPHCC_LOCATION hip::hip_hcc IMPORTED_LOCATION_RELEASE )
 
@@ -113,7 +161,7 @@ endif( )
 set( ROCBLAS_TEST_DATA "${PROJECT_BINARY_DIR}/staging/rocblas_gtest.data")
 add_custom_command( OUTPUT "${ROCBLAS_TEST_DATA}"
                     COMMAND ../common/rocblas_gentest.py -I ../include rocblas_gtest.yaml -o "${ROCBLAS_TEST_DATA}"
-                    DEPENDS ../common/rocblas_gentest.py rocblas_gtest.yaml ../include/rocblas_common.yaml known_bugs.yaml blas1_gtest.yaml gemm_gtest.yaml gemm_strided_batched_gtest.yaml gemv_gtest.yaml symv_gtest.yaml syr_gtest.yaml ger_gtest.yaml trsm_gtest.yaml trtri_gtest.yaml geam_gtest.yaml set_get_vector_gtest.yaml set_get_matrix_gtest.yaml trsv_gtest.yaml logging_mode_gtest.yaml set_get_pointer_mode_gtest.yaml
+                    DEPENDS ../common/rocblas_gentest.py rocblas_gtest.yaml ../include/rocblas_common.yaml known_bugs.yaml blas1_gtest.yaml gemm_gtest.yaml gemm_strided_batched_gtest.yaml gemv_gtest.yaml gemv_batched_gtest.yaml gemv_strided_batched_gtest.yaml symv_gtest.yaml syr_gtest.yaml ger_gtest.yaml trsm_gtest.yaml trtri_gtest.yaml geam_gtest.yaml set_get_vector_gtest.yaml set_get_matrix_gtest.yaml trsv_gtest.yaml logging_mode_gtest.yaml set_get_pointer_mode_gtest.yaml
                     WORKING_DIRECTORY "${CMAKE_CURRENT_SOURCE_DIR}" )
 add_custom_target( rocblas-test-data
                    DEPENDS "${ROCBLAS_TEST_DATA}" )
diff --git a/clients/gtest/blas1_gtest.cpp b/clients/gtest/blas1_gtest.cpp
index 8eb96a432..8615f8dd1 100644
--- a/clients/gtest/blas1_gtest.cpp
+++ b/clients/gtest/blas1_gtest.cpp
@@ -9,6 +9,10 @@
 #include "testing_dot.hpp"
 #include "testing_iamax_iamin.hpp"
 #include "testing_nrm2.hpp"
+#include "testing_rot.hpp"
+#include "testing_rotg.hpp"
+#include "testing_rotm.hpp"
+#include "testing_rotmg.hpp"
 #include "testing_scal.hpp"
 #include "testing_swap.hpp"
 #include "type_dispatch.hpp"
@@ -28,6 +32,10 @@ namespace
         dotc,
         scal,
         swap,
+        rot,
+        rotg,
+        rotm,
+        rotmg,
     };
 
     // ----------------------------------------------------------------------------
@@ -51,19 +59,29 @@ namespace
             RocBLAS_TestName<blas1_test_template> name;
             name << rocblas_datatype2string(arg.a_type);
 
-            if(BLAS1 == blas1::scal && arg.a_type != arg.b_type)
-                name << '_' << rocblas_datatype2string(arg.b_type);
+            if(strstr(arg.function, "_bad_arg") != nullptr)
+            {
+                name << "_bad_arg";
+            }
+            else
+            {
+                if((BLAS1 == blas1::scal || BLAS1 == blas1::rot || BLAS1 == blas1::rotg)
+                   && arg.a_type != arg.b_type)
+                    name << '_' << rocblas_datatype2string(arg.b_type);
+                if(BLAS1 == blas1::rot && arg.compute_type != arg.a_type)
+                    name << '_' << rocblas_datatype2string(arg.compute_type);
 
-            name << '_' << arg.N;
+                name << '_' << arg.N;
 
-            if(BLAS1 == blas1::axpy || BLAS1 == blas1::scal)
-                name << '_' << arg.alpha << "_" << arg.alphai;
+                if(BLAS1 == blas1::axpy || BLAS1 == blas1::scal)
+                    name << '_' << arg.alpha << "_" << arg.alphai;
 
-            name << '_' << arg.incx;
+                name << '_' << arg.incx;
 
-            if(BLAS1 == blas1::axpy || BLAS1 == blas1::copy || BLAS1 == blas1::dot
-               || BLAS1 == blas1::swap)
-                name << '_' << arg.incy;
+                if(BLAS1 == blas1::axpy || BLAS1 == blas1::copy || BLAS1 == blas1::dot
+                   || BLAS1 == blas1::swap || BLAS1 == blas1::rot || BLAS1 == blas1::rotm)
+                    name << '_' << arg.incy;
+            }
 
             return std::move(name);
         }
@@ -83,7 +101,8 @@ namespace
                     || std::is_same<Ti, double>{}))
 
             || (BLAS1 == blas1::dot && std::is_same<Ti, To>{} && std::is_same<To, Tc>{}
-                && (std::is_same<Ti, rocblas_float_complex>{}
+                && (std::is_same<Ti, rocblas_half>{} || std::is_same<Ti, rocblas_bfloat16>{}
+                    || std::is_same<Ti, rocblas_float_complex>{}
                     || std::is_same<Ti, rocblas_double_complex>{} || std::is_same<Ti, float>{}
                     || std::is_same<Ti, double>{}))
 
@@ -122,7 +141,32 @@ namespace
             || (BLAS1 == blas1::swap && std::is_same<To, Ti>{} && std::is_same<To, Tc>{}
                 && (std::is_same<Ti, float>{} || std::is_same<Ti, double>{}
                     || std::is_same<Ti, rocblas_float_complex>{}
-                    || std::is_same<Ti, rocblas_double_complex>{}))>;
+                    || std::is_same<Ti, rocblas_double_complex>{}))
+
+            || (BLAS1 == blas1::rot
+                && ((std::is_same<Ti, float>{} && std::is_same<Ti, To>{} && std::is_same<To, Tc>{})
+                    || (std::is_same<Ti, double>{} && std::is_same<Ti, To>{}
+                        && std::is_same<To, Tc>{})
+                    || (std::is_same<Ti, rocblas_float_complex>{} && std::is_same<To, float>{}
+                        && std::is_same<Tc, rocblas_float_complex>{})
+                    || (std::is_same<Ti, rocblas_float_complex>{} && std::is_same<To, float>{}
+                        && std::is_same<Tc, float>{})
+                    || (std::is_same<Ti, rocblas_double_complex>{} && std::is_same<To, double>{}
+                        && std::is_same<Tc, rocblas_double_complex>{})
+                    || (std::is_same<Ti, rocblas_double_complex>{} && std::is_same<To, double>{}
+                        && std::is_same<Tc, double>{})))
+
+            || (BLAS1 == blas1::rotg && std::is_same<To, Tc>{}
+                && ((std::is_same<Ti, float>{} && std::is_same<Ti, To>{})
+                    || (std::is_same<Ti, double>{} && std::is_same<Ti, To>{})
+                    || (std::is_same<Ti, rocblas_float_complex>{} && std::is_same<To, float>{})
+                    || (std::is_same<Ti, rocblas_double_complex>{} && std::is_same<To, double>{})))
+
+            || (BLAS1 == blas1::rotm && std::is_same<To, Ti>{} && std::is_same<To, Tc>{}
+                && (std::is_same<Ti, float>{} || std::is_same<Ti, double>{}))
+
+            || (BLAS1 == blas1::rotmg && std::is_same<To, Ti>{} && std::is_same<To, Tc>{}
+                && (std::is_same<Ti, float>{} || std::is_same<Ti, double>{}))>;
 
 // Creates tests for one of the BLAS 1 functions
 // ARG passes 1-3 template arguments to the testing_* function
@@ -184,6 +228,10 @@ BLAS1_TESTING(dot,   ARG1)
 BLAS1_TESTING(dotc,  ARG1)
 BLAS1_TESTING(scal,  ARG2)
 BLAS1_TESTING(swap,  ARG1)
+BLAS1_TESTING(rot,   ARG3)
+BLAS1_TESTING(rotg,  ARG2)
+BLAS1_TESTING(rotm,  ARG1)
+BLAS1_TESTING(rotmg, ARG1)
 
     // clang-format on
 
diff --git a/clients/gtest/blas1_gtest.yaml b/clients/gtest/blas1_gtest.yaml
index 768cf0273..5c902dc01 100644
--- a/clients/gtest/blas1_gtest.yaml
+++ b/clients/gtest/blas1_gtest.yaml
@@ -34,11 +34,13 @@ Tests:
 #   - iamin: *single_double_precisions_complex_real # broken for now -- cause unknown
     - axpy:  *half_single_precisions_complex_real
     - copy:  *single_double_precisions_complex_real
-    - dot:   *single_double_precisions_complex_real
+    - dot:   *half_bfloat_single_double_complex_real_precisions
     - dotc:  *single_double_precisions_complex
     - scal:  *single_double_precisions_complex_real
     - scal:  *single_double_complex_real_in_complex_out
     - swap:  *single_double_precisions_complex_real
+    - rot:   *rot_precisions
+    - rotm:   *single_double_precisions_complex_real
 
 - name: blas1
   category: pre_checkin
@@ -58,6 +60,8 @@ Tests:
     - scal:  *single_double_precisions_complex_real
     - scal:  *single_double_complex_real_in_complex_out
     - swap:  *single_double_precisions_complex_real
+    - rot:   *rot_precisions
+    - rotm:   *single_double_precisions_complex_real
 
 - name: blas1_bad_arg
   category: pre_checkin
@@ -68,9 +72,19 @@ Tests:
     - iamin_bad_arg: *single_double_precisions_complex_real
     - axpy_bad_arg:  *half_single_precisions_complex_real
     - copy_bad_arg:  *single_double_precisions_complex_real
-    - dot_bad_arg:   *single_double_precisions_complex_real
+    - dot_bad_arg:   *half_bfloat_single_double_complex_real_precisions
     - dotc_bad_arg:  *single_double_precisions_complex
     - scal_bad_arg:  *single_double_precisions_complex_real
     - scal_bad_arg:  *single_double_complex_real_in_complex_out
     - swap_bad_arg:  *single_double_precisions_complex_real
+    - rot_bad_arg:   *rot_precisions
+    - rotg_bad_arg:  *rotg_precisions
+    - rotm_bad_arg:  *single_double_precisions_complex_real
+    - rotmg_bad_arg: *single_double_precisions_complex_real
+
+- name: blas1
+  category: quick
+  function:
+    - rotg:  *rotg_precisions
+    - rotmg: *single_double_precisions_complex_real
 ...
diff --git a/clients/gtest/gemm_gtest.cpp b/clients/gtest/gemm_gtest.cpp
index 5f6a6841f..5ad7f5390 100644
--- a/clients/gtest/gemm_gtest.cpp
+++ b/clients/gtest/gemm_gtest.cpp
@@ -112,12 +112,12 @@ namespace
 
     // When Ti = To = Tc != void, this test applies.
     // When converted to bool, this functor returns true.
-    // Complex is not supported yet.
     template <typename T>
     struct gemm_testing<T,
                         T,
                         T,
-                        typename std::enable_if<!std::is_same<T, void>{} && !is_complex<T>>::type>
+                        typename std::enable_if<!std::is_same<T, void>{}
+                                                && !std::is_same<T, rocblas_bfloat16>{}>::type>
     {
         explicit operator bool()
         {
@@ -165,13 +165,14 @@ namespace
 
     // When Ti != void, this test applies.
     // When converted to bool, this functor returns true.
-    // Complex is not supported yet.
     template <typename Ti, typename To, typename Tc>
     struct gemm_ex_testing<
         Ti,
         To,
         Tc,
-        typename std::enable_if<!std::is_same<Ti, void>{} && !is_complex<Ti>>::type>
+        typename std::enable_if<!std::is_same<Ti, void>{}
+                                && !(std::is_same<Ti, To>{} && std::is_same<Ti, Tc>{}
+                                     && std::is_same<Ti, rocblas_bfloat16>{})>::type>
     {
         explicit operator bool()
         {
diff --git a/clients/gtest/gemm_gtest.yaml b/clients/gtest/gemm_gtest.yaml
index bebd347b3..6b88c1018 100644
--- a/clients/gtest/gemm_gtest.yaml
+++ b/clients/gtest/gemm_gtest.yaml
@@ -155,6 +155,16 @@ Definitions:
     - { alpha:  1, beta:  3 }
     - { alpha:  1, beta:  1 }
 
+  - &complex_alpha_beta_range
+    - { alpha:  2, beta:  0, alphai:  0, betai:  0 }
+    - { alpha:  0, beta:  3, alphai:  0, betai:  0 }
+    - { alpha:  5, beta:  0, alphai:  0, betai:  5 }
+    - { alpha: -5, beta:  0, alphai: -5, betai:  0 }
+    - { alpha:  0, beta:  5, alphai:  0, betai: -5 }
+    - { alpha:  1, beta:  3, alphai:  3, betai:  1 }
+    - { alpha: -1, beta: -3, alphai:  3, betai:  1 }
+    - { alpha:  0, beta:  0, alphai:  2, betai:  1 }
+
   - &transA_transB_range
     - { transA: N, transB: N }
     - { transA: N, transB: T }
@@ -2345,15 +2355,27 @@ Tests:
   transA: N
   transB: N
 
+- name: gemm_bad_arg
+  category: pre_checkin
+  function:
+    - gemm_bad_arg
+    - gemm_ex_bad_arg
+    - gemm_strided_batched_ex_bad_arg
+  precision: *single_double_precisions_complex
+  transA: N
+  transB: N
+
 - name: gemm_NaN
   category: pre_checkin
   function:
-    gemm: *single_double_precisions   # Half precision NaN doesn't work now
-    gemm_ex: *single_double_precisions
+    gemm: *single_double_precisions_complex_real   # Half precision NaN doesn't work now
+    gemm_ex: *single_double_precisions_complex_real
   matrix_size: *medium_matrix_size_range
   transA_transB: *transA_transB_range
   alpha: [ 0.0, 1.0, -1.0, 2.0 ]
+  alphai: [ -1.0, 0.0, 1.0]
   beta: .NaN  # converted to 0.0 in test code
+  betai: .NaN
 
 - name: gemm_small
   category: quick
@@ -2364,6 +2386,15 @@ Tests:
   transA_transB: *transA_transB_range
   alpha_beta: *alpha_beta_range
 
+- name: gemm_small_complex
+  category: quick
+  function:
+    gemm: *single_double_precisions_complex
+    gemm_ex: *single_double_precisions_complex
+  matrix_size: *small_matrix_size_range
+  transA_transB: *transA_transB_range
+  alpha_beta: *complex_alpha_beta_range
+
 - name: gemm_medium
   category: pre_checkin
   function:
@@ -2373,6 +2404,15 @@ Tests:
   transA_transB: *transA_transB_range
   alpha_beta: *alpha_beta_range
 
+- name: gemm_medium_complex
+  category: pre_checkin
+  function:
+    gemm: *single_double_precisions_complex
+    gemm_ex: *single_double_precisions_complex
+  matrix_size: *medium_matrix_size_range
+  transA_transB: *transA_transB_range
+  alpha_beta: *alpha_beta_range
+
 - name: gemm_large
   category: nightly
   function:
@@ -2382,6 +2422,15 @@ Tests:
   transA_transB: *transA_transB_range
   alpha_beta: *alpha_beta_range
 
+- name: gemm_large
+  category: nightly
+  function:
+    gemm: *single_double_precisions_complex
+    gemm_ex: *single_double_precisions_complex
+  matrix_size: *large_matrix_size_range
+  transA_transB: *transA_transB_range
+  alpha_beta: *alpha_beta_range
+
 - name: gemm_chunk
   category: pre_checkin
   function:
@@ -2446,7 +2495,7 @@ Tests:
 - name: inception4_fwd
   category: nightly
   function:
-    gemmn: *half_single_double_precisions
+    gemm: *half_single_double_precisions
   transA: N
   transB: N
   matrix_size: *inception4_fwd_sizes
diff --git a/clients/gtest/gemm_strided_batched_gtest.yaml b/clients/gtest/gemm_strided_batched_gtest.yaml
index 08807c583..5032e88e4 100644
--- a/clients/gtest/gemm_strided_batched_gtest.yaml
+++ b/clients/gtest/gemm_strided_batched_gtest.yaml
@@ -223,6 +223,16 @@ Definitions:
     - { alpha: -2.0, beta: -3.0 }
     - { alpha:  0.0, beta:  1.0 }
 
+  - &complex_alpha_beta_range
+    - { alpha:  2, beta:  0, alphai:  0, betai:  0 }
+    - { alpha:  0, beta:  3, alphai:  0, betai:  0 }
+    - { alpha:  5, beta:  0, alphai:  0, betai:  5 }
+    - { alpha: -5, beta:  0, alphai: -5, betai:  0 }
+    - { alpha:  0, beta:  5, alphai:  0, betai: -5 }
+    - { alpha:  1, beta:  3, alphai:  3, betai:  1 }
+    - { alpha: -1, beta: -3, alphai:  3, betai:  1 }
+    - { alpha:  0, beta:  0, alphai:  2, betai:  1 }
+
 Tests:
 - name: gemm_strided_batched_bad_arg
   category: pre_checkin
@@ -231,15 +241,24 @@ Tests:
   transA: N
   transB: N
 
+- name: gemm_strided_batched_bad_arg
+  category: pre_checkin
+  function:
+    - gemm_strided_batched_ex_bad_arg: *single_double_precisions_complex
+  transA: N
+  transB: N
+
 - name: gemm_strided_batched_NaN
   category: pre_checkin
   function:
-    - gemm_strided_batched: *single_double_precisions
-    - gemm_strided_batched_ex: *single_double_precisions
+    - gemm_strided_batched: *single_double_precisions_complex_real
+    - gemm_strided_batched_ex: *single_double_precisions_complex_real
   matrix_size: *small_matrix_size_range
   transA_transB: *transA_transB_range
   alpha: [ -1.0, 0.0, 1.0, 2.0 ]
+  alphai: [ -1.0, 0.0, 1.0 ]
   beta: .NaN  # converted to 0.0 in test code
+  betai: .NaN
   batch_count: [ 1, 3 ]
 
 # TODO: Add int8 precisions by replacing *hpa_half_single_double_precisions with *real_precisions
@@ -254,6 +273,16 @@ Tests:
   transA_transB: *transA_transB_range
   batch_count: [ -1, 0, 1, 3 ]
 
+- name: gemm_strided_batched_small_complex
+  category: quick
+  function:
+    gemm_strided_batched: *single_double_precisions_complex
+    gemm_strided_batched_ex: *single_double_precisions_complex
+  matrix_size: *small_matrix_size_range
+  alpha_beta: *complex_alpha_beta_range
+  transA_transB: *transA_transB_range
+  batch_count: [ -1, 0, 1, 3 ]
+
 - name: gemm_strided_batched_small_stride_zero
   category: quick
   function:
@@ -261,7 +290,23 @@ Tests:
     gemm_strided_batched_ex: *real_precisions
   matrix_size: *small_matrix_size_stride_a_range
   alpha: 2.0
+  alphai: 1.0
   beta: 3.0
+  betai: -1.0
+  transA: N
+  transB: N
+  batch_count: [ 1, 3 ]
+
+- name: gemm_strided_batched_small_stride_zero_complex
+  category: quick
+  function:
+    gemm_strided_batched: *single_double_precisions_complex
+    gemm_strided_batched_ex: *single_double_precisions_complex
+  matrix_size: *small_matrix_size_stride_a_range
+  alpha: 2.0
+  alphai: 1.0
+  beta: 3.0
+  betai: -1.0
   transA: N
   transB: N
   batch_count: [ 1, 3 ]
@@ -276,6 +321,16 @@ Tests:
   alpha_beta: *alpha_beta_range
   batch_count: [ -1, 0, 1, 3, 63..65 ]
 
+- name: gemm_strided_batched_medium_complex
+  category: pre_checkin
+  function:
+    gemm_strided_batched: *single_double_precisions_complex
+    gemm_strided_batched_ex: *single_double_precisions_complex
+  matrix_size: *medium_matrix_size_range
+  transA_transB: *transA_transB_range
+  alpha_beta: *complex_alpha_beta_range
+  batch_count: [ -1, 0, 1, 3, 63..65 ]
+
 - name: gemm_strided_batched_medium_stride_zero
   category: nightly
   function:
@@ -283,7 +338,23 @@ Tests:
     gemm_strided_batched_ex: *hpa_half_single_precisions
   matrix_size: *medium_matrix_size_stride_a_range
   alpha: 2.0
+  alphai: 1.0
   beta: 3.0
+  betai: -1.0
+  transA: N
+  transB: N
+  batch_count: 31..33
+
+- name: gemm_strided_batched_medium_stride_zero_complex
+  category: nightly
+  function:
+    gemm_strided_batched: *single_double_precisions_complex
+    gemm_strided_batched_ex: *single_double_precisions_complex
+  matrix_size: *medium_matrix_size_stride_a_range
+  alpha: 2.0
+  alphai: 1.0
+  beta: 3.0
+  betai: -1.0
   transA: N
   transB: N
   batch_count: 31..33
@@ -298,6 +369,16 @@ Tests:
   alpha_beta: *alpha_beta_range
   batch_count: [ -1, 0, 1, 3 ]
 
+- name: gemm_strided_batched_large_complex
+  category: pre_checkin
+  function:
+    gemm_strided_batched: *single_double_precisions_complex
+    gemm_strided_batched_ex: *single_double_precisions_complex
+  matrix_size: *large_matrix_size_range
+  transA_transB: *transA_transB_range
+  alpha_beta: *alpha_beta_range
+  batch_count: [ -1, 0, 1, 3 ]
+
 - name: gemm_strided_batched_large_stride_zero
   category: pre_checkin
   function:
@@ -305,7 +386,23 @@ Tests:
     gemm_strided_batched_ex: *real_precisions
   matrix_size: *large_matrix_size_stride_a_range
   alpha: 2.0
+  alphai: 1.0
+  beta: 3.0
+  betai: -1.0
+  transA: N
+  transB: N
+  batch_count: [ -1, 0, 1, 3 ]
+
+- name: gemm_strided_batched_large_stride_zero_complex
+  category: pre_checkin
+  function:
+    gemm_strided_batched: *single_double_precisions_complex
+    gemm_strided_batched_ex: *single_double_precisions_complex
+  matrix_size: *large_matrix_size_stride_a_range
+  alpha: 2.0
+  alphai: 1.0
   beta: 3.0
+  betai: -1.0
   transA: N
   transB: N
   batch_count: [ -1, 0, 1, 3 ]
diff --git a/clients/gtest/gemv_batched_gtest.yaml b/clients/gtest/gemv_batched_gtest.yaml
new file mode 100644
index 000000000..e0eeedd3d
--- /dev/null
+++ b/clients/gtest/gemv_batched_gtest.yaml
@@ -0,0 +1,91 @@
+---
+include: rocblas_common.yaml
+include: known_bugs.yaml
+
+Definitions:
+  - &small_matrix_size_range
+    - { M:    -1, N:     1, lda:    1 }
+    - { M:     1, N:    -1, lda:    1 }
+    - { M:     1, N:     1, lda:    0 }
+    - { M:    10, N:    10, lda:    9 }
+    - { M:     0, N:     1, lda:    1 }
+    - { M:     1, N:     0, lda:    1 }
+    - { M:    -1, N:    -1, lda:   -1 }
+    - { M:    10, N:    10, lda:    2 }
+    - { M:   100, N:   200, lda:  200 }
+
+  - &medium_matrix_size_range
+    - { M:   300, N:   400, lda:  400 }
+    - { M:   600, N:   500, lda:  601 }
+
+  - &large_matrix_size_range
+    - { M:  1000, N:  1000, lda: 1000 }
+    - { M:  2000, N:  2000, lda: 2000 }
+    - { M:  4011, N:  4011, lda: 4011 }
+    - { M:  8000, N:  8000, lda: 8000 }
+
+  - &incx_incy_range
+    - { incx:   2, incy:   1 }
+    - { incx:  -1, incy:   2 }
+    - { incx:   1, incy:   1 }
+    - { incx:  -1, incy:   3 }
+    - { incx:   3, incy:  -1 }
+    - { incx:   0, incy:   1 }
+    - { incx:   1, incy:   0 }
+    - { incx:   0, incy:  -1 }
+    - { incx:  10, incy: 100 }
+
+  - &alpha_beta_range
+    - { alpha:  2.0, beta:  0.0 }
+    - { alpha: -1.0, beta: -1.0 }
+    - { alpha:  2.0, beta:  1.0 }
+    - { alpha:  0.0, beta:  1.0 }
+
+Tests:
+- name: gemv_batched_bad_arg
+  category: pre_checkin
+  function: gemv_batched_bad_arg
+  precision: *single_double_precisions
+  transA: N
+
+- name: gemv_batched_NaN
+  category: pre_checkin
+  function: gemv_batched
+  precision: *single_double_precisions
+  transA: [ N, T, C ]
+  matrix_size: *medium_matrix_size_range
+  incx_incy: *incx_incy_range
+  alpha: [ -1.0, 0, 1.0, 2.0 ]
+  beta: .NaN  # converted to 0.0 in test code
+  batch_count: [ -1, 0, 1, 3 ]
+
+- name: gemv_batched_small
+  category: quick
+  function: gemv_batched
+  precision: *single_double_precisions
+  transA: [ N, T, C ]
+  matrix_size: *small_matrix_size_range
+  incx_incy: *incx_incy_range
+  alpha_beta: *alpha_beta_range
+  batch_count: [ -1, 0, 1, 3 ]
+
+- name: gemv_batched_medium
+  category: pre_checkin
+  function: gemv_batched
+  precision: *single_double_precisions_complex_real
+  transA: [ N, T, C ]
+  matrix_size: *medium_matrix_size_range
+  incx_incy: *incx_incy_range
+  alpha_beta: *alpha_beta_range
+  batch_count: [ 3 ]
+
+- name: gemv_batched_large
+  category: nightly
+  function: gemv_batched
+  precision: *single_double_precisions
+  transA: [ N, T, C ]
+  matrix_size: *large_matrix_size_range
+  incx_incy: *incx_incy_range
+  alpha_beta: *alpha_beta_range
+  batch_count: [ 3 ]
+...
diff --git a/clients/gtest/gemv_gtest.cpp b/clients/gtest/gemv_gtest.cpp
index ff86b426d..fd9823333 100644
--- a/clients/gtest/gemv_gtest.cpp
+++ b/clients/gtest/gemv_gtest.cpp
@@ -6,6 +6,8 @@
 #include "rocblas_datatype2string.hpp"
 #include "rocblas_test.hpp"
 #include "testing_gemv.hpp"
+#include "testing_gemv_batched.hpp"
+#include "testing_gemv_strided_batched.hpp"
 #include "type_dispatch.hpp"
 #include <cctype>
 #include <cstring>
@@ -13,6 +15,69 @@
 
 namespace
 {
+    // possible gemv test cases
+    enum gemv_test_type
+    {
+        GEMV,
+        GEMV_BATCHED,
+        GEMV_STRIDED_BATCHED,
+    };
+
+    //gemv test template
+    template <template <typename...> class FILTER, gemv_test_type GEMV_TYPE>
+    struct gemv_template : RocBLAS_Test<gemv_template<FILTER, GEMV_TYPE>, FILTER>
+    {
+        // Filter for which types apply to this suite
+        static bool type_filter(const Arguments& arg)
+        {
+            return rocblas_simple_dispatch<gemv_template::template type_filter_functor>(arg);
+        }
+
+        // Filter for which functions apply to this suite
+        static bool function_filter(const Arguments& arg)
+        {
+            switch(GEMV_TYPE)
+            {
+            case GEMV:
+                return !strcmp(arg.function, "gemv") || !strcmp(arg.function, "gemv_bad_arg");
+            case GEMV_BATCHED:
+                return !strcmp(arg.function, "gemv_batched")
+                       || !strcmp(arg.function, "gemv_batched_bad_arg");
+            case GEMV_STRIDED_BATCHED:
+                return !strcmp(arg.function, "gemv_strided_batched")
+                       || !strcmp(arg.function, "gemv_strided_batched_bad_arg");
+            }
+            return false;
+        }
+
+        // Google Test name suffix based on parameters
+        static std::string name_suffix(const Arguments& arg)
+        {
+            RocBLAS_TestName<gemv_template> name;
+
+            name << rocblas_datatype2string(arg.a_type) << '_' << (char)std::toupper(arg.transA)
+                 << '_' << arg.M << '_' << arg.N << '_' << arg.alpha << '_' << arg.lda;
+
+            if(GEMV_TYPE == GEMV_STRIDED_BATCHED)
+                name << '_' << arg.stride_a;
+
+            name << '_' << arg.incx;
+
+            if(GEMV_TYPE == GEMV_STRIDED_BATCHED)
+                name << '_' << arg.stride_x;
+
+            name << '_' << arg.beta << '_' << arg.incy;
+
+            if(GEMV_TYPE == GEMV_STRIDED_BATCHED)
+                name << '_' << arg.stride_y;
+
+            if(GEMV_TYPE == GEMV_STRIDED_BATCHED || GEMV_TYPE == GEMV_BATCHED)
+                name << '_' << arg.batch_count;
+
+            return std::move(name);
+        }
+    };
+
     // By default, arbitrary type combinations are invalid.
     // The unnamed second parameter is used for enable_if below.
     template <typename, typename = void>
@@ -39,40 +104,38 @@ namespace
                 testing_gemv<T>(arg);
             else if(!strcmp(arg.function, "gemv_bad_arg"))
                 testing_gemv_bad_arg<T>(arg);
+            else if(!strcmp(arg.function, "gemv_batched"))
+                testing_gemv_batched<T>(arg);
+            else if(!strcmp(arg.function, "gemv_batched_bad_arg"))
+                testing_gemv_batched_bad_arg<T>(arg);
+            else if(!strcmp(arg.function, "gemv_strided_batched"))
+                testing_gemv_strided_batched<T>(arg);
+            else if(!strcmp(arg.function, "gemv_strided_batched_bad_arg"))
+                testing_gemv_strided_batched_bad_arg<T>(arg);
             else
                 FAIL() << "Internal error: Test called with unknown function: " << arg.function;
         }
     };
 
-    struct gemv : RocBLAS_Test<gemv, gemv_testing>
+    using gemv = gemv_template<gemv_testing, GEMV>;
+    TEST_P(gemv, blas2)
     {
-        // Filter for which types apply to this suite
-        static bool type_filter(const Arguments& arg)
-        {
-            return rocblas_simple_dispatch<type_filter_functor>(arg);
-        }
-
-        // Filter for which functions apply to this suite
-        static bool function_filter(const Arguments& arg)
-        {
-            return !strcmp(arg.function, "gemv") || !strcmp(arg.function, "gemv_bad_arg");
-        }
+        rocblas_simple_dispatch<gemv_testing>(GetParam());
+    }
+    INSTANTIATE_TEST_CATEGORIES(gemv);
 
-        // Google Test name suffix based on parameters
-        static std::string name_suffix(const Arguments& arg)
-        {
-            return RocBLAS_TestName<gemv>{}
-                   << rocblas_datatype2string(arg.a_type) << '_' << (char)std::toupper(arg.transA)
-                   << '_' << arg.M << '_' << arg.N << '_' << arg.alpha << '_' << arg.alphai << '_'
-                   << arg.lda << '_' << arg.incx << '_' << arg.beta << '_' << arg.betai << '_'
-                   << arg.incy;
-        }
-    };
+    using gemv_batched = gemv_template<gemv_testing, GEMV_BATCHED>;
+    TEST_P(gemv_batched, blas2)
+    {
+        rocblas_simple_dispatch<gemv_testing>(GetParam());
+    }
+    INSTANTIATE_TEST_CATEGORIES(gemv_batched);
 
-    TEST_P(gemv, blas2)
+    using gemv_strided_batched = gemv_template<gemv_testing, GEMV_STRIDED_BATCHED>;
+    TEST_P(gemv_strided_batched, blas2)
     {
         rocblas_simple_dispatch<gemv_testing>(GetParam());
     }
-    INSTANTIATE_TEST_CATEGORIES(gemv);
+    INSTANTIATE_TEST_CATEGORIES(gemv_strided_batched);
 
 } // namespace
diff --git a/clients/gtest/gemv_strided_batched_gtest.yaml b/clients/gtest/gemv_strided_batched_gtest.yaml
new file mode 100644
index 000000000..7a4ddbd2e
--- /dev/null
+++ b/clients/gtest/gemv_strided_batched_gtest.yaml
@@ -0,0 +1,91 @@
+---
+include: rocblas_common.yaml
+include: known_bugs.yaml
+
+Definitions:
+  - &small_matrix_size_range
+    - { M:    -1, N:     1, lda:    1, stride_a:        1 }
+    - { M:     1, N:    -1, lda:    1, stride_a:        1 }
+    - { M:     1, N:     1, lda:    0, stride_a:        1 }
+    - { M:    10, N:    10, lda:    9, stride_a:        1 }
+    - { M:     0, N:     1, lda:    1, stride_a:        1 }
+    - { M:     1, N:     0, lda:    1, stride_a:        1 }
+    - { M:    -1, N:    -1, lda:   -1, stride_a:        1 }
+    - { M:    10, N:    10, lda:    2, stride_a:        1 }
+    - { M:   100, N:   200, lda:  200, stride_a:    40000 }
+
+  - &medium_matrix_size_range
+    - { M:   300, N:   400, lda:  400, stride_a:   160000 }
+    - { M:   600, N:   500, lda:  601, stride_a:   301000 }
+
+  - &large_matrix_size_range
+    - { M:  1000, N:  1000, lda: 1000, stride_a:  1000000 }
+    - { M:  2000, N:  2000, lda: 2000, stride_a:  4000000 }
+    - { M:  4011, N:  4011, lda: 4011, stride_a: 16088200 }
+    - { M:  8000, N:  8000, lda: 8000, stride_a: 64000000 }
+
+  - &incx_incy_range
+    - { incx:   2, incy:   1, stride_x: 8000, stride_y: 8000 }
+    - { incx:  -1, incy:   2, stride_x: 8000, stride_y: 8000 }
+    - { incx:   1, incy:   1, stride_x: 8000, stride_y: 8000 }
+    - { incx:  -1, incy:   3, stride_x: 4000, stride_y: 4000 }
+    - { incx:   3, incy:  -1, stride_x: 2000, stride_y: 2000 }
+    - { incx:   0, incy:   1, stride_x: 1000, stride_y: 1000 }
+    - { incx:   1, incy:   0, stride_x: 1000, stride_y: 1000 }
+    - { incx:   0, incy:  -1, stride_x:    1, stride_y:    1 }
+    - { incx:  10, incy: 100, stride_x: 8000, stride_y: 8000 }
+
+  - &alpha_beta_range
+    - { alpha:  2.0, beta:  0.0 }
+    - { alpha: -1.0, beta: -1.0 }
+    - { alpha:  2.0, beta:  1.0 }
+    - { alpha:  0.0, beta:  1.0 }
+
+Tests:
+- name: gemv_strided_batched_bad_arg
+  category: pre_checkin
+  function: gemv_strided_batched_bad_arg
+  precision: *single_double_precisions
+  transA: N
+
+- name: gemv_strided_batched_NaN
+  category: pre_checkin
+  function: gemv_strided_batched
+  precision: *single_double_precisions
+  transA: [ N, T, C ]
+  matrix_size: *medium_matrix_size_range
+  incx_incy: *incx_incy_range
+  alpha: [ -1.0, 0, 1.0, 2.0 ]
+  beta: .NaN  # converted to 0.0 in test code
+  batch_count: [ -1, 0, 1, 3 ]
+
+- name: gemv_strided_batched_small
+  category: quick
+  function: gemv_strided_batched
+  precision: *single_double_precisions
+  transA: [ N, T, C ]
+  matrix_size: *small_matrix_size_range
+  incx_incy: *incx_incy_range
+  alpha_beta: *alpha_beta_range
+  batch_count: [ -1, 0, 1, 3 ]
+
+- name: gemv_strided_batched_medium
+  category: pre_checkin
+  function: gemv_strided_batched
+  precision: *single_double_precisions_complex_real
+  transA: [ N, T, C ]
+  matrix_size: *medium_matrix_size_range
+  incx_incy: *incx_incy_range
+  alpha_beta: *alpha_beta_range
+  batch_count: [ 3 ]
+
+- name: gemv_strided_batched_large
+  category: nightly
+  function: gemv_strided_batched
+  precision: *single_double_precisions
+  transA: [ N, T, C ]
+  matrix_size: *large_matrix_size_range
+  incx_incy: *incx_incy_range
+  alpha_beta: *alpha_beta_range
+  batch_count: [ 3 ]
+...
diff --git a/clients/gtest/ger_gtest.cpp b/clients/gtest/ger_gtest.cpp
index 65907aa0d..6154bc04d 100644
--- a/clients/gtest/ger_gtest.cpp
+++ b/clients/gtest/ger_gtest.cpp
@@ -7,12 +7,77 @@
 #include "rocblas_datatype2string.hpp"
 #include "rocblas_test.hpp"
 #include "testing_ger.hpp"
+#include "testing_ger_batched.hpp"
+#include "testing_ger_strided_batched.hpp"
 #include "type_dispatch.hpp"
 #include <cstring>
 #include <type_traits>
 
 namespace
 {
+    // possible gemv test cases
+    enum ger_test_type
+    {
+        GER,
+        GER_BATCHED,
+        GER_STRIDED_BATCHED,
+    };
+
+    //ger test template
+    template <template <typename...> class FILTER, ger_test_type GER_TYPE>
+    struct ger_template : RocBLAS_Test<ger_template<FILTER, GER_TYPE>, FILTER>
+    {
+        // Filter for which types apply to this suite
+        static bool type_filter(const Arguments& arg)
+        {
+            return rocblas_simple_dispatch<ger_template::template type_filter_functor>(arg);
+        }
+
+        // Filter for which functions apply to this suite
+        static bool function_filter(const Arguments& arg)
+        {
+            switch(GER_TYPE)
+            {
+            case GER:
+                return !strcmp(arg.function, "ger") || !strcmp(arg.function, "ger_bad_arg");
+            case GER_BATCHED:
+                return !strcmp(arg.function, "ger_batched")
+                       || !strcmp(arg.function, "ger_batched_bad_arg");
+            case GER_STRIDED_BATCHED:
+                return !strcmp(arg.function, "ger_strided_batched")
+                       || !strcmp(arg.function, "ger_strided_batched_bad_arg");
+            }
+            return false;
+        }
+
+        // Google Test name suffix based on parameters
+        static std::string name_suffix(const Arguments& arg)
+        {
+            RocBLAS_TestName<ger_template> name;
+
+            name << rocblas_datatype2string(arg.a_type) << '_' << arg.M << '_' << arg.N << '_'
+                 << arg.alpha << '_' << arg.incx;
+
+            if(GER_TYPE == GER_STRIDED_BATCHED)
+                name << '_' << arg.stride_x;
+
+            name << '_' << arg.incy;
+
+            if(GER_TYPE == GER_STRIDED_BATCHED)
+                name << '_' << arg.stride_y;
+
+            name << '_' << arg.lda;
+
+            if(GER_TYPE == GER_STRIDED_BATCHED)
+                name << '_' << arg.stride_a;
+
+            if(GER_TYPE == GER_STRIDED_BATCHED || GER_TYPE == GER_BATCHED)
+                name << '_' << arg.batch_count;
+
+            return std::move(name);
+        }
+    };
+
     // By default, this test does not apply to any types.
     // The unnamed second parameter is used for enable_if below.
     template <typename, typename = void>
@@ -37,38 +102,38 @@ namespace
                 testing_ger<T>(arg);
             else if(!strcmp(arg.function, "ger_bad_arg"))
                 testing_ger_bad_arg<T>(arg);
+            else if(!strcmp(arg.function, "ger_batched"))
+                testing_ger_batched<T>(arg);
+            else if(!strcmp(arg.function, "ger_batched_bad_arg"))
+                testing_ger_batched_bad_arg<T>(arg);
+            else if(!strcmp(arg.function, "ger_strided_batched"))
+                testing_ger_strided_batched<T>(arg);
+            else if(!strcmp(arg.function, "ger_strided_batched_bad_arg"))
+                testing_ger_strided_batched_bad_arg<T>(arg);
             else
                 FAIL() << "Internal error: Test called with unknown function: " << arg.function;
         }
     };
 
-    struct ger : RocBLAS_Test<ger, ger_testing>
+    using ger = ger_template<ger_testing, GER>;
+    TEST_P(ger, blas2)
     {
-        // Filter for which types apply to this suite
-        static bool type_filter(const Arguments& arg)
-        {
-            return rocblas_simple_dispatch<type_filter_functor>(arg);
-        }
-
-        // Filter for which functions apply to this suite
-        static bool function_filter(const Arguments& arg)
-        {
-            return !strcmp(arg.function, "ger") || !strcmp(arg.function, "ger_bad_arg");
-        }
+        rocblas_simple_dispatch<ger_testing>(GetParam());
+    }
+    INSTANTIATE_TEST_CATEGORIES(ger);
 
-        // Google Test name suffix based on parameters
-        static std::string name_suffix(const Arguments& arg)
-        {
-            return RocBLAS_TestName<ger>{} << rocblas_datatype2string(arg.a_type) << '_' << arg.M
-                                           << '_' << arg.N << '_' << arg.alpha << '_' << arg.incx
-                                           << '_' << arg.incy << '_' << arg.lda;
-        }
-    };
+    using ger_batched = ger_template<ger_testing, GER_BATCHED>;
+    TEST_P(ger_batched, blas2)
+    {
+        rocblas_simple_dispatch<ger_testing>(GetParam());
+    }
+    INSTANTIATE_TEST_CATEGORIES(ger_batched);
 
-    TEST_P(ger, blas2)
+    using ger_strided_batched = ger_template<ger_testing, GER_STRIDED_BATCHED>;
+    TEST_P(ger_strided_batched, blas2)
     {
         rocblas_simple_dispatch<ger_testing>(GetParam());
     }
-    INSTANTIATE_TEST_CATEGORIES(ger);
+    INSTANTIATE_TEST_CATEGORIES(ger_strided_batched);
 
 } // namespace
diff --git a/clients/gtest/ger_gtest.yaml b/clients/gtest/ger_gtest.yaml
index ca640819c..ce2a55be7 100644
--- a/clients/gtest/ger_gtest.yaml
+++ b/clients/gtest/ger_gtest.yaml
@@ -4,39 +4,44 @@ include: known_bugs.yaml
 
 Definitions:
   - &small_matrix_size_range
-    - { M:   -1, N:    1, lda:    1 }
-    - { M:    1, N:   -1, lda:    1 }
-    - { M:    1, N:    1, lda:   -1 }
-    - { M:   10, N:    1, lda:    9 }
-    - { M:    0, N:    1, lda:    1 }
-    - { M:    1, N:    0, lda:    1 }
-    - { M:    1, N:    1, lda:    0 }
-    - { M:   11, N:   12, lda:   13 }
-    - { M:   16, N:   16, lda:   16 }
-    - { M:   33, N:   32, lda:   33 }
-    - { M:   65, N:   65, lda:   66 }
+    - { M:   -1, N:    1, lda:    1, stride_a:    1 }
+    - { M:    1, N:   -1, lda:    1, stride_a:    1 }
+    - { M:    1, N:    1, lda:   -1, stride_a:    1 }
+    - { M:   10, N:    1, lda:    9, stride_a:    1 }
+    - { M:    0, N:    1, lda:    1, stride_a:    1 }
+    - { M:    1, N:    0, lda:    1, stride_a:    1 }
+    - { M:    1, N:    1, lda:    0, stride_a:    1 }
+    - { M:   11, N:   12, lda:   13, stride_a:    1 }
+    - { M:   16, N:   16, lda:   16, stride_a:  256 }
+    - { M:   33, N:   32, lda:   33, stride_a: 1056 }
+    - { M:   65, N:   65, lda:   66, stride_a: 4300 }
 
   - &medium_matrix_size_range
-    - { M:   10, N:   10, lda:    2 }
-    - { M:  600, N:  500, lda:  500 }
-    - { M: 1000, N: 1000, lda: 1000 }
+    - { M:   10, N:   10, lda:    2, stride_a:    1000 }
+    - { M:  600, N:  500, lda:  500, stride_a:  250000 }
+    - { M: 1000, N: 1000, lda: 1000, stride_a: 1000100 }
 
   - &large_matrix_size_range
-    - { M: 2000, N: 2000, lda: 2000 }
-    - { M: 4011, N: 4011, lda: 4011 }
-    - { M: 8000, N: 8000, lda: 8000 }
+    - { M: 2000, N: 2000, lda: 2000, stride_a:    4000000 }
+    - { M: 4011, N: 4011, lda: 4011, stride_a:   16088200 }
+    - { M: 8000, N: 8000, lda: 8000, stride_a:   64000000 }
 
   - &incx_incy_range
-    - { incx:   1, incy:   1 }
-    - { incx:  -1, incy:  -1 }
-    - { incx:   1, incy:  -1 }
-    - { incx:  -1, incy:  -1 }
-    - { incx:   0, incy:  -1 }
-    - { incx:   0, incy:   1 }
-    - { incx:   1, incy:   0 }
-    - { incx:   1, incy:   2 }
-    - { incx:   2, incy:   1 }
-    - { incx:  10, incy:  99 }
+    - { incx:   1, incy:   1}
+    - { incx:  -1, incy:  -1}
+    - { incx:   1, incy:  -1}
+    - { incx:   0, incy:  -1}
+    - { incx:   0, incy:   1}
+    - { incx:   1, incy:   0}
+    - { incx:   1, incy:   2}
+    - { incx:   2, incy:   1}
+    - { incx:  10, incy:  99}
+
+  - &nightly_incx_incy_range
+    - { incx:   1, incy:   1, strideScale: 1.5}
+    - { incx:   1, incy:  -1, strideScale: 2}
+    - { incx:   1, incy:   2, strideScale: 1}
+    - { incx:  10, incy:  99, strideScale: 1}
 
 Tests:
 - name: ger_bad_arg
@@ -67,4 +72,73 @@ Tests:
   matrix_size: *large_matrix_size_range
   incx_incy: *incx_incy_range
   alpha: [ -0.5, 2.0, 0.0, 0.6 ]
+
+- name: ger_batched_bad_arg
+  category: pre_checkin
+  function: ger_batched_bad_arg
+  precision: *single_double_precisions
+  batch_count: [ -5, 0, 1, 5, 10 ]
+
+- name: ger_batched_small
+  category: quick
+  function: ger_batched
+  precision: *single_double_precisions
+  matrix_size: *small_matrix_size_range
+  incx_incy: *incx_incy_range
+  alpha: [ -0.5, 2.0, 0.0 ]
+  batch_count: [ -5, 0, 1, 5, 10 ]
+
+- name: ger_batched_medium
+  category: pre_checkin
+  function: ger_batched
+  precision: *single_double_precisions
+  matrix_size: *medium_matrix_size_range
+  incx_incy: *incx_incy_range
+  alpha: [ -0.5, 2.0, 0.0 ]
+  batch_count: [ 1, 5, 10 ]
+
+- name: ger_batched_large
+  category: nightly
+  function: ger_batched
+  precision: *single_double_precisions
+  matrix_size: *large_matrix_size_range
+  incx_incy: *nightly_incx_incy_range
+  alpha: [ -0.5, 2.0, 0.0 ]
+  batch_count: [ 1, 3 ]
+
+- name: ger_strided_batched_bad_arg
+  category: pre_checkin
+  function: ger_strided_batched_bad_arg
+  precision: *single_double_precisions
+  strideScale: [ -1, 0, 0.5, 1, 2 ]
+  batch_count: [ -5, 0, 1, 5, 10 ]
+
+- name: ger_strided_batched_small
+  category: quick
+  function: ger_strided_batched
+  precision: *single_double_precisions
+  matrix_size: *small_matrix_size_range
+  incx_incy: *incx_incy_range
+  alpha: [ -0.5, 2.0, 0.0 ]
+  strideScale: [ 0.5, 1, 2 ]
+  batch_count: [ -5, 0, 1, 5, 10 ]
+
+- name: ger_strided_batched_medium
+  category: pre_checkin
+  function: ger_strided_batched
+  precision: *single_double_precisions
+  matrix_size: *medium_matrix_size_range
+  incx_incy: *incx_incy_range
+  alpha: [ -0.5, 2.0, 0.0 ]
+  strideScale: [ 0.5, 1, 2 ]
+  batch_count: [ 1, 5, 10 ]
+
+- name: ger_strided_batched_large
+  category: nightly
+  function: ger_strided_batched
+  precision: *single_double_precisions
+  matrix_size: *large_matrix_size_range
+  incx_incy: *nightly_incx_incy_range
+  alpha: [ -0.5, 2.0, 0.0 ]
+  batch_count: [ 1, 3 ]
 ...
diff --git a/clients/gtest/rocblas_gtest.yaml b/clients/gtest/rocblas_gtest.yaml
index c7814e1f7..601ad4196 100644
--- a/clients/gtest/rocblas_gtest.yaml
+++ b/clients/gtest/rocblas_gtest.yaml
@@ -1,5 +1,7 @@
 include: blas1_gtest.yaml
 include: gemv_gtest.yaml
+include: gemv_batched_gtest.yaml
+include: gemv_strided_batched_gtest.yaml
 include: gemm_gtest.yaml
 include: gemm_strided_batched_gtest.yaml
 include: symv_gtest.yaml
diff --git a/clients/include/cblas_interface.hpp b/clients/include/cblas_interface.hpp
index 2bf504d7b..96c80aae3 100644
--- a/clients/include/cblas_interface.hpp
+++ b/clients/include/cblas_interface.hpp
@@ -365,6 +365,196 @@ inline void cblas_swap(rocblas_int             n,
     cblas_zswap(n, x, incx, y, incy);
 }
 
+// rot
+
+// LAPACK fortran library functionality
+extern "C" {
+void crot_(const int*                   n,
+           rocblas_float_complex*       cx,
+           const int*                   incx,
+           rocblas_float_complex*       cy,
+           const int*                   incy,
+           const float*                 c,
+           const rocblas_float_complex* s);
+void csrot_(const int*             n,
+            rocblas_float_complex* cx,
+            const int*             incx,
+            rocblas_float_complex* cy,
+            const int*             incy,
+            const float*           c,
+            const float*           s);
+void zrot_(const int*                    n,
+           rocblas_double_complex*       cx,
+           const int*                    incx,
+           rocblas_double_complex*       cy,
+           const int*                    incy,
+           const double*                 c,
+           const rocblas_double_complex* s);
+void zdrot_(const int*              n,
+            rocblas_double_complex* cx,
+            const int*              incx,
+            rocblas_double_complex* cy,
+            const int*              incy,
+            const double*           c,
+            const double*           s);
+}
+
+template <typename T, typename U, typename V>
+inline void cblas_rot(
+    rocblas_int n, T* x, rocblas_int incx, T* y, rocblas_int incy, const U* c, const V* s);
+
+template <>
+inline void cblas_rot(rocblas_int  n,
+                      float*       x,
+                      rocblas_int  incx,
+                      float*       y,
+                      rocblas_int  incy,
+                      const float* c,
+                      const float* s)
+{
+    cblas_srot(n, x, incx, y, incy, *c, *s);
+}
+
+template <>
+inline void cblas_rot(rocblas_int   n,
+                      double*       x,
+                      rocblas_int   incx,
+                      double*       y,
+                      rocblas_int   incy,
+                      const double* c,
+                      const double* s)
+{
+    cblas_drot(n, x, incx, y, incy, *c, *s);
+}
+
+template <>
+inline void cblas_rot(rocblas_int                  n,
+                      rocblas_float_complex*       x,
+                      rocblas_int                  incx,
+                      rocblas_float_complex*       y,
+                      rocblas_int                  incy,
+                      const float*                 c,
+                      const rocblas_float_complex* s)
+{
+    crot_(&n, x, &incx, y, &incx, c, s);
+}
+
+template <>
+inline void cblas_rot(rocblas_int            n,
+                      rocblas_float_complex* x,
+                      rocblas_int            incx,
+                      rocblas_float_complex* y,
+                      rocblas_int            incy,
+                      const float*           c,
+                      const float*           s)
+{
+    csrot_(&n, x, &incx, y, &incy, c, s);
+}
+
+template <>
+inline void cblas_rot(rocblas_int                   n,
+                      rocblas_double_complex*       x,
+                      rocblas_int                   incx,
+                      rocblas_double_complex*       y,
+                      rocblas_int                   incy,
+                      const double*                 c,
+                      const rocblas_double_complex* s)
+{
+    zrot_(&n, x, &incx, y, &incy, c, s);
+}
+
+template <>
+inline void cblas_rot(rocblas_int             n,
+                      rocblas_double_complex* x,
+                      rocblas_int             incx,
+                      rocblas_double_complex* y,
+                      rocblas_int             incy,
+                      const double*           c,
+                      const double*           s)
+{
+    zdrot_(&n, x, &incx, y, &incy, c, s);
+}
+
+// rotg
+
+// LAPACK fortran library functionality
+extern "C" {
+void crotg_(rocblas_float_complex* a, rocblas_float_complex* b, float* c, rocblas_float_complex* s);
+void zrotg_(rocblas_double_complex* a,
+            rocblas_double_complex* b,
+            double*                 c,
+            rocblas_double_complex* s);
+}
+
+template <typename T, typename U>
+inline void cblas_rotg(T* a, T* b, U* c, T* s);
+
+template <>
+inline void cblas_rotg(float* a, float* b, float* c, float* s)
+{
+    cblas_srotg(a, b, c, s);
+}
+
+template <>
+inline void cblas_rotg(double* a, double* b, double* c, double* s)
+{
+    cblas_drotg(a, b, c, s);
+}
+
+template <>
+inline void cblas_rotg(rocblas_float_complex* a,
+                       rocblas_float_complex* b,
+                       float*                 c,
+                       rocblas_float_complex* s)
+{
+    crotg_(a, b, c, s);
+}
+
+template <>
+inline void cblas_rotg(rocblas_double_complex* a,
+                       rocblas_double_complex* b,
+                       double*                 c,
+                       rocblas_double_complex* s)
+{
+    zrotg_(a, b, c, s);
+}
+
+// rotm
+
+template <typename T>
+inline void cblas_rotm(rocblas_int n, T* x, rocblas_int incx, T* y, rocblas_int incy, const T* p);
+
+template <>
+inline void cblas_rotm(
+    rocblas_int n, float* x, rocblas_int incx, float* y, rocblas_int incy, const float* p)
+{
+    cblas_srotm(n, x, incx, y, incy, p);
+}
+
+template <>
+inline void cblas_rotm(
+    rocblas_int n, double* x, rocblas_int incx, double* y, rocblas_int incy, const double* p)
+{
+    cblas_drotm(n, x, incx, y, incy, p);
+}
+
+// rotmg
+
+template <typename T>
+inline void cblas_rotmg(T* d1, T* d2, T* b1, const T* b2, T* p);
+
+template <>
+inline void cblas_rotmg(float* d1, float* d2, float* b1, const float* b2, float* p)
+{
+    cblas_srotmg(d1, d2, b1, *b2, p);
+}
+
+template <>
+inline void cblas_rotmg(double* d1, double* d2, double* b1, const double* b2, double* p)
+{
+    cblas_drotmg(d1, d2, b1, *b2, p);
+}
+
 /*
  * ===========================================================================
  *    level 2 BLAS
diff --git a/clients/include/norm.hpp b/clients/include/norm.hpp
index 34eeea8e2..714037152 100644
--- a/clients/include/norm.hpp
+++ b/clients/include/norm.hpp
@@ -6,7 +6,14 @@
 #ifndef _NORM_H
 #define _NORM_H
 
+#include "cblas.h"
+#include "norm.hpp"
 #include "rocblas.h"
+#include "rocblas_vector.hpp"
+#include "utility.hpp"
+#include <cstdio>
+#include <limits>
+#include <memory>
 
 /* =====================================================================
         Norm check: norm(A-B)/norm(A), evaluate relative error
@@ -19,30 +26,324 @@
 /* ========================================Norm Check
  * ==================================================== */
 
-/*! \brief  Template: norm check for general Matrix: half/float/doubel/complex  */
+/* LAPACK fortran library functionality */
+extern "C" {
+float  slange_(char* norm_type, int* m, int* n, float* A, int* lda, float* work);
+double dlange_(char* norm_type, int* m, int* n, double* A, int* lda, double* work);
+float  clange_(char* norm_type, int* m, int* n, rocblas_float_complex* A, int* lda, float* work);
+double zlange_(char* norm_type, int* m, int* n, rocblas_double_complex* A, int* lda, double* work);
 
-// see check_norm.cpp for template speciliazation
-// use auto as the return type is only allowed in c++14
-// convert float/float to double
-template <typename T>
-double norm_check_general(
-    char norm_type, rocblas_int M, rocblas_int N, rocblas_int lda, T* hCPU, T* hGPU);
+float  slansy_(char* norm_type, char* uplo, int* n, float* A, int* lda, float* work);
+double dlansy_(char* norm_type, char* uplo, int* n, double* A, int* lda, double* work);
+float clanhe_(char* norm_type, char* uplo, int* n, rocblas_float_complex* A, int* lda, float* work);
+double
+    zlanhe_(char* norm_type, char* uplo, int* n, rocblas_double_complex* A, int* lda, double* work);
+
+void saxpy_(int* n, float* alpha, float* x, int* incx, float* y, int* incy);
+void daxpy_(int* n, double* alpha, double* x, int* incx, double* y, int* incy);
+void caxpy_(
+    int* n, float* alpha, rocblas_float_complex* x, int* incx, rocblas_float_complex* y, int* incy);
+void zaxpy_(int*                    n,
+            double*                 alpha,
+            rocblas_double_complex* x,
+            int*                    incx,
+            rocblas_double_complex* y,
+            int*                    incy);
+}
+
+/*! \brief  Overloading: norm check for general Matrix: half/float/doubel/complex */
+inline float xlange(char* norm_type, int* m, int* n, float* A, int* lda, float* work)
+{
+    return slange_(norm_type, m, n, A, lda, work);
+}
+
+inline double xlange(char* norm_type, int* m, int* n, double* A, int* lda, double* work)
+{
+    return dlange_(norm_type, m, n, A, lda, work);
+}
+
+inline float
+    xlange(char* norm_type, int* m, int* n, rocblas_float_complex* A, int* lda, float* work)
+{
+    return clange_(norm_type, m, n, A, lda, work);
+}
+
+inline double
+    xlange(char* norm_type, int* m, int* n, rocblas_double_complex* A, int* lda, double* work)
+{
+    return zlange_(norm_type, m, n, A, lda, work);
+}
+
+inline float xlanhe(char* norm_type, char* uplo, int* n, float* A, int* lda, float* work)
+{
+    return slansy_(norm_type, uplo, n, A, lda, work);
+}
+
+inline double xlanhe(char* norm_type, char* uplo, int* n, double* A, int* lda, double* work)
+{
+    return dlansy_(norm_type, uplo, n, A, lda, work);
+}
+
+inline float
+    xlanhe(char* norm_type, char* uplo, int* n, rocblas_float_complex* A, int* lda, float* work)
+{
+    return clanhe_(norm_type, uplo, n, A, lda, work);
+}
+
+inline double
+    xlanhe(char* norm_type, char* uplo, int* n, rocblas_double_complex* A, int* lda, double* work)
+{
+    return zlanhe_(norm_type, uplo, n, A, lda, work);
+}
+
+inline void xaxpy(int* n, float* alpha, float* x, int* incx, float* y, int* incy)
+{
+    return saxpy_(n, alpha, x, incx, y, incy);
+}
+
+inline void xaxpy(int* n, double* alpha, double* x, int* incx, double* y, int* incy)
+{
+    return daxpy_(n, alpha, x, incx, y, incy);
+}
+
+inline void xaxpy(
+    int* n, float* alpha, rocblas_float_complex* x, int* incx, rocblas_float_complex* y, int* incy)
+{
+    return caxpy_(n, alpha, x, incx, y, incy);
+}
+
+inline void xaxpy(int*                    n,
+                  double*                 alpha,
+                  rocblas_double_complex* x,
+                  int*                    incx,
+                  rocblas_double_complex* y,
+                  int*                    incy)
+{
+    return zaxpy_(n, alpha, x, incx, y, incy);
+}
+
+/* ============== Norm Check for General Matrix ============= */
+/*! \brief compare the norm error of two matrices hCPU & hGPU */
+template <typename T, typename std::enable_if<!is_complex<T>, int>::type = 0>
+inline double norm_check_general(
+    char norm_type, rocblas_int M, rocblas_int N, rocblas_int lda, T* hCPU, T* hGPU)
+{
+    // norm type can be 'O', 'I', 'F', 'o', 'i', 'f' for one, infinity or Frobenius norm
+    // one norm is max column sum
+    // infinity norm is max row sum
+    // Frobenius is l2 norm of matrix entries
+
+    host_vector<double> hCPU_double(N * lda);
+    host_vector<double> hGPU_double(N * lda);
+
+    for(rocblas_int i = 0; i < N * lda; i++)
+    {
+        hCPU_double[i] = double(hCPU[i]);
+        hGPU_double[i] = double(hGPU[i]);
+    }
+
+    double      work[1];
+    rocblas_int incx  = 1;
+    double      alpha = -1.0;
+    rocblas_int size  = lda * N;
+
+    double cpu_norm = xlange(&norm_type, &M, &N, hCPU_double.data(), &lda, work);
+    xaxpy(&size, &alpha, hCPU_double.data(), &incx, hGPU_double.data(), &incx);
+    double error = xlange(&norm_type, &M, &N, hGPU_double.data(), &lda, work) / cpu_norm;
+
+    return error;
+}
+
+template <typename T, typename std::enable_if<is_complex<T>, int>::type = 0>
+inline double norm_check_general(
+    char norm_type, rocblas_int M, rocblas_int N, rocblas_int lda, T* hCPU, T* hGPU)
+{
+    // norm type can be O', 'I', 'F', 'o', 'i', 'f' for one, infinity or Frobenius norm
+    // one norm is max column sum
+    // infinity norm is max row sum
+    // Frobenius is l2 norm of matrix entries
+
+    decltype(std::real(*hCPU)) work[1];
+    rocblas_int                incx  = 1;
+    decltype(std::real(*hCPU)) alpha = -1.0f;
+    rocblas_int                size  = lda * N;
+
+    double cpu_norm = xlange(&norm_type, &M, &N, hCPU, &lda, work);
+    xaxpy(&size, &alpha, hCPU, &incx, hGPU, &incx);
+    double error = xlange(&norm_type, &M, &N, hGPU, &lda, work) / cpu_norm;
+
+    return error;
+}
+
+template <>
+inline double norm_check_general<rocblas_half, 0>(char          norm_type,
+                                                  rocblas_int   M,
+                                                  rocblas_int   N,
+                                                  rocblas_int   lda,
+                                                  rocblas_half* hCPU,
+                                                  rocblas_half* hGPU)
+{
+    // norm type can be 'O', 'I', 'F', 'o', 'i', 'f' for one, infinity or Frobenius norm
+    // one norm is max column sum
+    // infinity norm is max row sum
+    // Frobenius is l2 norm of matrix entries
 
-/*! \brief  Template: norm check for strided_batched Matrix: half/float/double/complex */
+    host_vector<double> hCPU_double(N * lda);
+    host_vector<double> hGPU_double(N * lda);
+
+    for(rocblas_int i = 0; i < N * lda; i++)
+    {
+        hCPU_double[i] = double(half_to_float(hCPU[i]));
+        hGPU_double[i] = double(half_to_float(hGPU[i]));
+    }
+
+    return norm_check_general(norm_type, M, N, lda, hCPU_double.data(), hGPU_double.data());
+}
+
+/* ============== Norm Check for strided_batched case ============= */
 template <typename T>
-double norm_check_general(char        norm_type,
-                          rocblas_int M,
-                          rocblas_int N,
-                          rocblas_int lda,
-                          rocblas_int stride_a,
-                          rocblas_int batch_count,
-                          T*          hCPU,
-                          T*          hGPU);
+inline double norm_check_general(char        norm_type,
+                                 rocblas_int M,
+                                 rocblas_int N,
+                                 rocblas_int lda,
+                                 rocblas_int stride_a,
+                                 rocblas_int batch_count,
+                                 T*          hCPU,
+                                 T*          hGPU)
+{
+    // norm type can be O', 'I', 'F', 'o', 'i', 'f' for one, infinity or Frobenius norm
+    // one norm is max column sum
+    // infinity norm is max row sum
+    // Frobenius is l2 norm of matrix entries
+    //
+    // use triangle inequality ||a+b|| <= ||a|| + ||b|| to calculate upper limit for Frobenius norm
+    // of strided batched matrix
+
+    double cumulative_error = 0.0;
+
+    for(rocblas_int i = 0; i < batch_count; i++)
+    {
+        auto index = i * stride_a;
+
+        auto error = norm_check_general(norm_type, M, N, lda, hCPU + index, hGPU + index);
+
+        if(norm_type == 'F' || norm_type == 'f')
+        {
+            cumulative_error += error;
+        }
+        else if(norm_type == 'O' || norm_type == 'o' || norm_type == 'I' || norm_type == 'i')
+        {
+            cumulative_error = cumulative_error > error ? cumulative_error : error;
+        }
+    }
 
-/*! \brief  Template: norm check for hermitian/symmetric Matrix: half/float/double/complex */
+    return cumulative_error;
+}
 
+/* ============== Norm Check for batched case ============= */
 template <typename T>
-double norm_check_symmetric(
-    char norm_type, char uplo, rocblas_int N, rocblas_int lda, T* hCPU, T* hGPU);
+inline double norm_check_general(char           norm_type,
+                                 rocblas_int    M,
+                                 rocblas_int    N,
+                                 rocblas_int    lda,
+                                 rocblas_int    batch_count,
+                                 host_vector<T> hCPU[],
+                                 host_vector<T> hGPU[])
+{
+    // norm type can be O', 'I', 'F', 'o', 'i', 'f' for one, infinity or Frobenius norm
+    // one norm is max column sum
+    // infinity norm is max row sum
+    // Frobenius is l2 norm of matrix entries
+    //
+    // use triangle inequality ||a+b|| <= ||a|| + ||b|| to calculate upper limit for Frobenius norm
+    // of strided batched matrix
+
+    double cumulative_error = 0.0;
+
+    for(rocblas_int i = 0; i < batch_count; i++)
+    {
+        auto index = i;
+
+        auto error = norm_check_general<T>(norm_type, M, N, lda, hCPU[index], hGPU[index]);
+
+        if(norm_type == 'F' || norm_type == 'f')
+        {
+            cumulative_error += error;
+        }
+        else if(norm_type == 'O' || norm_type == 'o' || norm_type == 'I' || norm_type == 'i')
+        {
+            cumulative_error = cumulative_error > error ? cumulative_error : error;
+        }
+    }
+
+    return cumulative_error;
+}
+
+/* ============== Norm Check for Symmetric Matrix ============= */
+/*! \brief compare the norm error of two hermitian/symmetric matrices hCPU & hGPU */
+template <typename T, typename std::enable_if<!is_complex<T>, int>::type = 0>
+inline double norm_check_symmetric(
+    char norm_type, char uplo, rocblas_int N, rocblas_int lda, T* hCPU, T* hGPU)
+{
+    // norm type can be M', 'I', 'F', 'l': 'F' (Frobenius norm) is used mostly
+
+    double      work[1];
+    rocblas_int incx  = 1;
+    double      alpha = -1.0;
+    rocblas_int size  = lda * N;
+
+    host_vector<double> hCPU_double(N * lda);
+    host_vector<double> hGPU_double(N * lda);
+
+    for(rocblas_int i = 0; i < N * lda; i++)
+    {
+        hCPU_double[i] = double(hCPU[i]);
+        hGPU_double[i] = double(hGPU[i]);
+    }
+
+    double cpu_norm = xlanhe(&norm_type, &uplo, &N, hCPU_double, &lda, work);
+    xaxpy(&size, &alpha, hCPU_double, &incx, hGPU_double, &incx);
+    double error = xlanhe(&norm_type, &uplo, &N, hGPU_double, &lda, work) / cpu_norm;
+
+    return error;
+}
+
+template <typename T, typename std::enable_if<is_complex<T>, int>::type = 0>
+inline double norm_check_symmetric(
+    char norm_type, char uplo, rocblas_int N, rocblas_int lda, T* hCPU, T* hGPU)
+{
+    // norm type can be M', 'I', 'F', 'l': 'F' (Frobenius norm) is used mostly
+
+    decltype(std::real(*hCPU)) work[1];
+    rocblas_int                incx  = 1;
+    decltype(std::real(*hCPU)) alpha = -1.0;
+    rocblas_int                size  = lda * N;
+
+    double cpu_norm = xlanhe(&norm_type, &uplo, &N, hCPU, &lda, work);
+    xaxpy(&size, &alpha, hCPU, &incx, hGPU, &incx);
+    double error = xlanhe(&norm_type, &uplo, &N, hGPU, &lda, work) / cpu_norm;
+
+    return error;
+}
+
+template <>
+inline double norm_check_symmetric<rocblas_half, 0>(char          norm_type,
+                                                    char          uplo,
+                                                    rocblas_int   N,
+                                                    rocblas_int   lda,
+                                                    rocblas_half* hCPU,
+                                                    rocblas_half* hGPU)
+{
+    host_vector<double> hCPU_double(N * lda);
+    host_vector<double> hGPU_double(N * lda);
+
+    for(rocblas_int i = 0; i < N * lda; i++)
+    {
+        hCPU_double[i] = double(half_to_float(hCPU[i]));
+        hGPU_double[i] = double(half_to_float(hGPU[i]));
+    }
+
+    return norm_check_symmetric(norm_type, uplo, N, lda, hCPU_double.data(), hGPU_double.data());
+}
 
 #endif
diff --git a/clients/include/rocblas.hpp b/clients/include/rocblas.hpp
index fbecd9189..465484a66 100644
--- a/clients/include/rocblas.hpp
+++ b/clients/include/rocblas.hpp
@@ -100,6 +100,12 @@ static constexpr auto rocblas_dot<float> = rocblas_sdot;
 template <>
 static constexpr auto rocblas_dot<double> = rocblas_ddot;
 
+template <>
+static constexpr auto rocblas_dot<rocblas_half> = rocblas_hdot;
+
+template <>
+static constexpr auto rocblas_dot<rocblas_bfloat16> = rocblas_bfdot;
+
 template <>
 static constexpr auto rocblas_dot<rocblas_float_complex> = rocblas_cdotu;
 
@@ -262,6 +268,79 @@ static constexpr auto rocblas_axpy<rocblas_float_complex> = rocblas_caxpy;
 template <>
 static constexpr auto rocblas_axpy<rocblas_double_complex> = rocblas_zaxpy;
 
+// rot
+template <typename T, typename U = T, typename V = T>
+rocblas_status (*rocblas_rot)(rocblas_handle handle,
+                              rocblas_int    n,
+                              T*             x,
+                              rocblas_int    incx,
+                              T*             y,
+                              rocblas_int    incy,
+                              const U*       c,
+                              const V*       s);
+
+template <>
+static constexpr auto rocblas_rot<float> = rocblas_srot;
+
+template <>
+static constexpr auto rocblas_rot<double> = rocblas_drot;
+
+template <>
+static constexpr auto
+    rocblas_rot<rocblas_float_complex, float, rocblas_float_complex> = rocblas_crot;
+
+template <>
+static constexpr auto rocblas_rot<rocblas_float_complex, float, float> = rocblas_csrot;
+
+template <>
+static constexpr auto
+    rocblas_rot<rocblas_double_complex, double, rocblas_double_complex> = rocblas_zrot;
+
+template <>
+static constexpr auto rocblas_rot<rocblas_double_complex, double, double> = rocblas_zdrot;
+
+// rotg
+template <typename T, typename U = T>
+rocblas_status (*rocblas_rotg)(rocblas_handle handle, T* a, T* b, U* c, T* s);
+
+template <>
+static constexpr auto rocblas_rotg<float> = rocblas_srotg;
+
+template <>
+static constexpr auto rocblas_rotg<double> = rocblas_drotg;
+
+template <>
+static constexpr auto rocblas_rotg<rocblas_float_complex, float> = rocblas_crotg;
+
+template <>
+static constexpr auto rocblas_rotg<rocblas_double_complex, double> = rocblas_zrotg;
+
+//rotm
+template <typename T>
+rocblas_status (*rocblas_rotm)(rocblas_handle handle,
+                               rocblas_int    n,
+                               T*             x,
+                               rocblas_int    incx,
+                               T*             y,
+                               rocblas_int    incy,
+                               const T*       param);
+
+template <>
+static constexpr auto rocblas_rotm<float> = rocblas_srotm;
+
+template <>
+static constexpr auto rocblas_rotm<double> = rocblas_drotm;
+
+//rotmg
+template <typename T>
+rocblas_status (*rocblas_rotmg)(rocblas_handle handle, T* d1, T* d2, T* x1, const T* y1, T* param);
+
+template <>
+static constexpr auto rocblas_rotmg<float> = rocblas_srotmg;
+
+template <>
+static constexpr auto rocblas_rotmg<double> = rocblas_drotmg;
+
 /*
  * ===========================================================================
  *    level 2 BLAS
@@ -287,6 +366,47 @@ static constexpr auto rocblas_ger<float> = rocblas_sger;
 template <>
 static constexpr auto rocblas_ger<double> = rocblas_dger;
 
+template <typename T>
+rocblas_status (*rocblas_ger_batched)(rocblas_handle handle,
+                                      rocblas_int    m,
+                                      rocblas_int    n,
+                                      const T*       alpha,
+                                      const T* const x[],
+                                      rocblas_int    incx,
+                                      const T* const y[],
+                                      rocblas_int    incy,
+                                      T* const       A[],
+                                      rocblas_int    lda,
+                                      rocblas_int    batch_count);
+
+template <>
+static constexpr auto rocblas_ger_batched<float> = rocblas_sger_batched;
+
+template <>
+static constexpr auto rocblas_ger_batched<double> = rocblas_dger_batched;
+
+template <typename T>
+rocblas_status (*rocblas_ger_strided_batched)(rocblas_handle handle,
+                                              rocblas_int    m,
+                                              rocblas_int    n,
+                                              const T*       alpha,
+                                              const T*       x,
+                                              rocblas_int    incx,
+                                              rocblas_int    stride_x,
+                                              const T*       y,
+                                              rocblas_int    incy,
+                                              rocblas_int    stride_y,
+                                              T*             A,
+                                              rocblas_int    lda,
+                                              rocblas_int    stride_a,
+                                              rocblas_int    batch_count);
+
+template <>
+static constexpr auto rocblas_ger_strided_batched<float> = rocblas_sger_strided_batched;
+
+template <>
+static constexpr auto rocblas_ger_strided_batched<double> = rocblas_dger_strided_batched;
+
 // syr
 template <typename T>
 rocblas_status (*rocblas_syr)(rocblas_handle handle,
@@ -331,6 +451,67 @@ static constexpr auto rocblas_gemv<rocblas_float_complex> = rocblas_cgemv;
 template <>
 static constexpr auto rocblas_gemv<rocblas_double_complex> = rocblas_zgemv;
 
+// gemv_strided_batched
+template <typename T>
+rocblas_status (*rocblas_gemv_strided_batched)(rocblas_handle    handle,
+                                               rocblas_operation transA,
+                                               rocblas_int       m,
+                                               rocblas_int       n,
+                                               const T*          alpha,
+                                               const T*          A,
+                                               rocblas_int       lda,
+                                               rocblas_int       stride_a,
+                                               const T*          x,
+                                               rocblas_int       incx,
+                                               rocblas_int       stride_x,
+                                               const T*          beta,
+                                               T*                y,
+                                               rocblas_int       incy,
+                                               rocblas_int       stride_y,
+                                               rocblas_int       batch_count);
+
+template <>
+static constexpr auto rocblas_gemv_strided_batched<float> = rocblas_sgemv_strided_batched;
+
+template <>
+static constexpr auto rocblas_gemv_strided_batched<double> = rocblas_dgemv_strided_batched;
+
+template <>
+static constexpr auto
+    rocblas_gemv_strided_batched<rocblas_float_complex> = rocblas_cgemv_strided_batched;
+
+template <>
+static constexpr auto
+    rocblas_gemv_strided_batched<rocblas_double_complex> = rocblas_zgemv_strided_batched;
+
+// gemv_batched
+template <typename T>
+rocblas_status (*rocblas_gemv_batched)(rocblas_handle    handle,
+                                       rocblas_operation transA,
+                                       rocblas_int       m,
+                                       rocblas_int       n,
+                                       const T*          alpha,
+                                       const T* const    A[],
+                                       rocblas_int       lda,
+                                       const T* const    x[],
+                                       rocblas_int       incx,
+                                       const T*          beta,
+                                       T* const          y[],
+                                       rocblas_int       incy,
+                                       rocblas_int       batch_count);
+
+template <>
+static constexpr auto rocblas_gemv_batched<float> = rocblas_sgemv_batched;
+
+template <>
+static constexpr auto rocblas_gemv_batched<double> = rocblas_dgemv_batched;
+
+template <>
+static constexpr auto rocblas_gemv_batched<rocblas_float_complex> = rocblas_cgemv_batched;
+
+template <>
+static constexpr auto rocblas_gemv_batched<rocblas_double_complex> = rocblas_zgemv_batched;
+
 // trsv
 template <typename T>
 rocblas_status (*rocblas_trsv)(rocblas_handle    handle,
@@ -425,6 +606,12 @@ static constexpr auto rocblas_gemm<float> = rocblas_sgemm;
 template <>
 static constexpr auto rocblas_gemm<double> = rocblas_dgemm;
 
+template <>
+static constexpr auto rocblas_gemm<rocblas_float_complex> = rocblas_cgemm;
+
+template <>
+static constexpr auto rocblas_gemm<rocblas_double_complex> = rocblas_zgemm;
+
 // gemm_strided_batched
 template <typename T>
 rocblas_status (*rocblas_gemm_strided_batched)(rocblas_handle    handle,
@@ -455,6 +642,14 @@ static constexpr auto rocblas_gemm_strided_batched<float> = rocblas_sgemm_stride
 template <>
 static constexpr auto rocblas_gemm_strided_batched<double> = rocblas_dgemm_strided_batched;
 
+template <>
+static constexpr auto
+    rocblas_gemm_strided_batched<rocblas_float_complex> = rocblas_cgemm_strided_batched;
+
+template <>
+static constexpr auto
+    rocblas_gemm_strided_batched<rocblas_double_complex> = rocblas_zgemm_strided_batched;
+
 #if 0
 // trmm
 template <typename T>
diff --git a/clients/include/rocblas_arguments.hpp b/clients/include/rocblas_arguments.hpp
index 72a72f333..65ecf18c5 100644
--- a/clients/include/rocblas_arguments.hpp
+++ b/clients/include/rocblas_arguments.hpp
@@ -63,6 +63,9 @@ struct Arguments
     rocblas_int stride_c; //  stride_c > ldc * N
     rocblas_int stride_d; //  stride_d > ldd * N
 
+    rocblas_int stride_x;
+    rocblas_int stride_y;
+
     rocblas_int norm_check;
     rocblas_int unit_check;
     rocblas_int timing;
@@ -145,6 +148,8 @@ struct Arguments
         ROCBLAS_FORMAT_CHECK(stride_b);
         ROCBLAS_FORMAT_CHECK(stride_c);
         ROCBLAS_FORMAT_CHECK(stride_d);
+        ROCBLAS_FORMAT_CHECK(stride_x);
+        ROCBLAS_FORMAT_CHECK(stride_y);
         ROCBLAS_FORMAT_CHECK(norm_check);
         ROCBLAS_FORMAT_CHECK(unit_check);
         ROCBLAS_FORMAT_CHECK(timing);
@@ -161,13 +166,16 @@ struct Arguments
     template <typename T>
     T get_alpha() const
     {
-        return rocblas_isnan(alpha) ? T(0) : convert_alpha_beta<T>(alpha, alphai);
+        return (rocblas_isnan(alpha) || rocblas_isnan(alphai))
+                   ? T(0)
+                   : convert_alpha_beta<T>(alpha, alphai);
     }
 
     template <typename T>
     T get_beta() const
     {
-        return rocblas_isnan(beta) ? T(0) : convert_alpha_beta<T>(beta, betai);
+        return (rocblas_isnan(beta) || rocblas_isnan(betai)) ? T(0)
+                                                             : convert_alpha_beta<T>(beta, betai);
     }
 
 private:
@@ -291,6 +299,8 @@ struct Arguments
         print("stride_b", arg.stride_b);
         print("stride_c", arg.stride_c);
         print("stride_d", arg.stride_d);
+        print("stride_x", arg.stride_x);
+        print("stride_y", arg.stride_y);
         print("algo", arg.algo);
         print("solution_index", arg.solution_index);
         print("flags", arg.flags);
diff --git a/clients/include/rocblas_common.yaml b/clients/include/rocblas_common.yaml
index 2dc712ca2..49bca04c0 100644
--- a/clients/include/rocblas_common.yaml
+++ b/clients/include/rocblas_common.yaml
@@ -40,6 +40,8 @@ Real precisions: &real_precisions
     { a_type: f64_r, b_type: f64_r, c_type: f64_r, d_type: f64_r, compute_type: f64_r }
   - &int8_precision
     { a_type:  i8_r, b_type:  i8_r, c_type: i32_r, d_type: i32_r, compute_type: i32_r }
+  - &bf16_precision
+    { a_type:  bf16_r, b_type:  bf16_r, c_type: bf16_r, d_type: bf16_r, compute_type: bf16_r }
   - &hpa_bf16_precision
     { a_type:  bf16_r, b_type:  bf16_r, c_type: bf16_r, d_type: bf16_r, compute_type: f32_r }
 
@@ -173,6 +175,46 @@ Single double joined: &single_double_complex_real_in_complex_out
   - *single_precision_complex_real_in_complex_out
   - *double_precision_complex_real_in_complex_out
 
+#############################################
+#               Used for rot*               #
+#############################################
+Complex real mixed: &complex_real_mixed
+  - &single_precision_complex_real_in_complex_compute
+    { a_type: f32_c, b_type: f32_r, c_type: f32_c, d_type: f32_c, compute_type: f32_c }
+  - &double_precision_complex_real_in_complex_compute
+    { a_type: f64_c, b_type: f64_r, c_type: f64_c, d_type: f64_c, compute_type: f64_c }
+  - &single_precision_complex_real_in_real_compute
+    { a_type: f32_c, b_type: f32_r, c_type: f32_c, d_type: f32_c, compute_type: f32_r }
+  - &double_precision_complex_real_in_real_compute
+    { a_type: f64_c, b_type: f64_r, c_type: f64_c, d_type: f64_c, compute_type: f64_r }
+
+rot precisions: &rot_precisions
+  - *single_precision
+  - *double_precision
+  - *single_precision_complex_real_in_complex_compute
+  - *single_precision_complex_real_in_real_compute
+  - *double_precision_complex_real_in_complex_compute
+  - *double_precision_complex_real_in_real_compute
+
+rotg precisions: &rotg_precisions
+  - *single_precision
+  - *double_precision
+  - *single_precision_complex_real_in_complex_compute
+  - *double_precision_complex_real_in_complex_compute
+
+#############################################
+#           Used for Dot (quick)            #
+#############################################
+Half bfloat single double complex real: &half_bfloat_single_double_complex_real_precisions
+  - *half_precision
+  - *bf16_precision
+  - *single_precision
+  - *double_precision
+  - *half_precision_complex
+  - *single_precision_complex
+  - *double_precision_complex
+
+
 # The Arguments struct passed directly to C++. See rocblas_arguments.hpp.
 # The order of the entries is significant, so it can't simply be a dictionary.
 # The types on the RHS are eval'd for Python-recognized types including ctypes
@@ -208,6 +250,8 @@ Arguments:
   - stride_b: rocblas_int
   - stride_c: rocblas_int
   - stride_d: rocblas_int
+  - stride_x: rocblas_int
+  - stride_y: rocblas_int
   - norm_check: rocblas_int
   - unit_check: rocblas_int
   - timing: rocblas_int
diff --git a/clients/include/rocblas_template.yaml b/clients/include/rocblas_template.yaml
index ffb6d66e0..87e12e61b 100644
--- a/clients/include/rocblas_template.yaml
+++ b/clients/include/rocblas_template.yaml
@@ -30,6 +30,10 @@ Functions:
   rocblas_dgemv: { function: gemv, <<: *double_precision }
   rocblas_cgemv: { function: gemv, <<: *single_precision_complex }
   rocblas_zgemv: { function: gemv, <<: *double_precision_complex } 
+  rocblas_sgemv_strided_batched: { function: gemv_strided_batched, <<: *single_precision }
+  rocblas_dgemv_strided_batched: { function: gemv_strided_batched, <<: *double_precision }
+  rocblas_sgemv_batched: { function: gemv_batched, <<: *single_precision }
+  rocblas_dgemv_batched: { function: gemv_batched, <<: *double_precision }  
   rocblas_strsv: { function: trsv, <<: *single_precision }
   rocblas_dtrsv: { function: trsv, <<: *double_precision }
   rocblas_ssymv: { function: symv, <<: *single_precision }
diff --git a/clients/include/rocblas_vector.hpp b/clients/include/rocblas_vector.hpp
index 46dbb2f6b..ed9e89309 100644
--- a/clients/include/rocblas_vector.hpp
+++ b/clients/include/rocblas_vector.hpp
@@ -14,110 +14,161 @@
 #include <vector>
 
 /* ============================================================================================ */
-/*! \brief  pseudo-vector class which uses device memory */
-
-template <typename T, size_t PAD = 4096>
-class device_vector
+/*! \brief  base-class to allocate/deallocate device memory */
+template <typename T, size_t PAD, typename U>
+class d_vector
 {
-#ifdef GOOGLE_TEST
+protected:
+    size_t size, bytes;
 
-    T guard[PAD];
+#ifdef GOOGLE_TEST
+    U guard[PAD];
+    d_vector(size_t s)
+        : size(s)
+        , bytes((s + PAD * 2) * sizeof(T))
+    {
+        // Initialize guard with random data
+        if(PAD > 0)
+        {
+            rocblas_init_nan(guard, PAD);
+        }
+    }
+#else
+    d_vector(size_t s)
+        : size(s)
+        , bytes(s ? s * sizeof(T) : sizeof(T))
+    {
+    }
+#endif
 
-    void device_vector_setup()
+    T* device_vector_setup()
     {
-        if((hipMalloc)(&data, bytes) != hipSuccess)
+        T* d;
+        if((hipMalloc)(&d, bytes) != hipSuccess)
         {
             static char* lc = setlocale(LC_NUMERIC, "");
             fprintf(stderr, "Error allocating %'zu bytes (%zu GB)\n", bytes, bytes >> 30);
-            data = nullptr;
+            d = nullptr;
         }
+#ifdef GOOGLE_TEST
         else
         {
-            // Initialize guard with random data
-            rocblas_init_nan(guard, PAD);
-
-            // Copy guard to device memory before allocated memory
-            CHECK_HIP_ERROR(hipMemcpy(data, guard, sizeof(guard), hipMemcpyHostToDevice));
+            if(PAD > 0)
+            {
+                // Copy guard to device memory before allocated memory
+                hipMemcpy(d, guard, sizeof(guard), hipMemcpyHostToDevice);
 
-            // Point to allocated block
-            data += PAD;
+                // Point to allocated block
+                d += PAD;
 
-            // Copy guard to device memory after allocated memory
-            CHECK_HIP_ERROR(hipMemcpy(data + size, guard, sizeof(guard), hipMemcpyHostToDevice));
+                // Copy guard to device memory after allocated memory
+                hipMemcpy(d + size, guard, sizeof(guard), hipMemcpyHostToDevice);
+            }
         }
+#endif
+        return d;
     }
 
-    void device_vector_teardown()
+    void device_vector_teardown(T* d)
     {
-        if(data != nullptr)
+        if(d != nullptr)
         {
-            T host[PAD];
-
-            // Copy device memory after allocated memory to host
-            CHECK_HIP_ERROR(hipMemcpy(host, data + size, sizeof(guard), hipMemcpyDeviceToHost));
+#ifdef GOOGLE_TEST
+            if(PAD > 0)
+            {
+                U host[PAD];
 
-            // Make sure no corruption has occurred
-            EXPECT_EQ(memcmp(host, guard, sizeof(guard)), 0);
+                // Copy device memory after allocated memory to host
+                hipMemcpy(host, d + size, sizeof(guard), hipMemcpyDeviceToHost);
 
-            // Point to guard before allocated memory
-            data -= PAD;
+                // Make sure no corruption has occurred
+                EXPECT_EQ(memcmp(host, guard, sizeof(guard)), 0);
 
-            // Copy device memory after allocated memory to host
-            CHECK_HIP_ERROR(hipMemcpy(host, data, sizeof(guard), hipMemcpyDeviceToHost));
+                // Point to guard before allocated memory
+                d -= PAD;
 
-            // Make sure no corruption has occurred
-            EXPECT_EQ(memcmp(host, guard, sizeof(guard)), 0);
+                // Copy device memory after allocated memory to host
+                hipMemcpy(host, d, sizeof(guard), hipMemcpyDeviceToHost);
 
+                // Make sure no corruption has occurred
+                EXPECT_EQ(memcmp(host, guard, sizeof(guard)), 0);
+            }
+#endif
             // Free device memory
-            CHECK_HIP_ERROR((hipFree)(data));
+            CHECK_HIP_ERROR((hipFree)(d));
         }
     }
+};
 
+/* ============================================================================================ */
+/*! \brief  pseudo-vector subclass which uses a batch of device memory pointers and 
+            an array of pointers in host memory*/
+template <typename T, size_t PAD = 4096, typename U = T>
+class device_batch_vector : private d_vector<T, PAD, U>
+{
 public:
-    // Must wrap constructor and destructor in functions to allow Google Test macros to work
-    explicit device_vector(size_t size)
-        : size(size)
-        , bytes((size + PAD * 2) * sizeof(T))
+    explicit device_batch_vector(size_t b, size_t s)
+        : batch(b)
+        , d_vector<T, PAD, U>(s)
     {
-        device_vector_setup();
+        data = (T**)malloc(batch * sizeof(T*));
+        for(int b = 0; b < batch; ++b)
+            data[b] = this->device_vector_setup();
     }
 
-    ~device_vector()
+    ~device_batch_vector()
     {
-        device_vector_teardown();
+        if(data != nullptr)
+        {
+            for(int b = 0; b < batch; ++b)
+                this->device_vector_teardown(data[b]);
+            free(data);
+        }
+    }
+
+    T* operator[](int n)
+    {
+        return data[n];
     }
 
-#else // GOOGLE_TEST
+    operator T**()
+    {
+        return data;
+    }
 
-    // Code without memory guards
+    // Disallow copying or assigning
+    device_batch_vector(const device_batch_vector&) = delete;
+    device_batch_vector& operator=(const device_batch_vector&) = delete;
 
+private:
+    T**    data;
+    size_t batch;
+};
+
+/* ============================================================================================ */
+/*! \brief  pseudo-vector subclass which uses device memory */
+template <typename T, size_t PAD = 4096, typename U = T>
+class device_vector : private d_vector<T, PAD, U>
+{
 public:
-    explicit device_vector(size_t size)
-        : size(size)
-        , bytes(size ? size * sizeof(T) : sizeof(T))
+    // Must wrap constructor and destructor in functions to allow Google Test macros to work
+    explicit device_vector(size_t s)
+        : d_vector<T, PAD, U>(s)
     {
-        if((hipMalloc)(&data, bytes) != hipSuccess)
-        {
-            static char* lc = setlocale(LC_NUMERIC, "");
-            fprintf(stderr, "Error allocating %'zu bytes (%'zu GB)\n", bytes, bytes >> 30);
-            data = nullptr;
-        }
+        data = this->device_vector_setup();
     }
 
     ~device_vector()
     {
-        if(data != nullptr)
-            CHECK_HIP_ERROR((hipFree)(data));
+        this->device_vector_teardown(data);
     }
 
-#endif // GOOGLE_TEST
-
-public:
     // Decay into pointer wherever pointer is expected
     operator T*()
     {
         return data;
     }
+
     operator const T*() const
     {
         return data;
@@ -134,12 +185,11 @@ class device_vector
     device_vector& operator=(const device_vector&) = delete;
 
 private:
-    T*           data;
-    const size_t size, bytes;
+    T* data;
 };
 
 /* ============================================================================================ */
-/*! \brief  pseudo-vector class which uses host memory */
+/*! \brief  pseudo-vector subclass which uses host memory */
 template <typename T>
 struct host_vector : std::vector<T>
 {
diff --git a/clients/include/testing_dot.hpp b/clients/include/testing_dot.hpp
index c8583259d..853250826 100644
--- a/clients/include/testing_dot.hpp
+++ b/clients/include/testing_dot.hpp
@@ -156,8 +156,8 @@ void testing_dot(const Arguments& arg)
             std::cout << "cpu=" << cpu_result << ", gpu_host_ptr=" << rocblas_result_1
                       << ", gpu_device_ptr=" << rocblas_result_2 << "\n";
 
-            rocblas_error_1 = std::abs((cpu_result - rocblas_result_1) / cpu_result);
-            rocblas_error_2 = std::abs((cpu_result - rocblas_result_2) / cpu_result);
+            rocblas_error_1 = double(std::abs((cpu_result - rocblas_result_1) / cpu_result));
+            rocblas_error_2 = double(std::abs((cpu_result - rocblas_result_2) / cpu_result));
         }
     }
 
diff --git a/clients/include/testing_gemm.hpp b/clients/include/testing_gemm.hpp
index c244656e5..6e4459ae9 100644
--- a/clients/include/testing_gemm.hpp
+++ b/clients/include/testing_gemm.hpp
@@ -89,18 +89,8 @@ void testing_gemm(const Arguments& arg)
     rocblas_int ldb = arg.ldb;
     rocblas_int ldc = arg.ldc;
 
-    T h_alpha;
-    T h_beta;
-    if(std::is_same<T, rocblas_half>{})
-    {
-        h_alpha = float_to_half(arg.alpha);
-        h_beta  = float_to_half(rocblas_isnan(arg.beta) ? 0 : arg.beta);
-    }
-    else
-    {
-        h_alpha = arg.alpha;
-        h_beta  = rocblas_isnan(arg.beta) ? 0 : arg.beta;
-    }
+    T h_alpha = arg.get_alpha<T>();
+    T h_beta  = arg.get_beta<T>();
 
     double               gpu_time_used, cpu_time_used;
     double               rocblas_gflops, cblas_gflops;
@@ -163,7 +153,7 @@ void testing_gemm(const Arguments& arg)
         rocblas_seedrand();
         rocblas_init<T>(hA, A_row, A_col, lda);
         rocblas_init_alternating_sign<T>(hB, B_row, B_col, ldb);
-        if(rocblas_isnan(arg.beta))
+        if(rocblas_isnan(arg.beta) || rocblas_isnan(arg.betai))
             rocblas_init_nan<T>(hC_1, M, N, ldc);
         else
             rocblas_init<T>(hC_1, M, N, ldc);
@@ -172,7 +162,7 @@ void testing_gemm(const Arguments& arg)
     {
         rocblas_init_sin<T>(hA, A_row, A_col, lda);
         rocblas_init_cos<T>(hB, B_row, B_col, ldb);
-        if(rocblas_isnan(arg.beta))
+        if(rocblas_isnan(arg.beta) || rocblas_isnan(arg.betai))
             rocblas_init_nan<T>(hC_1, M, N, ldc);
         else
             rocblas_init_sin<T>(hC_1, M, N, ldc);
@@ -182,7 +172,7 @@ void testing_gemm(const Arguments& arg)
         rocblas_seedrand();
         rocblas_init_hpl<T>(hA, A_row, A_col, lda);
         rocblas_init_hpl<T>(hB, B_row, B_col, ldb);
-        if(rocblas_isnan(arg.beta))
+        if(rocblas_isnan(arg.beta) || rocblas_isnan(arg.betai))
             rocblas_init_nan<T>(hC_1, M, N, ldc);
         else
             rocblas_init_hpl<T>(hC_1, M, N, ldc);
@@ -282,10 +272,8 @@ void testing_gemm(const Arguments& arg)
         std::cout << std::endl;
 
         std::cout << arg.transA << "," << arg.transB << "," << M << "," << N << "," << K << ","
-                  << (std::is_same<T, rocblas_half>{} ? half_to_float(h_alpha) : h_alpha) << ","
-                  << lda << "," << ldb << ","
-                  << (std::is_same<T, rocblas_half>{} ? half_to_float(h_beta) : h_beta) << ","
-                  << ldc << "," << rocblas_gflops << "," << gpu_time_used / number_hot_calls;
+                  << arg.get_alpha<T>() << "," << lda << "," << ldb << "," << arg.get_beta<T>()
+                  << "," << ldc << "," << rocblas_gflops << "," << gpu_time_used / number_hot_calls;
 
         if(arg.unit_check || arg.norm_check)
             std::cout << "," << cblas_gflops << "," << cpu_time_used << "," << rocblas_error;
diff --git a/clients/include/testing_gemm_ex.hpp b/clients/include/testing_gemm_ex.hpp
index 3077aa325..a22cd52df 100644
--- a/clients/include/testing_gemm_ex.hpp
+++ b/clients/include/testing_gemm_ex.hpp
@@ -248,9 +248,9 @@ void testing_gemm_ex(const Arguments& arg)
     int32_t           solution_index(arg.solution_index);
     uint32_t          flags(arg.flags);
 
-    bool nantest = rocblas_isnan(arg.beta);
+    bool nantest = rocblas_isnan(arg.beta) || rocblas_isnan(arg.betai);
     if(!std::is_same<To, float>{} && !std::is_same<To, double>{}
-       && !std::is_same<To, rocblas_half>{} && nantest)
+       && !std::is_same<To, rocblas_half>{} && !is_complex<To> && nantest)
         return; // Exclude integers or other types which don't support NaN
 
     Tc h_alpha_Tc = arg.get_alpha<Tc>();
@@ -589,9 +589,9 @@ void testing_gemm_ex(const Arguments& arg)
                                                 dC,
                                                 arg.c_type,
                                                 ldc,
-                                                dC,
-                                                arg.c_type,
-                                                ldc,
+                                                dD,
+                                                arg.d_type,
+                                                ldd,
                                                 arg.compute_type,
                                                 algo,
                                                 solution_index,
@@ -618,9 +618,9 @@ void testing_gemm_ex(const Arguments& arg)
                             dC,
                             arg.c_type,
                             ldc,
-                            dC,
-                            arg.c_type,
-                            ldc,
+                            dD,
+                            arg.d_type,
+                            ldd,
                             arg.compute_type,
                             algo,
                             solution_index,
diff --git a/clients/include/testing_gemm_strided_batched.hpp b/clients/include/testing_gemm_strided_batched.hpp
index eb3758ffc..a6ef92a63 100644
--- a/clients/include/testing_gemm_strided_batched.hpp
+++ b/clients/include/testing_gemm_strided_batched.hpp
@@ -22,18 +22,8 @@ void testing_gemm_strided_batched(const Arguments& arg)
     rocblas_int N = arg.N;
     rocblas_int K = arg.K;
 
-    T h_alpha;
-    T h_beta;
-    if(std::is_same<T, rocblas_half>{})
-    {
-        h_alpha = float_to_half(arg.alpha);
-        h_beta  = float_to_half(rocblas_isnan(arg.beta) ? 0 : arg.beta);
-    }
-    else
-    {
-        h_alpha = arg.alpha;
-        h_beta  = rocblas_isnan(arg.beta) ? 0 : arg.beta;
-    }
+    T h_alpha = arg.get_alpha<T>();
+    T h_beta  = arg.get_beta<T>();
 
     rocblas_int lda = arg.lda;
     rocblas_int ldb = arg.ldb;
@@ -132,7 +122,7 @@ void testing_gemm_strided_batched(const Arguments& arg)
 
     rocblas_init<T>(hA, A_row, A_col, lda, stride_a, batch_count);
     rocblas_init_alternating_sign<T>(hB, B_row, B_col, ldb, stride_b, batch_count);
-    if(rocblas_isnan(arg.beta))
+    if(rocblas_isnan(arg.beta) || rocblas_isnan(arg.betai))
         rocblas_init_nan<T>(hC_1, M, N, ldc, stride_c, batch_count);
     else
         rocblas_init<T>(hC_1, M, N, ldc, stride_c, batch_count);
@@ -315,11 +305,9 @@ void testing_gemm_strided_batched(const Arguments& arg)
         std::cout << std::endl;
 
         std::cout << arg.transA << "," << arg.transB << "," << M << "," << N << "," << K << ","
-                  << (std::is_same<T, rocblas_half>{} ? half_to_float(h_alpha) : h_alpha) << ","
-                  << lda << "," << stride_a << "," << ldb << "," << stride_b << ","
-                  << (std::is_same<T, rocblas_half>{} ? half_to_float(h_beta) : h_beta) << ","
-                  << ldc << "," << stride_c << "," << batch_count << "," << rocblas_gflops << ","
-                  << gpu_time_used;
+                  << arg.get_alpha<T>() << "," << lda << "," << stride_a << "," << ldb << ","
+                  << stride_b << "," << arg.get_beta<T>() << "," << ldc << "," << stride_c << ","
+                  << batch_count << "," << rocblas_gflops << "," << gpu_time_used;
 
         if(arg.norm_check)
             std::cout << "," << cblas_gflops << "," << cpu_time_used << "," << rocblas_error;
diff --git a/clients/include/testing_gemm_strided_batched_ex.hpp b/clients/include/testing_gemm_strided_batched_ex.hpp
index 1d4896b0c..dc7dbd52f 100644
--- a/clients/include/testing_gemm_strided_batched_ex.hpp
+++ b/clients/include/testing_gemm_strided_batched_ex.hpp
@@ -293,7 +293,7 @@ void testing_gemm_strided_batched_ex(const Arguments& arg)
     int32_t           solution_index(arg.solution_index);
     uint32_t          flags(arg.flags);
 
-    bool nantest    = rocblas_isnan(arg.beta);
+    bool nantest    = rocblas_isnan(arg.beta) || rocblas_isnan(arg.betai);
     Tc   h_alpha_Tc = arg.get_alpha<Tc>();
     Tc   h_beta_Tc  = arg.get_beta<Tc>();
 
@@ -759,10 +759,10 @@ void testing_gemm_strided_batched_ex(const Arguments& arg)
                                                                 arg.c_type,
                                                                 ldc,
                                                                 stride_c,
-                                                                dC,
-                                                                arg.c_type,
-                                                                ldc,
-                                                                stride_c,
+                                                                dD,
+                                                                arg.d_type,
+                                                                ldd,
+                                                                stride_d,
                                                                 batch_count,
                                                                 arg.compute_type,
                                                                 algo,
@@ -794,10 +794,10 @@ void testing_gemm_strided_batched_ex(const Arguments& arg)
                                             arg.c_type,
                                             ldc,
                                             stride_c,
-                                            dC,
-                                            arg.c_type,
-                                            ldc,
-                                            stride_c,
+                                            dD,
+                                            arg.d_type,
+                                            ldd,
+                                            stride_d,
                                             batch_count,
                                             arg.compute_type,
                                             algo,
diff --git a/clients/include/testing_gemv.hpp b/clients/include/testing_gemv.hpp
index 1e30abb9e..aa7fc6e00 100644
--- a/clients/include/testing_gemv.hpp
+++ b/clients/include/testing_gemv.hpp
@@ -254,15 +254,15 @@ void testing_gemv(const Arguments& arg)
         rocblas_bandwidth = (1.0 * M * N) * sizeof(T) / gpu_time_used / 1e3;
 
         // only norm_check return an norm error, unit check won't return anything
-        std::cout << "M,N,alpha,lda,incx,incy,rocblas-Gflops,rocblas-GB/s,";
+        std::cout << "M,N,alpha,lda,incx,beta,incy,rocblas-Gflops,rocblas-GB/s,";
         if(arg.norm_check)
         {
             std::cout << "CPU-Gflops,norm_error_host_ptr,norm_error_device_ptr";
         }
         std::cout << std::endl;
 
-        std::cout << M << "," << N << "," << h_alpha << "," << lda << "," << incx << "," << incy
-                  << "," << rocblas_gflops << "," << rocblas_bandwidth << ",";
+        std::cout << M << "," << N << "," << h_alpha << "," << lda << "," << incx << "," << h_beta
+                  << "," << incy << "," << rocblas_gflops << "," << rocblas_bandwidth << ",";
 
         if(arg.norm_check)
         {
diff --git a/clients/include/testing_gemv_batched.hpp b/clients/include/testing_gemv_batched.hpp
new file mode 100644
index 000000000..f392ebdc0
--- /dev/null
+++ b/clients/include/testing_gemv_batched.hpp
@@ -0,0 +1,386 @@
+/* ************************************************************************
+ * Copyright 2018 Advanced Micro Devices, Inc.
+ *
+ * ************************************************************************ */
+
+#include "cblas_interface.hpp"
+#include "flops.hpp"
+#include "norm.hpp"
+#include "rocblas.hpp"
+#include "rocblas_datatype2string.hpp"
+#include "rocblas_init.hpp"
+#include "rocblas_math.hpp"
+#include "rocblas_random.hpp"
+#include "rocblas_test.hpp"
+#include "rocblas_vector.hpp"
+#include "unit.hpp"
+#include "utility.hpp"
+
+template <typename T>
+void testing_gemv_batched_bad_arg(const Arguments& arg)
+{
+    const rocblas_int M           = 100;
+    const rocblas_int N           = 100;
+    const rocblas_int lda         = 100;
+    const rocblas_int incx        = 1;
+    const rocblas_int incy        = 1;
+    const T           alpha       = 1.0;
+    const T           beta        = 1.0;
+    const rocblas_int batch_count = 5;
+
+    const rocblas_operation transA = rocblas_operation_none;
+
+    rocblas_local_handle handle;
+
+    // allocate memory on device
+    device_vector<T*, 0, T> dA(batch_count);
+    device_vector<T*, 0, T> dx(batch_count);
+    device_vector<T*, 0, T> dy(batch_count);
+
+    if(!dA || !dx || !dy)
+    {
+        CHECK_HIP_ERROR(hipErrorOutOfMemory);
+        return;
+    }
+
+    EXPECT_ROCBLAS_STATUS(
+        rocblas_gemv_batched<T>(
+            handle, transA, M, N, &alpha, nullptr, lda, dx, incx, &beta, dy, incy, batch_count),
+        rocblas_status_invalid_pointer);
+
+    EXPECT_ROCBLAS_STATUS(
+        rocblas_gemv_batched<T>(
+            handle, transA, M, N, &alpha, dA, lda, nullptr, incx, &beta, dy, incy, batch_count),
+        rocblas_status_invalid_pointer);
+
+    EXPECT_ROCBLAS_STATUS(
+        rocblas_gemv_batched<T>(
+            handle, transA, M, N, &alpha, dA, lda, dx, incx, &beta, nullptr, incy, batch_count),
+        rocblas_status_invalid_pointer);
+
+    EXPECT_ROCBLAS_STATUS(
+        rocblas_gemv_batched<T>(
+            handle, transA, M, N, nullptr, dA, lda, dx, incx, &beta, dy, incy, batch_count),
+        rocblas_status_invalid_pointer);
+
+    EXPECT_ROCBLAS_STATUS(
+        rocblas_gemv_batched<T>(
+            handle, transA, M, N, &alpha, dA, lda, dx, incx, nullptr, dy, incy, batch_count),
+        rocblas_status_invalid_pointer);
+
+    EXPECT_ROCBLAS_STATUS(
+        rocblas_gemv_batched<T>(
+            nullptr, transA, M, N, &alpha, dA, lda, dx, incx, &beta, dy, incy, batch_count),
+        rocblas_status_invalid_handle);
+}
+
+template <typename T>
+void testing_gemv_batched(const Arguments& arg)
+{
+    rocblas_int       M           = arg.M;
+    rocblas_int       N           = arg.N;
+    rocblas_int       lda         = arg.lda;
+    rocblas_int       incx        = arg.incx;
+    rocblas_int       incy        = arg.incy;
+    T                 h_alpha     = arg.get_alpha<T>();
+    T                 h_beta      = arg.get_beta<T>();
+    rocblas_operation transA      = char2rocblas_operation(arg.transA);
+    rocblas_int       batch_count = arg.batch_count;
+
+    rocblas_local_handle handle;
+
+    // argument sanity check before allocating invalid memory
+    if(M < 0 || N < 0 || lda < M || lda < 1 || !incx || !incy || batch_count < 0)
+    {
+        device_vector<T*, 0, T> dAA1(1);
+        device_vector<T*, 0, T> dxA1(1);
+        device_vector<T*, 0, T> dy_1A1(1);
+
+        if(!dAA1 || !dxA1 || !dy_1A1)
+        {
+            CHECK_HIP_ERROR(hipErrorOutOfMemory);
+            return;
+        }
+
+        EXPECT_ROCBLAS_STATUS(rocblas_gemv_batched<T>(handle,
+                                                      transA,
+                                                      M,
+                                                      N,
+                                                      &h_alpha,
+                                                      dAA1,
+                                                      lda,
+                                                      dxA1,
+                                                      incx,
+                                                      &h_beta,
+                                                      dy_1A1,
+                                                      incy,
+                                                      batch_count),
+                              rocblas_status_invalid_size);
+
+        return;
+    }
+
+    //quick return
+    if(!M || !N || !batch_count)
+    {
+        device_vector<T*, 0, T> dAA1(1);
+        device_vector<T*, 0, T> dxA1(1);
+        device_vector<T*, 0, T> dy_1A1(1);
+
+        if(!dAA1 || !dxA1 || !dy_1A1)
+        {
+            CHECK_HIP_ERROR(hipErrorOutOfMemory);
+            return;
+        }
+
+        EXPECT_ROCBLAS_STATUS(rocblas_gemv_batched<T>(handle,
+                                                      transA,
+                                                      M,
+                                                      N,
+                                                      &h_alpha,
+                                                      dAA1,
+                                                      lda,
+                                                      dxA1,
+                                                      incx,
+                                                      &h_beta,
+                                                      dy_1A1,
+                                                      incy,
+                                                      batch_count),
+                              rocblas_status_success);
+
+        return;
+    }
+
+    //Device-arrays of pointers to device memory
+    device_vector<T*, 0, T> dAA(batch_count);
+    device_vector<T*, 0, T> dxA(batch_count);
+    device_vector<T*, 0, T> dy_1A(batch_count);
+    device_vector<T*, 0, T> dy_2A(batch_count);
+
+    if(!dAA || !dxA || !dy_1A || !dy_2A)
+    {
+        CHECK_HIP_ERROR(hipErrorOutOfMemory);
+        return;
+    }
+
+    size_t size_A = lda * static_cast<size_t>(N);
+    size_t size_x, dim_x, abs_incx;
+    size_t size_y, dim_y, abs_incy;
+
+    if(transA == rocblas_operation_none)
+    {
+        dim_x = N;
+        dim_y = M;
+    }
+    else
+    {
+        dim_x = M;
+        dim_y = N;
+    }
+
+    abs_incx = incx >= 0 ? incx : -incx;
+    abs_incy = incy >= 0 ? incy : -incy;
+
+    size_x = dim_x * abs_incx;
+    size_y = dim_y * abs_incy;
+
+    // Host-arrays of pointers to host memory
+    host_vector<T> hAA[batch_count];
+    host_vector<T> hxA[batch_count];
+    host_vector<T> hy_1A[batch_count];
+    host_vector<T> hy_2A[batch_count];
+    host_vector<T> hy_goldA[batch_count];
+    for(int b = 0; b < batch_count; ++b)
+    {
+        hAA[b]      = host_vector<T>(size_A);
+        hxA[b]      = host_vector<T>(size_x);
+        hy_1A[b]    = host_vector<T>(size_y);
+        hy_2A[b]    = host_vector<T>(size_y);
+        hy_goldA[b] = host_vector<T>(size_y);
+    }
+
+    // Host-arrays of pointers to device memory
+    // (intermediate arrays used for the transfers)
+    device_batch_vector<T> AA(batch_count, size_A);
+    device_batch_vector<T> xA(batch_count, size_x);
+    device_batch_vector<T> y_1A(batch_count, size_y);
+    device_batch_vector<T> y_2A(batch_count, size_y);
+
+    device_vector<T> d_alpha(1);
+    device_vector<T> d_beta(1);
+
+    int last = batch_count - 1;
+    if((!AA[last] && size_A) || (!xA[last] && size_x) || ((!y_1A[last] || !y_2A[last]) && size_y)
+       || !d_alpha || !d_beta)
+    {
+        CHECK_HIP_ERROR(hipErrorOutOfMemory);
+        return;
+    }
+
+    // Initial Data on CPU
+    rocblas_seedrand();
+    for(int b = 0; b < batch_count; ++b)
+    {
+        rocblas_init<T>(hAA[b], M, N, lda);
+        rocblas_init<T>(hxA[b], 1, dim_x, abs_incx);
+        if(rocblas_isnan(arg.beta))
+            rocblas_init_nan<T>(hy_1A[b], 1, dim_y, abs_incy);
+        else
+            rocblas_init<T>(hy_1A[b], 1, dim_y, abs_incy);
+        hy_goldA[b] = hy_1A[b];
+        hy_2A[b]    = hy_1A[b];
+    }
+
+    // copy data from CPU to device
+    // 1. Use intermediate arrays to access device memory from host
+    for(int b = 0; b < batch_count; ++b)
+    {
+        CHECK_HIP_ERROR(hipMemcpy(AA[b], hAA[b], sizeof(T) * size_A, hipMemcpyHostToDevice));
+        CHECK_HIP_ERROR(hipMemcpy(xA[b], hxA[b], sizeof(T) * size_x, hipMemcpyHostToDevice));
+        CHECK_HIP_ERROR(hipMemcpy(y_1A[b], hy_1A[b], sizeof(T) * size_y, hipMemcpyHostToDevice));
+    }
+    // 2. Copy intermediate arrays into device arrays
+    CHECK_HIP_ERROR(hipMemcpy(dAA, AA, sizeof(T*) * batch_count, hipMemcpyHostToDevice));
+    CHECK_HIP_ERROR(hipMemcpy(dxA, xA, sizeof(T*) * batch_count, hipMemcpyHostToDevice));
+    CHECK_HIP_ERROR(hipMemcpy(dy_1A, y_1A, sizeof(T*) * batch_count, hipMemcpyHostToDevice));
+
+    double gpu_time_used, cpu_time_used;
+    double rocblas_gflops, cblas_gflops, rocblas_bandwidth;
+    double rocblas_error_1;
+    double rocblas_error_2;
+
+    /* =====================================================================
+           ROCBLAS
+    =================================================================== */
+    if(arg.unit_check || arg.norm_check)
+    {
+        for(int b = 0; b < batch_count; ++b)
+        {
+            CHECK_HIP_ERROR(
+                hipMemcpy(y_2A[b], hy_2A[b], sizeof(T) * size_y, hipMemcpyHostToDevice));
+        }
+        CHECK_HIP_ERROR(hipMemcpy(dy_2A, y_2A, sizeof(T*) * batch_count, hipMemcpyHostToDevice));
+        CHECK_HIP_ERROR(hipMemcpy(d_alpha, &h_alpha, sizeof(T), hipMemcpyHostToDevice));
+        CHECK_HIP_ERROR(hipMemcpy(d_beta, &h_beta, sizeof(T), hipMemcpyHostToDevice));
+
+        CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_host));
+        CHECK_ROCBLAS_ERROR(rocblas_gemv_batched<T>(handle,
+                                                    transA,
+                                                    M,
+                                                    N,
+                                                    &h_alpha,
+                                                    dAA,
+                                                    lda,
+                                                    dxA,
+                                                    incx,
+                                                    &h_beta,
+                                                    dy_1A,
+                                                    incy,
+                                                    batch_count));
+
+        CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_device));
+        CHECK_ROCBLAS_ERROR(rocblas_gemv_batched<T>(
+            handle, transA, M, N, d_alpha, dAA, lda, dxA, incx, d_beta, dy_2A, incy, batch_count));
+
+        // copy output from device to CPU
+        // Use intermediate arrays to access device memory from host
+        for(int b = 0; b < batch_count; ++b)
+        {
+            CHECK_HIP_ERROR(
+                hipMemcpy(hy_1A[b], y_1A[b], sizeof(T) * size_y, hipMemcpyDeviceToHost));
+            CHECK_HIP_ERROR(
+                hipMemcpy(hy_2A[b], y_2A[b], sizeof(T) * size_y, hipMemcpyDeviceToHost));
+        }
+
+        // CPU BLAS
+        cpu_time_used = get_time_us();
+        for(int b = 0; b < batch_count; ++b)
+        {
+            cblas_gemv<T>(
+                transA, M, N, h_alpha, hAA[b], lda, hxA[b], incx, h_beta, hy_goldA[b], incy);
+        }
+        cpu_time_used = get_time_us() - cpu_time_used;
+        cblas_gflops  = batch_count * gemv_gflop_count<T>(M, N) / cpu_time_used * 1e6;
+
+        if(arg.unit_check)
+        {
+            unit_check_general<T>(1, dim_y, batch_count, abs_incy, hy_goldA, hy_1A);
+            unit_check_general<T>(1, dim_y, batch_count, abs_incy, hy_goldA, hy_2A);
+        }
+
+        if(arg.norm_check)
+        {
+            rocblas_error_1
+                = norm_check_general<T>('F', 1, dim_y, abs_incy, batch_count, hy_goldA, hy_1A);
+            rocblas_error_2
+                = norm_check_general<T>('F', 1, dim_y, abs_incy, batch_count, hy_goldA, hy_2A);
+        }
+    }
+
+    if(arg.timing)
+    {
+        int number_cold_calls = 2;
+        int number_hot_calls  = 100;
+        CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_host));
+
+        for(int iter = 0; iter < number_cold_calls; iter++)
+        {
+            rocblas_gemv_batched<T>(handle,
+                                    transA,
+                                    M,
+                                    N,
+                                    &h_alpha,
+                                    dAA,
+                                    lda,
+                                    dxA,
+                                    incx,
+                                    &h_beta,
+                                    dy_1A,
+                                    incy,
+                                    batch_count);
+        }
+
+        gpu_time_used = get_time_us(); // in microseconds
+
+        for(int iter = 0; iter < number_hot_calls; iter++)
+        {
+            rocblas_gemv_batched<T>(handle,
+                                    transA,
+                                    M,
+                                    N,
+                                    &h_alpha,
+                                    dAA,
+                                    lda,
+                                    dxA,
+                                    incx,
+                                    &h_beta,
+                                    dy_1A,
+                                    incy,
+                                    batch_count);
+        }
+
+        gpu_time_used     = (get_time_us() - gpu_time_used) / number_hot_calls;
+        rocblas_gflops    = batch_count * gemv_gflop_count<T>(M, N) / gpu_time_used * 1e6;
+        rocblas_bandwidth = batch_count * (1.0 * M * N) * sizeof(T) / gpu_time_used / 1e3;
+
+        // only norm_check return an norm error, unit check won't return anything
+        std::cout << "M,N,alpha,lda,incx,beta,incy,batch_count,rocblas-Gflops,rocblas-GB/s,";
+        if(arg.norm_check)
+        {
+            std::cout << "CPU-Gflops,norm_error_host_ptr,norm_error_device_ptr";
+        }
+        std::cout << std::endl;
+
+        std::cout << M << "," << N << "," << h_alpha << "," << lda << "," << incx << "," << h_beta
+                  << "," << incy << "," << batch_count << "," << rocblas_gflops << ","
+                  << rocblas_bandwidth << ",";
+
+        if(arg.norm_check)
+        {
+            std::cout << cblas_gflops << ',';
+            std::cout << rocblas_error_1 << ',' << rocblas_error_2;
+        }
+
+        std::cout << std::endl;
+    }
+}
diff --git a/clients/include/testing_gemv_strided_batched.hpp b/clients/include/testing_gemv_strided_batched.hpp
new file mode 100644
index 000000000..381888908
--- /dev/null
+++ b/clients/include/testing_gemv_strided_batched.hpp
@@ -0,0 +1,472 @@
+/* ************************************************************************
+ * Copyright 2018 Advanced Micro Devices, Inc.
+ *
+ * ************************************************************************ */
+
+#include "cblas_interface.hpp"
+#include "flops.hpp"
+#include "norm.hpp"
+#include "rocblas.hpp"
+#include "rocblas_datatype2string.hpp"
+#include "rocblas_init.hpp"
+#include "rocblas_math.hpp"
+#include "rocblas_random.hpp"
+#include "rocblas_test.hpp"
+#include "rocblas_vector.hpp"
+#include "unit.hpp"
+#include "utility.hpp"
+
+template <typename T>
+void testing_gemv_strided_batched_bad_arg(const Arguments& arg)
+{
+    const rocblas_int M           = 100;
+    const rocblas_int N           = 100;
+    const rocblas_int lda         = 100;
+    const rocblas_int incx        = 1;
+    const rocblas_int incy        = 1;
+    const T           alpha       = 1.0;
+    const T           beta        = 1.0;
+    const rocblas_int stride_a    = 10000;
+    const rocblas_int stride_x    = 100;
+    const rocblas_int stride_y    = 100;
+    const rocblas_int batch_count = 5;
+
+    const rocblas_operation transA = rocblas_operation_none;
+
+    rocblas_local_handle handle;
+
+    size_t size_A = lda * static_cast<size_t>(N);
+    size_t size_x = N * static_cast<size_t>(incx);
+    size_t size_y = M * static_cast<size_t>(incy);
+
+    // allocate memory on device
+    device_vector<T> dA(size_A);
+    device_vector<T> dx(size_x);
+    device_vector<T> dy(size_y);
+    if(!dA || !dx || !dy)
+    {
+        CHECK_HIP_ERROR(hipErrorOutOfMemory);
+        return;
+    }
+
+    EXPECT_ROCBLAS_STATUS(rocblas_gemv_strided_batched<T>(handle,
+                                                          transA,
+                                                          M,
+                                                          N,
+                                                          &alpha,
+                                                          nullptr,
+                                                          lda,
+                                                          stride_a,
+                                                          dx,
+                                                          incx,
+                                                          stride_x,
+                                                          &beta,
+                                                          dy,
+                                                          incy,
+                                                          stride_y,
+                                                          batch_count),
+                          rocblas_status_invalid_pointer);
+
+    EXPECT_ROCBLAS_STATUS(rocblas_gemv_strided_batched<T>(handle,
+                                                          transA,
+                                                          M,
+                                                          N,
+                                                          &alpha,
+                                                          dA,
+                                                          lda,
+                                                          stride_a,
+                                                          nullptr,
+                                                          incx,
+                                                          stride_x,
+                                                          &beta,
+                                                          dy,
+                                                          incy,
+                                                          stride_y,
+                                                          batch_count),
+                          rocblas_status_invalid_pointer);
+
+    EXPECT_ROCBLAS_STATUS(rocblas_gemv_strided_batched<T>(handle,
+                                                          transA,
+                                                          M,
+                                                          N,
+                                                          &alpha,
+                                                          dA,
+                                                          lda,
+                                                          stride_a,
+                                                          dx,
+                                                          incx,
+                                                          stride_x,
+                                                          &beta,
+                                                          nullptr,
+                                                          incy,
+                                                          stride_y,
+                                                          batch_count),
+                          rocblas_status_invalid_pointer);
+
+    EXPECT_ROCBLAS_STATUS(rocblas_gemv_strided_batched<T>(handle,
+                                                          transA,
+                                                          M,
+                                                          N,
+                                                          nullptr,
+                                                          dA,
+                                                          lda,
+                                                          stride_a,
+                                                          dx,
+                                                          incx,
+                                                          stride_x,
+                                                          &beta,
+                                                          dy,
+                                                          incy,
+                                                          stride_y,
+                                                          batch_count),
+                          rocblas_status_invalid_pointer);
+
+    EXPECT_ROCBLAS_STATUS(rocblas_gemv_strided_batched<T>(handle,
+                                                          transA,
+                                                          M,
+                                                          N,
+                                                          &alpha,
+                                                          dA,
+                                                          lda,
+                                                          stride_a,
+                                                          dx,
+                                                          incx,
+                                                          stride_x,
+                                                          nullptr,
+                                                          dy,
+                                                          incy,
+                                                          stride_y,
+                                                          batch_count),
+                          rocblas_status_invalid_pointer);
+
+    EXPECT_ROCBLAS_STATUS(rocblas_gemv_strided_batched<T>(nullptr,
+                                                          transA,
+                                                          M,
+                                                          N,
+                                                          &alpha,
+                                                          dA,
+                                                          lda,
+                                                          stride_a,
+                                                          dx,
+                                                          incx,
+                                                          stride_x,
+                                                          &beta,
+                                                          dy,
+                                                          incy,
+                                                          stride_y,
+                                                          batch_count),
+                          rocblas_status_invalid_handle);
+}
+
+template <typename T>
+void testing_gemv_strided_batched(const Arguments& arg)
+{
+    rocblas_int       M           = arg.M;
+    rocblas_int       N           = arg.N;
+    rocblas_int       lda         = arg.lda;
+    rocblas_int       incx        = arg.incx;
+    rocblas_int       incy        = arg.incy;
+    T                 h_alpha     = arg.get_alpha<T>();
+    T                 h_beta      = arg.get_beta<T>();
+    rocblas_operation transA      = char2rocblas_operation(arg.transA);
+    rocblas_int       stride_a    = arg.stride_a;
+    rocblas_int       stride_x    = arg.stride_x;
+    rocblas_int       stride_y    = arg.stride_y;
+    rocblas_int       batch_count = arg.batch_count;
+
+    rocblas_local_handle handle;
+    size_t               size_A = lda * static_cast<size_t>(N);
+    size_t               size_x, dim_x, abs_incx;
+    size_t               size_y, dim_y, abs_incy;
+
+    if(transA == rocblas_operation_none)
+    {
+        dim_x = N;
+        dim_y = M;
+    }
+    else
+    {
+        dim_x = M;
+        dim_y = N;
+    }
+
+    abs_incx = incx >= 0 ? incx : -incx;
+    abs_incy = incy >= 0 ? incy : -incy;
+
+    size_x = dim_x * abs_incx;
+    size_y = dim_y * abs_incy;
+
+    // argument sanity check before allocating invalid memory
+    if(M < 0 || N < 0 || lda < M || lda < 1 || !incx || !incy || stride_a < size_A
+       || stride_x < size_x || stride_y < size_y || batch_count < 0)
+    {
+        static const size_t safe_size = 100; // arbitrarily set to 100
+        device_vector<T>    dA1(safe_size);
+        device_vector<T>    dx1(safe_size);
+        device_vector<T>    dy1(safe_size);
+        if(!dA1 || !dx1 || !dy1)
+        {
+            CHECK_HIP_ERROR(hipErrorOutOfMemory);
+            return;
+        }
+
+        EXPECT_ROCBLAS_STATUS(rocblas_gemv_strided_batched<T>(handle,
+                                                              transA,
+                                                              M,
+                                                              N,
+                                                              &h_alpha,
+                                                              dA1,
+                                                              lda,
+                                                              stride_a,
+                                                              dx1,
+                                                              incx,
+                                                              stride_x,
+                                                              &h_beta,
+                                                              dy1,
+                                                              incy,
+                                                              stride_y,
+                                                              batch_count),
+                              rocblas_status_invalid_size);
+
+        return;
+    }
+
+    //quick return
+    if(!M || !N || !batch_count)
+    {
+        static const size_t safe_size = 100; // arbitrarily set to 100
+        device_vector<T>    dA1(safe_size);
+        device_vector<T>    dx1(safe_size);
+        device_vector<T>    dy1(safe_size);
+        if(!dA1 || !dx1 || !dy1)
+        {
+            CHECK_HIP_ERROR(hipErrorOutOfMemory);
+            return;
+        }
+
+        EXPECT_ROCBLAS_STATUS(rocblas_gemv_strided_batched<T>(handle,
+                                                              transA,
+                                                              M,
+                                                              N,
+                                                              &h_alpha,
+                                                              dA1,
+                                                              lda,
+                                                              stride_a,
+                                                              dx1,
+                                                              incx,
+                                                              stride_x,
+                                                              &h_beta,
+                                                              dy1,
+                                                              incy,
+                                                              stride_y,
+                                                              batch_count),
+                              rocblas_status_success);
+
+        return;
+    }
+
+    size_A = size_A + static_cast<size_t>(stride_a) * static_cast<size_t>(batch_count - 1);
+    size_x = size_x + static_cast<size_t>(stride_x) * static_cast<size_t>(batch_count - 1);
+    size_y = size_y + static_cast<size_t>(stride_y) * static_cast<size_t>(batch_count - 1);
+
+    // Naming: dK is in GPU (device) memory. hK is in CPU (host) memory
+    host_vector<T> hA(size_A);
+    host_vector<T> hx(size_x);
+    host_vector<T> hy_1(size_y);
+    host_vector<T> hy_2(size_y);
+    host_vector<T> hy_gold(size_y);
+
+    device_vector<T> dA(size_A);
+    device_vector<T> dx(size_x);
+    device_vector<T> dy_1(size_y);
+    device_vector<T> dy_2(size_y);
+    device_vector<T> d_alpha(1);
+    device_vector<T> d_beta(1);
+    if((!dA && size_A) || (!dx && size_x) || ((!dy_1 || !dy_2) && size_y) || !d_alpha || !d_beta)
+    {
+        CHECK_HIP_ERROR(hipErrorOutOfMemory);
+        return;
+    }
+
+    // Initial Data on CPU
+    rocblas_seedrand();
+    rocblas_init<T>(hA, M, N, lda, stride_a, batch_count);
+    rocblas_init<T>(hx, 1, dim_x, abs_incx, stride_x, batch_count);
+
+    if(rocblas_isnan(arg.beta))
+        rocblas_init_nan<T>(hy_1, 1, dim_y, abs_incy, stride_y, batch_count);
+    else
+        rocblas_init<T>(hy_1, 1, dim_y, abs_incy, stride_y, batch_count);
+
+    // copy vector is easy in STL; hy_gold = hy_1: save a copy in hy_gold which will be output of
+    // CPU BLAS
+    hy_gold = hy_1;
+    hy_2    = hy_1;
+
+    // copy data from CPU to device
+    CHECK_HIP_ERROR(hipMemcpy(dA, hA, sizeof(T) * size_A, hipMemcpyHostToDevice));
+    CHECK_HIP_ERROR(hipMemcpy(dx, hx, sizeof(T) * size_x, hipMemcpyHostToDevice));
+    CHECK_HIP_ERROR(hipMemcpy(dy_1, hy_1, sizeof(T) * size_y, hipMemcpyHostToDevice));
+
+    double gpu_time_used, cpu_time_used;
+    double rocblas_gflops, cblas_gflops, rocblas_bandwidth;
+    double rocblas_error_1;
+    double rocblas_error_2;
+
+    /* =====================================================================
+           ROCBLAS
+    =================================================================== */
+    if(arg.unit_check || arg.norm_check)
+    {
+        CHECK_HIP_ERROR(hipMemcpy(dy_2, hy_2, sizeof(T) * size_y, hipMemcpyHostToDevice));
+        CHECK_HIP_ERROR(hipMemcpy(d_alpha, &h_alpha, sizeof(T), hipMemcpyHostToDevice));
+        CHECK_HIP_ERROR(hipMemcpy(d_beta, &h_beta, sizeof(T), hipMemcpyHostToDevice));
+
+        CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_host));
+        CHECK_ROCBLAS_ERROR(rocblas_gemv_strided_batched<T>(handle,
+                                                            transA,
+                                                            M,
+                                                            N,
+                                                            &h_alpha,
+                                                            dA,
+                                                            lda,
+                                                            stride_a,
+                                                            dx,
+                                                            incx,
+                                                            stride_x,
+                                                            &h_beta,
+                                                            dy_1,
+                                                            incy,
+                                                            stride_y,
+                                                            batch_count));
+
+        CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_device));
+        CHECK_ROCBLAS_ERROR(rocblas_gemv_strided_batched<T>(handle,
+                                                            transA,
+                                                            M,
+                                                            N,
+                                                            d_alpha,
+                                                            dA,
+                                                            lda,
+                                                            stride_a,
+                                                            dx,
+                                                            incx,
+                                                            stride_x,
+                                                            d_beta,
+                                                            dy_2,
+                                                            incy,
+                                                            stride_y,
+                                                            batch_count));
+
+        // copy output from device to CPU
+        CHECK_HIP_ERROR(hipMemcpy(hy_1, dy_1, sizeof(T) * size_y, hipMemcpyDeviceToHost));
+        CHECK_HIP_ERROR(hipMemcpy(hy_2, dy_2, sizeof(T) * size_y, hipMemcpyDeviceToHost));
+
+        // CPU BLAS
+        cpu_time_used = get_time_us();
+        for(int b = 0; b < batch_count; ++b)
+        {
+            cblas_gemv<T>(transA,
+                          M,
+                          N,
+                          h_alpha,
+                          hA + b * stride_a,
+                          lda,
+                          hx + b * stride_x,
+                          incx,
+                          h_beta,
+                          hy_gold + b * stride_y,
+                          incy);
+        }
+        cpu_time_used = get_time_us() - cpu_time_used;
+        cblas_gflops  = batch_count * gemv_gflop_count<T>(M, N) / cpu_time_used * 1e6;
+
+        if(arg.unit_check)
+        {
+            unit_check_general<T>(1, dim_y, batch_count, abs_incy, stride_y, hy_gold, hy_1);
+            unit_check_general<T>(1, dim_y, batch_count, abs_incy, stride_y, hy_gold, hy_2);
+        }
+
+        if(arg.norm_check)
+        {
+            rocblas_error_1 = norm_check_general<T>(
+                'F', 1, dim_y, abs_incy, stride_y, batch_count, hy_gold, hy_1);
+            rocblas_error_2 = norm_check_general<T>(
+                'F', 1, dim_y, abs_incy, stride_y, batch_count, hy_gold, hy_2);
+        }
+    }
+
+    if(arg.timing)
+    {
+        int number_cold_calls = 2;
+        int number_hot_calls  = 100;
+        CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_host));
+
+        for(int iter = 0; iter < number_cold_calls; iter++)
+        {
+            rocblas_gemv_strided_batched<T>(handle,
+                                            transA,
+                                            M,
+                                            N,
+                                            &h_alpha,
+                                            dA,
+                                            lda,
+                                            stride_a,
+                                            dx,
+                                            incx,
+                                            stride_x,
+                                            &h_beta,
+                                            dy_1,
+                                            incy,
+                                            stride_y,
+                                            batch_count);
+        }
+
+        gpu_time_used = get_time_us(); // in microseconds
+
+        for(int iter = 0; iter < number_hot_calls; iter++)
+        {
+            rocblas_gemv_strided_batched<T>(handle,
+                                            transA,
+                                            M,
+                                            N,
+                                            &h_alpha,
+                                            dA,
+                                            lda,
+                                            stride_a,
+                                            dx,
+                                            incx,
+                                            stride_x,
+                                            &h_beta,
+                                            dy_1,
+                                            incy,
+                                            stride_y,
+                                            batch_count);
+        }
+
+        gpu_time_used     = (get_time_us() - gpu_time_used) / number_hot_calls;
+        rocblas_gflops    = batch_count * gemv_gflop_count<T>(M, N) / gpu_time_used * 1e6;
+        rocblas_bandwidth = batch_count * (1.0 * M * N) * sizeof(T) / gpu_time_used / 1e3;
+
+        // only norm_check return an norm error, unit check won't return anything
+        std::cout << "M,N,alpha,lda,stride_a,incx,stride_x,beta,incy,stride_y,batch_count,rocblas-"
+                     "Gflops,rocblas-GB/s,";
+        if(arg.norm_check)
+        {
+            std::cout << "CPU-Gflops,norm_error_host_ptr,norm_error_device_ptr";
+        }
+        std::cout << std::endl;
+
+        std::cout << M << "," << N << "," << h_alpha << "," << lda << "," << stride_a << "," << incx
+                  << "," << stride_x << "," << h_beta << "," << incy << "," << stride_y << ","
+                  << batch_count << "," << rocblas_gflops << "," << rocblas_bandwidth << ",";
+
+        if(arg.norm_check)
+        {
+            std::cout << cblas_gflops << ',';
+            std::cout << rocblas_error_1 << ',' << rocblas_error_2;
+        }
+
+        std::cout << std::endl;
+    }
+}
diff --git a/clients/include/testing_ger_batched.hpp b/clients/include/testing_ger_batched.hpp
new file mode 100644
index 000000000..0a9698224
--- /dev/null
+++ b/clients/include/testing_ger_batched.hpp
@@ -0,0 +1,277 @@
+/* ************************************************************************
+ * Copyright 2018-2019 Advanced Micro Devices, Inc.
+ * ************************************************************************ */
+
+#include "cblas_interface.hpp"
+#include "flops.hpp"
+#include "norm.hpp"
+#include "rocblas.hpp"
+#include "rocblas_init.hpp"
+#include "rocblas_math.hpp"
+#include "rocblas_random.hpp"
+#include "rocblas_test.hpp"
+#include "rocblas_vector.hpp"
+#include "unit.hpp"
+#include "utility.hpp"
+
+template <typename T>
+void testing_ger_batched_bad_arg(const Arguments& arg)
+{
+    rocblas_int       M           = 100;
+    rocblas_int       N           = 100;
+    rocblas_int       incx        = 1;
+    rocblas_int       incy        = 1;
+    rocblas_int       lda         = 100;
+    T                 alpha       = 0.6;
+    const rocblas_int batch_count = 5;
+
+    rocblas_local_handle handle;
+
+    // allocate memory on device
+    device_vector<T*, 0, T> dA(batch_count);
+    device_vector<T*, 0, T> dx(batch_count);
+    device_vector<T*, 0, T> dy(batch_count);
+    if(!dA || !dx || !dy)
+    {
+        CHECK_HIP_ERROR(hipErrorOutOfMemory);
+        return;
+    }
+
+    EXPECT_ROCBLAS_STATUS(
+        rocblas_ger_batched<T>(handle, M, N, &alpha, nullptr, incx, dy, incy, dA, lda, batch_count),
+        rocblas_status_invalid_pointer);
+    EXPECT_ROCBLAS_STATUS(
+        rocblas_ger_batched<T>(handle, M, N, &alpha, dx, incx, nullptr, incy, dA, lda, batch_count),
+        rocblas_status_invalid_pointer);
+    EXPECT_ROCBLAS_STATUS(
+        rocblas_ger_batched<T>(handle, M, N, &alpha, dx, incx, dy, incy, nullptr, lda, batch_count),
+        rocblas_status_invalid_pointer);
+    EXPECT_ROCBLAS_STATUS(
+        rocblas_ger_batched<T>(nullptr, M, N, &alpha, dx, incx, dy, incy, dA, lda, batch_count),
+        rocblas_status_invalid_handle);
+}
+
+template <typename T>
+void testing_ger_batched(const Arguments& arg)
+{
+    rocblas_int M           = arg.M;
+    rocblas_int N           = arg.N;
+    rocblas_int incx        = arg.incx;
+    rocblas_int incy        = arg.incy;
+    rocblas_int lda         = arg.lda;
+    T           h_alpha     = (T)arg.alpha;
+    rocblas_int batch_count = arg.batch_count;
+
+    rocblas_local_handle handle;
+
+    // argument check before allocating invalid memory
+    if(M < 0 || N < 0 || lda < M || lda < 1 || !incx || !incy || batch_count < 0)
+    {
+        device_vector<T*, 0, T> dA(1);
+        device_vector<T*, 0, T> dx(1);
+        device_vector<T*, 0, T> dy(1);
+        if(!dA || !dx || !dy)
+        {
+            CHECK_HIP_ERROR(hipErrorOutOfMemory);
+            return;
+        }
+
+        EXPECT_ROCBLAS_STATUS(rocblas_ger_batched<T>(
+                                  handle, M, N, &h_alpha, dx, incx, dy, incy, dA, lda, batch_count),
+                              rocblas_status_invalid_size);
+
+        return;
+    }
+
+    //quick return
+    if(!M || !N || !batch_count)
+    {
+        device_vector<T*, 0, T> dA(1);
+        device_vector<T*, 0, T> dx(1);
+        device_vector<T*, 0, T> dy(1);
+        if(!dA || !dx || !dy)
+        {
+            CHECK_HIP_ERROR(hipErrorOutOfMemory);
+            return;
+        }
+
+        EXPECT_ROCBLAS_STATUS(rocblas_ger_batched<T>(
+                                  handle, M, N, &h_alpha, dx, incx, dy, incy, dA, lda, batch_count),
+                              rocblas_status_success);
+
+        return;
+    }
+
+    size_t abs_incx = incx >= 0 ? incx : -incx;
+    size_t abs_incy = incy >= 0 ? incy : -incy;
+    size_t size_A   = lda * N;
+    size_t size_x   = M * abs_incx;
+    size_t size_y   = N * abs_incy;
+
+    //Device-arrays of pointers to device memory
+    device_vector<T*, 0, T> dy(batch_count);
+    device_vector<T*, 0, T> dx(batch_count);
+    device_vector<T*, 0, T> dA_1(batch_count);
+    device_vector<T*, 0, T> dA_2(batch_count);
+    device_vector<T>        d_alpha(1);
+    if(!dA_1 || !dA_2 || !dx || !dy || !d_alpha)
+    {
+        CHECK_HIP_ERROR(hipErrorOutOfMemory);
+        return;
+    }
+
+    // Naming: dK is in GPU (device) memory. hK is in CPU (host) memory
+    // Host-arrays of pointers to host memory
+    host_vector<T> hy[batch_count];
+    host_vector<T> hx[batch_count];
+    host_vector<T> hA_1[batch_count];
+    host_vector<T> hA_2[batch_count];
+    host_vector<T> hA_gold[batch_count];
+
+    for(int b = 0; b < batch_count; ++b)
+    {
+        hy[b]      = host_vector<T>(size_y);
+        hx[b]      = host_vector<T>(size_x);
+        hA_1[b]    = host_vector<T>(size_A);
+        hA_2[b]    = host_vector<T>(size_A);
+        hA_gold[b] = host_vector<T>(size_A);
+    }
+
+    // Host-arrays of pointers to device memory
+    // (intermediate arrays used for the transfers)
+    device_batch_vector<T> A_1(batch_count, size_A);
+    device_batch_vector<T> A_2(batch_count, size_A);
+    device_batch_vector<T> y(batch_count, size_y);
+    device_batch_vector<T> x(batch_count, size_x);
+
+    int last = batch_count - 1;
+    if((!y[last] && size_y) || (!x[last] && size_x) || ((!A_1[last] || !A_2[last]) && size_A)
+       || !d_alpha)
+    {
+        CHECK_HIP_ERROR(hipErrorOutOfMemory);
+        return;
+    }
+
+    double gpu_time_used, cpu_time_used;
+    double rocblas_gflops, cblas_gflops, rocblas_bandwidth;
+    double rocblas_error_1;
+    double rocblas_error_2;
+
+    // Initial Data on CPU
+    rocblas_seedrand();
+
+    for(int b = 0; b < batch_count; ++b)
+    {
+        if(lda >= M)
+        {
+            rocblas_init<T>(hA_1[b], M, N, lda);
+        }
+        rocblas_init<T>(hx[b], 1, M, abs_incx);
+        rocblas_init<T>(hy[b], 1, N, abs_incy);
+
+        // copy matrix is easy in STL; hA_gold = hA_1: save a copy in hA_gold which will be output of
+        // CPU BLAS
+        hA_gold[b] = hA_1[b];
+        hA_2[b]    = hA_1[b];
+    }
+
+    // copy data from CPU to device
+    // 1. Use intermediate arrays to access device memory from host
+    for(int b = 0; b < batch_count; ++b)
+    {
+        CHECK_HIP_ERROR(hipMemcpy(A_1[b], hA_1[b], sizeof(T) * size_A, hipMemcpyHostToDevice));
+        CHECK_HIP_ERROR(hipMemcpy(x[b], hx[b], sizeof(T) * size_x, hipMemcpyHostToDevice));
+        CHECK_HIP_ERROR(hipMemcpy(y[b], hy[b], sizeof(T) * size_y, hipMemcpyHostToDevice));
+    }
+
+    // 2. Copy intermediate arrays into device arrays
+    CHECK_HIP_ERROR(hipMemcpy(dA_1, A_1, sizeof(T*) * batch_count, hipMemcpyHostToDevice));
+    CHECK_HIP_ERROR(hipMemcpy(dx, x, sizeof(T*) * batch_count, hipMemcpyHostToDevice));
+    CHECK_HIP_ERROR(hipMemcpy(dy, y, sizeof(T*) * batch_count, hipMemcpyHostToDevice));
+
+    if(arg.unit_check || arg.norm_check)
+    {
+        // copy data from CPU to device
+        for(int b = 0; b < batch_count; ++b)
+        {
+            CHECK_HIP_ERROR(hipMemcpy(A_2[b], hA_2[b], sizeof(T) * size_A, hipMemcpyHostToDevice));
+        }
+        CHECK_HIP_ERROR(hipMemcpy(dA_2, A_2, sizeof(T*) * batch_count, hipMemcpyHostToDevice));
+        CHECK_HIP_ERROR(hipMemcpy(d_alpha, &h_alpha, sizeof(T), hipMemcpyHostToDevice));
+
+        CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_host));
+        CHECK_ROCBLAS_ERROR(rocblas_ger_batched<T>(
+            handle, M, N, &h_alpha, dx, incx, dy, incy, dA_1, lda, batch_count));
+        CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_device));
+        CHECK_ROCBLAS_ERROR(rocblas_ger_batched<T>(
+            handle, M, N, d_alpha, dx, incx, dy, incy, dA_2, lda, batch_count));
+        // copy output from device to CPU
+        for(int b = 0; b < batch_count; ++b)
+        {
+            hipMemcpy(hA_1[b], A_1[b], sizeof(T) * size_A, hipMemcpyDeviceToHost);
+            hipMemcpy(hA_2[b], A_2[b], sizeof(T) * size_A, hipMemcpyDeviceToHost);
+        }
+
+        // CPU BLAS
+        cpu_time_used = get_time_us();
+        for(int b = 0; b < batch_count; ++b)
+        {
+            cblas_ger<T>(M, N, h_alpha, hx[b], incx, hy[b], incy, hA_gold[b], lda);
+        }
+        cpu_time_used = get_time_us() - cpu_time_used;
+        cblas_gflops  = batch_count * ger_gflop_count<T>(M, N) / cpu_time_used * 1e6;
+
+        if(arg.unit_check)
+        {
+            unit_check_general<T>(M, N, batch_count, lda, hA_gold, hA_1);
+            unit_check_general<T>(M, N, batch_count, lda, hA_gold, hA_2);
+        }
+
+        if(arg.norm_check)
+        {
+            rocblas_error_1 = norm_check_general<T>('F', M, N, lda, batch_count, hA_gold, hA_1);
+            rocblas_error_2 = norm_check_general<T>('F', M, N, lda, batch_count, hA_gold, hA_2);
+        }
+    }
+
+    if(arg.timing)
+    {
+        int number_cold_calls = 2;
+        int number_hot_calls  = 100;
+        CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_host));
+
+        for(int iter = 0; iter < number_cold_calls; iter++)
+        {
+            rocblas_ger_batched<T>(
+                handle, M, N, &h_alpha, dx, incx, dy, incy, dA_1, lda, batch_count);
+        }
+
+        gpu_time_used = get_time_us(); // in microseconds
+
+        for(int iter = 0; iter < number_hot_calls; iter++)
+        {
+            rocblas_ger_batched<T>(
+                handle, M, N, &h_alpha, dx, incx, dy, incy, dA_1, lda, batch_count);
+        }
+
+        gpu_time_used     = (get_time_us() - gpu_time_used) / number_hot_calls;
+        rocblas_gflops    = batch_count * ger_gflop_count<T>(M, N) / gpu_time_used * 1e6;
+        rocblas_bandwidth = batch_count * (2.0 * M * N) * sizeof(T) / gpu_time_used / 1e3;
+
+        // only norm_check return an norm error, unit check won't return anything
+        std::cout << "M,N,alpha,incx,incy,lda,batch_count,rocblas-Gflops,rocblas-GB/s";
+
+        if(arg.norm_check)
+            std::cout << ",CPU-Gflops,norm_error_host_ptr,norm_error_dev_ptr";
+
+        std::cout << std::endl;
+
+        std::cout << M << "," << N << "," << h_alpha << "," << incx << "," << incy << "," << lda
+                  << "," << batch_count << "," << rocblas_gflops << "," << rocblas_bandwidth;
+
+        if(arg.norm_check)
+            std::cout << "," << cblas_gflops << "," << rocblas_error_1 << "," << rocblas_error_2;
+
+        std::cout << std::endl;
+    }
+}
diff --git a/clients/include/testing_ger_strided_batched.hpp b/clients/include/testing_ger_strided_batched.hpp
new file mode 100644
index 000000000..235dda315
--- /dev/null
+++ b/clients/include/testing_ger_strided_batched.hpp
@@ -0,0 +1,385 @@
+/* ************************************************************************
+ * Copyright 2018-2019 Advanced Micro Devices, Inc.
+ * ************************************************************************ */
+
+#include "cblas_interface.hpp"
+#include "flops.hpp"
+#include "norm.hpp"
+#include "rocblas.hpp"
+#include "rocblas_init.hpp"
+#include "rocblas_math.hpp"
+#include "rocblas_random.hpp"
+#include "rocblas_test.hpp"
+#include "rocblas_vector.hpp"
+#include "unit.hpp"
+#include "utility.hpp"
+
+template <typename T>
+void testing_ger_strided_batched_bad_arg(const Arguments& arg)
+{
+    rocblas_int M           = 100;
+    rocblas_int N           = 100;
+    rocblas_int incx        = 1;
+    rocblas_int incy        = 1;
+    rocblas_int lda         = 100;
+    T           alpha       = 0.6;
+    rocblas_int abs_incx    = incx >= 0 ? incx : -incx;
+    rocblas_int abs_incy    = incy >= 0 ? incy : -incy;
+    rocblas_int stride_a    = lda * N;
+    rocblas_int stride_x    = abs_incx * M;
+    rocblas_int stride_y    = abs_incy * N;
+    rocblas_int batch_count = 5;
+
+    rocblas_local_handle handle;
+
+    size_t size_A = stride_a * batch_count;
+    size_t size_x = stride_x * batch_count;
+    size_t size_y = stride_y * batch_count;
+
+    // allocate memory on device
+    device_vector<T> dA_1(size_A);
+    device_vector<T> dx(size_x);
+    device_vector<T> dy(size_y);
+    if(!dA_1 || !dx || !dy)
+    {
+        CHECK_HIP_ERROR(hipErrorOutOfMemory);
+        return;
+    }
+
+    EXPECT_ROCBLAS_STATUS(rocblas_ger_strided_batched<T>(handle,
+                                                         M,
+                                                         N,
+                                                         &alpha,
+                                                         nullptr,
+                                                         incx,
+                                                         stride_x,
+                                                         dy,
+                                                         incy,
+                                                         stride_y,
+                                                         dA_1,
+                                                         lda,
+                                                         stride_a,
+                                                         batch_count),
+                          rocblas_status_invalid_pointer);
+    EXPECT_ROCBLAS_STATUS(rocblas_ger_strided_batched<T>(handle,
+                                                         M,
+                                                         N,
+                                                         &alpha,
+                                                         dx,
+                                                         incx,
+                                                         stride_x,
+                                                         nullptr,
+                                                         incy,
+                                                         stride_y,
+                                                         dA_1,
+                                                         lda,
+                                                         stride_a,
+                                                         batch_count),
+                          rocblas_status_invalid_pointer);
+    EXPECT_ROCBLAS_STATUS(rocblas_ger_strided_batched<T>(handle,
+                                                         M,
+                                                         N,
+                                                         &alpha,
+                                                         dx,
+                                                         incx,
+                                                         stride_x,
+                                                         dy,
+                                                         incy,
+                                                         stride_y,
+                                                         nullptr,
+                                                         lda,
+                                                         stride_a,
+                                                         batch_count),
+                          rocblas_status_invalid_pointer);
+    EXPECT_ROCBLAS_STATUS(rocblas_ger_strided_batched<T>(nullptr,
+                                                         M,
+                                                         N,
+                                                         &alpha,
+                                                         dx,
+                                                         incx,
+                                                         stride_x,
+                                                         dy,
+                                                         incy,
+                                                         stride_y,
+                                                         dA_1,
+                                                         lda,
+                                                         stride_a,
+                                                         batch_count),
+                          rocblas_status_invalid_handle);
+}
+
+template <typename T>
+void testing_ger_strided_batched(const Arguments& arg)
+{
+    rocblas_int M           = arg.M;
+    rocblas_int N           = arg.N;
+    rocblas_int incx        = arg.incx;
+    rocblas_int incy        = arg.incy;
+    rocblas_int lda         = arg.lda;
+    T           h_alpha     = (T)arg.alpha;
+    rocblas_int stride_x    = arg.stride_x;
+    rocblas_int stride_y    = arg.stride_y;
+    rocblas_int stride_a    = arg.stride_a;
+    rocblas_int batch_count = arg.batch_count;
+
+    rocblas_local_handle handle;
+
+    size_t abs_incx = incx >= 0 ? incx : -incx;
+    size_t abs_incy = incy >= 0 ? incy : -incy;
+    size_t size_A   = lda * N;
+    size_t size_x   = M * abs_incx;
+    size_t size_y   = N * abs_incy;
+
+    // argument check before allocating invalid memory
+    if(M < 0 || N < 0 || lda < M || lda < 1 || !incx || !incy || stride_a < size_A
+       || stride_x < size_x || stride_y < size_y || batch_count < 0)
+    {
+        static const size_t safe_size = 100; // arbitrarily set to 100
+        device_vector<T>    dA_1(safe_size);
+        device_vector<T>    dx(safe_size);
+        device_vector<T>    dy(safe_size);
+        if(!dA_1 || !dx || !dy)
+        {
+            CHECK_HIP_ERROR(hipErrorOutOfMemory);
+            return;
+        }
+
+        EXPECT_ROCBLAS_STATUS(rocblas_ger_strided_batched<T>(handle,
+                                                             M,
+                                                             N,
+                                                             &h_alpha,
+                                                             dx,
+                                                             incx,
+                                                             stride_x,
+                                                             dy,
+                                                             incy,
+                                                             stride_y,
+                                                             dA_1,
+                                                             lda,
+                                                             stride_a,
+                                                             batch_count),
+                              rocblas_status_invalid_size);
+
+        return;
+    }
+
+    //quick return
+    if(!M || !N || !batch_count)
+    {
+        static const size_t safe_size = 100; // arbitrarily set to 100
+        device_vector<T>    dA_1(safe_size);
+        device_vector<T>    dx(safe_size);
+        device_vector<T>    dy(safe_size);
+        if(!dA_1 || !dx || !dy)
+        {
+            CHECK_HIP_ERROR(hipErrorOutOfMemory);
+            return;
+        }
+
+        EXPECT_ROCBLAS_STATUS(rocblas_ger_strided_batched<T>(handle,
+                                                             M,
+                                                             N,
+                                                             &h_alpha,
+                                                             dx,
+                                                             incx,
+                                                             stride_x,
+                                                             dy,
+                                                             incy,
+                                                             stride_y,
+                                                             dA_1,
+                                                             lda,
+                                                             stride_a,
+                                                             batch_count),
+                              rocblas_status_success);
+
+        return;
+    }
+
+    size_A += size_t(stride_a) * size_t(batch_count - 1);
+    size_x += size_t(stride_x) * size_t(batch_count - 1);
+    size_y += size_t(stride_y) * size_t(batch_count - 1);
+
+    // Naming: dK is in GPU (device) memory. hK is in CPU (host) memory
+    host_vector<T> hA_1(size_A);
+    host_vector<T> hA_2(size_A);
+    host_vector<T> hA_gold(size_A);
+    host_vector<T> hx(size_x);
+    host_vector<T> hy(size_y);
+
+    // allocate memory on device
+    device_vector<T> dA_1(size_A);
+    device_vector<T> dA_2(size_A);
+    device_vector<T> dx(size_x);
+    device_vector<T> dy(size_y);
+    device_vector<T> d_alpha(1);
+    if(((!dA_1 || !dA_2) && size_A) || (!dx && size_x) || (!dy && size_y) || !d_alpha)
+    {
+        CHECK_HIP_ERROR(hipErrorOutOfMemory);
+        return;
+    }
+
+    double gpu_time_used, cpu_time_used;
+    double rocblas_gflops, cblas_gflops, rocblas_bandwidth;
+    double rocblas_error_1;
+    double rocblas_error_2;
+
+    // Initial Data on CPU
+    rocblas_seedrand();
+    if(lda >= M)
+    {
+        rocblas_init<T>(hA_1, M, N, lda, stride_a, batch_count);
+    }
+    rocblas_init<T>(hx, 1, M, abs_incx, stride_x, batch_count);
+    rocblas_init<T>(hy, 1, N, abs_incy, stride_y, batch_count);
+
+    // copy matrix is easy in STL; hA_gold = hA_1: save a copy in hA_gold which will be output of
+    // CPU BLAS
+    hA_gold = hA_1;
+    hA_2    = hA_1;
+
+    // copy data from CPU to device
+    CHECK_HIP_ERROR(hipMemcpy(dA_1, hA_1, sizeof(T) * size_A, hipMemcpyHostToDevice));
+    CHECK_HIP_ERROR(hipMemcpy(dx, hx, sizeof(T) * size_x, hipMemcpyHostToDevice));
+    CHECK_HIP_ERROR(hipMemcpy(dy, hy, sizeof(T) * size_y, hipMemcpyHostToDevice));
+
+    if(arg.unit_check || arg.norm_check)
+    {
+        // copy data from CPU to device
+        CHECK_HIP_ERROR(hipMemcpy(dA_2, hA_2, sizeof(T) * size_A, hipMemcpyHostToDevice));
+        CHECK_HIP_ERROR(hipMemcpy(d_alpha, &h_alpha, sizeof(T), hipMemcpyHostToDevice));
+        CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_host));
+        CHECK_ROCBLAS_ERROR(rocblas_ger_strided_batched<T>(handle,
+                                                           M,
+                                                           N,
+                                                           &h_alpha,
+                                                           dx,
+                                                           incx,
+                                                           stride_x,
+                                                           dy,
+                                                           incy,
+                                                           stride_y,
+                                                           dA_1,
+                                                           lda,
+                                                           stride_a,
+                                                           batch_count));
+        CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_device));
+        CHECK_ROCBLAS_ERROR(rocblas_ger_strided_batched<T>(handle,
+                                                           M,
+                                                           N,
+                                                           d_alpha,
+                                                           dx,
+                                                           incx,
+                                                           stride_x,
+                                                           dy,
+                                                           incy,
+                                                           stride_y,
+                                                           dA_2,
+                                                           lda,
+                                                           stride_a,
+                                                           batch_count));
+
+        // copy output from device to CPU
+        hipMemcpy(hA_1, dA_1, sizeof(T) * size_A, hipMemcpyDeviceToHost);
+        hipMemcpy(hA_2, dA_2, sizeof(T) * size_A, hipMemcpyDeviceToHost);
+
+        // CPU BLAS
+        cpu_time_used = get_time_us();
+
+        for(int b = 0; b < batch_count; ++b)
+        {
+            cblas_ger<T>(M,
+                         N,
+                         h_alpha,
+                         hx + b * stride_x,
+                         incx,
+                         hy + b * stride_y,
+                         incy,
+                         hA_gold + b * stride_a,
+                         lda);
+        }
+
+        cpu_time_used = get_time_us() - cpu_time_used;
+        cblas_gflops  = batch_count * ger_gflop_count<T>(M, N) / cpu_time_used * 1e6;
+
+        if(arg.unit_check)
+        {
+            unit_check_general<T>(M, N, batch_count, lda, stride_a, hA_gold, hA_1);
+            unit_check_general<T>(M, N, batch_count, lda, stride_a, hA_gold, hA_2);
+        }
+
+        if(arg.norm_check)
+        {
+            rocblas_error_1
+                = norm_check_general<T>('F', M, N, lda, stride_a, batch_count, hA_gold, hA_1);
+            rocblas_error_2
+                = norm_check_general<T>('F', M, N, lda, stride_a, batch_count, hA_gold, hA_2);
+        }
+    }
+
+    if(arg.timing)
+    {
+        int number_cold_calls = 2;
+        int number_hot_calls  = 100;
+        CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_host));
+
+        for(int iter = 0; iter < number_cold_calls; iter++)
+        {
+            rocblas_ger_strided_batched<T>(handle,
+                                           M,
+                                           N,
+                                           &h_alpha,
+                                           dx,
+                                           incx,
+                                           stride_x,
+                                           dy,
+                                           incy,
+                                           stride_y,
+                                           dA_1,
+                                           lda,
+                                           stride_a,
+                                           batch_count);
+        }
+
+        gpu_time_used = get_time_us(); // in microseconds
+
+        for(int iter = 0; iter < number_hot_calls; iter++)
+        {
+            rocblas_ger_strided_batched<T>(handle,
+                                           M,
+                                           N,
+                                           &h_alpha,
+                                           dx,
+                                           incx,
+                                           stride_x,
+                                           dy,
+                                           incy,
+                                           stride_y,
+                                           dA_1,
+                                           lda,
+                                           stride_a,
+                                           batch_count);
+        }
+
+        gpu_time_used     = (get_time_us() - gpu_time_used) / number_hot_calls;
+        rocblas_gflops    = batch_count * ger_gflop_count<T>(M, N) / gpu_time_used * 1e6;
+        rocblas_bandwidth = batch_count * (2.0 * M * N) * sizeof(T) / gpu_time_used / 1e3;
+
+        // only norm_check return an norm error, unit check won't return anything
+        std::cout << "M,N,alpha,incx,stride_x,incy,stride_y,lda,stride_a,batch_count,rocblas-"
+                     "Gflops,rocblas-GB/s";
+
+        if(arg.norm_check)
+            std::cout << ",CPU-Gflops,norm_error_host_ptr,norm_error_dev_ptr";
+
+        std::cout << std::endl;
+
+        std::cout << M << "," << N << "," << h_alpha << "," << incx << "," << stride_x << ","
+                  << incy << "," << stride_y << "," << lda << "," << stride_a << "," << batch_count
+                  << "," << rocblas_gflops << "," << rocblas_bandwidth;
+
+        if(arg.norm_check)
+            std::cout << "," << cblas_gflops << "," << rocblas_error_1 << "," << rocblas_error_2;
+
+        std::cout << std::endl;
+    }
+}
diff --git a/clients/include/testing_iamax_iamin.hpp b/clients/include/testing_iamax_iamin.hpp
index ace3b7aae..c0341f076 100644
--- a/clients/include/testing_iamax_iamin.hpp
+++ b/clients/include/testing_iamax_iamin.hpp
@@ -201,6 +201,17 @@ namespace rocblas_cblas
         return half_to_float(x) < half_to_float(y);
     }
 
+    template <typename T>
+    bool greatherthan(T x, T y)
+    {
+        return x > y;
+    }
+
+    bool greatherthan(rocblas_half x, rocblas_half y)
+    {
+        return half_to_float(x) > half_to_float(y);
+    }
+
     template <typename T>
     void cblas_iamin(rocblas_int N, const T* X, rocblas_int incx, rocblas_int* result)
     {
@@ -222,12 +233,33 @@ namespace rocblas_cblas
         *result = minpos;
     }
 
+    template <typename T>
+    void cblas_iamax(rocblas_int N, const T* X, rocblas_int incx, rocblas_int* result)
+    {
+        rocblas_int maxpos = -1;
+        if(N > 0 && incx > 0)
+        {
+            auto max = asum(X[0]);
+            maxpos   = 0;
+            for(size_t i = 1; i < N; ++i)
+            {
+                auto a = asum(X[i * incx]);
+                if(greatherthan(a, max))
+                {
+                    max    = a;
+                    maxpos = i;
+                }
+            }
+        }
+        *result = maxpos;
+    }
+
 } // namespace rocblas_cblas
 
 template <typename T>
 void testing_iamax(const Arguments& arg)
 {
-    testing_iamax_iamin<T, rocblas_iamax<T>, cblas_iamax<T>>(arg);
+    testing_iamax_iamin<T, rocblas_iamax<T>, rocblas_cblas::cblas_iamax<T>>(arg);
 }
 
 template <typename T>
diff --git a/clients/include/testing_rot.hpp b/clients/include/testing_rot.hpp
new file mode 100644
index 000000000..f238dde65
--- /dev/null
+++ b/clients/include/testing_rot.hpp
@@ -0,0 +1,192 @@
+/* ************************************************************************
+ * Copyright 2018-2019 Advanced Micro Devices, Inc.
+ * ************************************************************************ */
+
+#include "cblas_interface.hpp"
+#include "norm.hpp"
+#include "rocblas.hpp"
+#include "rocblas_init.hpp"
+#include "rocblas_math.hpp"
+#include "rocblas_random.hpp"
+#include "rocblas_test.hpp"
+#include "rocblas_vector.hpp"
+#include "unit.hpp"
+#include "utility.hpp"
+
+template <typename T, typename U = T, typename V = T>
+void testing_rot_bad_arg(const Arguments& arg)
+{
+    rocblas_int         N         = 100;
+    rocblas_int         incx      = 1;
+    rocblas_int         incy      = 1;
+    static const size_t safe_size = 100;
+
+    rocblas_local_handle handle;
+    device_vector<T>     dx(safe_size);
+    device_vector<T>     dy(safe_size);
+    device_vector<U>     dc(1);
+    device_vector<V>     ds(1);
+    if(!dx || !dy || !dc || !ds)
+    {
+        CHECK_HIP_ERROR(hipErrorOutOfMemory);
+        return;
+    }
+
+    EXPECT_ROCBLAS_STATUS((rocblas_rot<T, U, V>(nullptr, N, dx, incx, dy, incy, dc, ds)),
+                          rocblas_status_invalid_handle);
+    EXPECT_ROCBLAS_STATUS((rocblas_rot<T, U, V>(handle, N, nullptr, incx, dy, incy, dc, ds)),
+                          rocblas_status_invalid_pointer);
+    EXPECT_ROCBLAS_STATUS((rocblas_rot<T, U, V>(handle, N, dx, incx, nullptr, incy, dc, ds)),
+                          rocblas_status_invalid_pointer);
+    EXPECT_ROCBLAS_STATUS((rocblas_rot<T, U, V>(handle, N, dx, incx, dy, incy, nullptr, ds)),
+                          rocblas_status_invalid_pointer);
+    EXPECT_ROCBLAS_STATUS((rocblas_rot<T, U, V>(handle, N, dx, incx, dy, incy, dc, nullptr)),
+                          rocblas_status_invalid_pointer);
+}
+
+template <typename T, typename U = T, typename V = T>
+void testing_rot(const Arguments& arg)
+{
+    rocblas_int N    = arg.N;
+    rocblas_int incx = arg.incx;
+    rocblas_int incy = arg.incy;
+
+    rocblas_local_handle handle;
+    double               gpu_time_used, cpu_time_used;
+    double norm_error_host_x = 0.0, norm_error_host_y = 0.0, norm_error_device_x = 0.0,
+           norm_error_device_y = 0.0;
+
+    // check to prevent undefined memory allocation error
+    if(N <= 0 || incx <= 0 || incy <= 0)
+    {
+        static const size_t safe_size = 100; // arbitrarily set to 100
+        device_vector<T>    dx(safe_size);
+        device_vector<T>    dy(safe_size);
+        device_vector<U>    dc(1);
+        device_vector<V>    ds(1);
+        if(!dx || !dy || !dc || !ds)
+        {
+            CHECK_HIP_ERROR(hipErrorOutOfMemory);
+            return;
+        }
+
+        CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_device));
+        CHECK_ROCBLAS_ERROR((rocblas_rot<T, U, V>(handle, N, dx, incx, dy, incy, dc, ds)));
+        return;
+    }
+
+    size_t size_x = N * size_t(incx);
+    size_t size_y = N * size_t(incy);
+
+    device_vector<T> dx(size_x);
+    device_vector<T> dy(size_y);
+    device_vector<U> dc(1);
+    device_vector<V> ds(1);
+    if(!dx || !dy || !dc || !ds)
+    {
+        CHECK_HIP_ERROR(hipErrorOutOfMemory);
+        return;
+    }
+
+    // Initial Data on CPU
+    host_vector<T> hx(size_x);
+    host_vector<T> hy(size_y);
+    host_vector<U> hc(1);
+    host_vector<V> hs(1);
+    rocblas_seedrand();
+    rocblas_init<T>(hx, 1, N, incx);
+    rocblas_init<T>(hy, 1, N, incy);
+    rocblas_init<U>(hc, 1, 1, 1);
+    rocblas_init<V>(hs, 1, 1, 1);
+
+    // CPU BLAS reference data
+    host_vector<T> cx = hx;
+    host_vector<T> cy = hy;
+    // cblas_rotg<T, U>(cx, cy, hc, hs);
+    // cx[0] = hx[0];
+    // cy[0] = hy[0];
+    cpu_time_used = get_time_us();
+    cblas_rot<T, U, V>(N, cx, incx, cy, incy, hc, hs);
+    cpu_time_used = get_time_us() - cpu_time_used;
+
+    if(arg.unit_check || arg.norm_check)
+    {
+        // Test rocblas_pointer_mode_host
+        {
+            CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_host));
+            CHECK_HIP_ERROR(hipMemcpy(dx, hx, sizeof(T) * size_x, hipMemcpyHostToDevice));
+            CHECK_HIP_ERROR(hipMemcpy(dy, hy, sizeof(T) * size_y, hipMemcpyHostToDevice));
+            CHECK_ROCBLAS_ERROR((rocblas_rot<T, U, V>(handle, N, dx, incx, dy, incy, hc, hs)));
+            host_vector<T> rx(size_x);
+            host_vector<T> ry(size_y);
+            CHECK_HIP_ERROR(hipMemcpy(rx, dx, sizeof(T) * size_x, hipMemcpyDeviceToHost));
+            CHECK_HIP_ERROR(hipMemcpy(ry, dy, sizeof(T) * size_y, hipMemcpyDeviceToHost));
+            if(arg.unit_check)
+            {
+                unit_check_general<T>(1, N, incx, cx, rx);
+                unit_check_general<T>(1, N, incy, cy, ry);
+            }
+            if(arg.norm_check)
+            {
+                norm_error_host_x = norm_check_general<T>('F', 1, N, incx, cx, rx);
+                norm_error_host_y = norm_check_general<T>('F', 1, N, incy, cy, ry);
+            }
+        }
+
+        // Test rocblas_pointer_mode_device
+        {
+            CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_device));
+            CHECK_HIP_ERROR(hipMemcpy(dx, hx, sizeof(T) * size_x, hipMemcpyHostToDevice));
+            CHECK_HIP_ERROR(hipMemcpy(dy, hy, sizeof(T) * size_y, hipMemcpyHostToDevice));
+            CHECK_HIP_ERROR(hipMemcpy(dc, hc, sizeof(U), hipMemcpyHostToDevice));
+            CHECK_HIP_ERROR(hipMemcpy(ds, hs, sizeof(V), hipMemcpyHostToDevice));
+            CHECK_ROCBLAS_ERROR((rocblas_rot<T, U, V>(handle, N, dx, incx, dy, incy, dc, ds)));
+            host_vector<T> rx(size_x);
+            host_vector<T> ry(size_y);
+            CHECK_HIP_ERROR(hipMemcpy(rx, dx, sizeof(T) * size_x, hipMemcpyDeviceToHost));
+            CHECK_HIP_ERROR(hipMemcpy(ry, dy, sizeof(T) * size_y, hipMemcpyDeviceToHost));
+            if(arg.unit_check)
+            {
+                unit_check_general<T>(1, N, incx, cx, rx);
+                unit_check_general<T>(1, N, incy, cy, ry);
+            }
+            if(arg.norm_check)
+            {
+                norm_error_device_x = norm_check_general<T>('F', 1, N, incx, cx, rx);
+                norm_error_device_y = norm_check_general<T>('F', 1, N, incy, cy, ry);
+            }
+        }
+    }
+
+    if(arg.timing)
+    {
+        int number_cold_calls = 2;
+        int number_hot_calls  = 100;
+        CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_host));
+        CHECK_HIP_ERROR(hipMemcpy(dx, hx, sizeof(T) * size_x, hipMemcpyHostToDevice));
+        CHECK_HIP_ERROR(hipMemcpy(dy, hy, sizeof(T) * size_y, hipMemcpyHostToDevice));
+
+        for(int iter = 0; iter < number_cold_calls; iter++)
+        {
+            rocblas_rot<T, U, V>(handle, N, dx, incx, dy, incy, hc, hs);
+        }
+        gpu_time_used = get_time_us(); // in microseconds
+        for(int iter = 0; iter < number_hot_calls; iter++)
+        {
+            rocblas_rot<T, U, V>(handle, N, dx, incx, dy, incy, hc, hs);
+        }
+        gpu_time_used = (get_time_us() - gpu_time_used) / number_hot_calls;
+
+        std::cout << "N,incx,incy,rocblas(us),cpu(us)";
+        if(arg.norm_check)
+            std::cout
+                << ",norm_error_host_x,norm_error_host_y,norm_error_device_x,norm_error_device_y";
+        std::cout << std::endl;
+        std::cout << N << "," << incx << "," << incy << "," << gpu_time_used << ","
+                  << cpu_time_used;
+        if(arg.norm_check)
+            std::cout << ',' << norm_error_host_x << ',' << norm_error_host_y << ","
+                      << norm_error_device_x << "," << norm_error_device_y;
+        std::cout << std::endl;
+    }
+}
diff --git a/clients/include/testing_rotg.hpp b/clients/include/testing_rotg.hpp
new file mode 100644
index 000000000..b64ce34bd
--- /dev/null
+++ b/clients/include/testing_rotg.hpp
@@ -0,0 +1,175 @@
+/* ************************************************************************
+ * Copyright 2018-2019 Advanced Micro Devices, Inc.
+ * ************************************************************************ */
+
+#include "cblas_interface.hpp"
+#include "norm.hpp"
+#include "rocblas.hpp"
+#include "rocblas_init.hpp"
+#include "rocblas_math.hpp"
+#include "rocblas_random.hpp"
+#include "rocblas_test.hpp"
+#include "rocblas_vector.hpp"
+#include "unit.hpp"
+#include "utility.hpp"
+
+template <typename T, typename U = T>
+void testing_rotg_bad_arg(const Arguments& arg)
+{
+    static const size_t safe_size = 1;
+
+    rocblas_local_handle handle;
+    device_vector<T>     a(safe_size);
+    device_vector<T>     b(safe_size);
+    device_vector<U>     c(safe_size);
+    device_vector<T>     s(safe_size);
+    if(!a || !b || !c || !s)
+    {
+        CHECK_HIP_ERROR(hipErrorOutOfMemory);
+        return;
+    }
+
+    EXPECT_ROCBLAS_STATUS((rocblas_rotg<T, U>(nullptr, a, b, c, s)), rocblas_status_invalid_handle);
+    EXPECT_ROCBLAS_STATUS((rocblas_rotg<T, U>(handle, nullptr, b, c, s)),
+                          rocblas_status_invalid_pointer);
+    EXPECT_ROCBLAS_STATUS((rocblas_rotg<T, U>(handle, a, nullptr, c, s)),
+                          rocblas_status_invalid_pointer);
+    EXPECT_ROCBLAS_STATUS((rocblas_rotg<T, U>(handle, a, b, nullptr, s)),
+                          rocblas_status_invalid_pointer);
+    EXPECT_ROCBLAS_STATUS((rocblas_rotg<T, U>(handle, a, b, c, nullptr)),
+                          rocblas_status_invalid_pointer);
+}
+
+template <typename T, typename U = T>
+void testing_rotg(const Arguments& arg)
+{
+    const int TEST_COUNT = 100;
+
+    rocblas_local_handle handle;
+    double               gpu_time_used, cpu_time_used;
+    double               error_host, error_device;
+    host_vector<T>       a(1);
+    host_vector<T>       b(1);
+    host_vector<U>       c(1);
+    host_vector<T>       s(1);
+
+    for(int i = 0; i < TEST_COUNT; ++i)
+    {
+        // Initial data on CPU
+        rocblas_seedrand();
+        rocblas_init<T>(a, 1, 1, 1);
+        rocblas_init<T>(b, 1, 1, 1);
+        rocblas_init<U>(c, 1, 1, 1);
+        rocblas_init<T>(s, 1, 1, 1);
+
+        // CPU BLAS
+        host_vector<T> ca = a;
+        host_vector<T> cb = b;
+        host_vector<U> cc = c;
+        host_vector<T> cs = s;
+        cpu_time_used     = get_time_us();
+        cblas_rotg<T, U>(ca, cb, cc, cs);
+        cpu_time_used = get_time_us() - cpu_time_used;
+
+        // Test rocblas_pointer_mode_host
+        {
+            host_vector<T> ha = a;
+            host_vector<T> hb = b;
+            host_vector<U> hc = c;
+            host_vector<T> hs = s;
+            CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_host));
+            CHECK_ROCBLAS_ERROR((rocblas_rotg<T, U>(handle, ha, hb, hc, hs)));
+
+            if(arg.unit_check)
+            {
+                unit_check_general<T>(1, 1, 1, ca, ha);
+                unit_check_general<T>(1, 1, 1, cb, hb);
+                unit_check_general<U>(1, 1, 1, cc, hc);
+                unit_check_general<T>(1, 1, 1, cs, hs);
+            }
+
+            if(arg.norm_check)
+            {
+                error_host = norm_check_general<T>('F', 1, 1, 1, ca, ha);
+                error_host += norm_check_general<T>('F', 1, 1, 1, cb, hb);
+                error_host += norm_check_general<U>('F', 1, 1, 1, cc, hc);
+                error_host += norm_check_general<T>('F', 1, 1, 1, cs, hs);
+            }
+        }
+
+        // Test rocblas_pointer_mode_device
+        {
+            device_vector<T> da(1);
+            device_vector<T> db(1);
+            device_vector<U> dc(1);
+            device_vector<T> ds(1);
+            CHECK_HIP_ERROR(hipMemcpy(da, a, sizeof(T), hipMemcpyHostToDevice));
+            CHECK_HIP_ERROR(hipMemcpy(db, b, sizeof(T), hipMemcpyHostToDevice));
+            CHECK_HIP_ERROR(hipMemcpy(dc, c, sizeof(U), hipMemcpyHostToDevice));
+            CHECK_HIP_ERROR(hipMemcpy(ds, s, sizeof(T), hipMemcpyHostToDevice));
+            CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_device));
+            CHECK_ROCBLAS_ERROR((rocblas_rotg<T, U>(handle, da, db, dc, ds)));
+            host_vector<T> ha(1);
+            host_vector<T> hb(1);
+            host_vector<U> hc(1);
+            host_vector<T> hs(1);
+            CHECK_HIP_ERROR(hipMemcpy(ha, da, sizeof(T), hipMemcpyDeviceToHost));
+            CHECK_HIP_ERROR(hipMemcpy(hb, db, sizeof(T), hipMemcpyDeviceToHost));
+            CHECK_HIP_ERROR(hipMemcpy(hc, dc, sizeof(U), hipMemcpyDeviceToHost));
+            CHECK_HIP_ERROR(hipMemcpy(hs, ds, sizeof(T), hipMemcpyDeviceToHost));
+
+            if(arg.unit_check)
+            {
+                // unit_check_general<T>(1, 1, 1, ca, ha);
+                // unit_check_general<T>(1, 1, 1, cb, hb);
+                // unit_check_general<U>(1, 1, 1, cc, hc);
+                // unit_check_general<T>(1, 1, 1, cs, hs);
+            }
+
+            if(arg.norm_check)
+            {
+                error_device = norm_check_general<T>('F', 1, 1, 1, ca, ha);
+                error_device += norm_check_general<T>('F', 1, 1, 1, cb, hb);
+                error_device += norm_check_general<U>('F', 1, 1, 1, cc, hc);
+                error_device += norm_check_general<T>('F', 1, 1, 1, cs, hs);
+            }
+        }
+    }
+
+    if(arg.timing)
+    {
+        int number_cold_calls = 2;
+        int number_hot_calls  = 100;
+        CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_host));
+
+        host_vector<T> ha = a;
+        host_vector<T> hb = b;
+        host_vector<U> hc = c;
+        host_vector<T> hs = s;
+        for(int iter = 0; iter < number_cold_calls; ++iter)
+        {
+            rocblas_rotg<T, U>(handle, ha, hb, hc, hs);
+        }
+
+        gpu_time_used = get_time_us();
+        for(int iter = 0; iter < number_hot_calls; ++iter)
+        {
+            ha = a;
+            hb = b;
+            hc = c;
+            hs = s;
+            rocblas_rotg<T, U>(handle, ha, hb, hc, hs);
+        }
+        gpu_time_used = (get_time_us() - gpu_time_used) / number_hot_calls;
+
+        std::cout << "rocblas-us,CPU-us";
+        if(arg.norm_check)
+            std::cout << ",norm_error_host_ptr,norm_error_dev_ptr";
+        std::cout << std::endl;
+
+        std::cout << gpu_time_used << "," << cpu_time_used;
+        if(arg.norm_check)
+            std::cout << ',' << error_host << ',' << error_device;
+        std::cout << std::endl;
+    }
+}
diff --git a/clients/include/testing_rotm.hpp b/clients/include/testing_rotm.hpp
new file mode 100644
index 000000000..e3c249e55
--- /dev/null
+++ b/clients/include/testing_rotm.hpp
@@ -0,0 +1,189 @@
+/* ************************************************************************
+ * Copyright 2018-2019 Advanced Micro Devices, Inc.
+ * ************************************************************************ */
+
+#include "cblas_interface.hpp"
+#include "norm.hpp"
+#include "rocblas.hpp"
+#include "rocblas_init.hpp"
+#include "rocblas_math.hpp"
+#include "rocblas_random.hpp"
+#include "rocblas_test.hpp"
+#include "rocblas_vector.hpp"
+#include "unit.hpp"
+#include "utility.hpp"
+
+template <typename T>
+void testing_rotm_bad_arg(const Arguments& arg)
+{
+    rocblas_int         N         = 100;
+    rocblas_int         incx      = 1;
+    rocblas_int         incy      = 1;
+    static const size_t safe_size = 100;
+
+    rocblas_local_handle handle;
+    device_vector<T>     dx(safe_size);
+    device_vector<T>     dy(safe_size);
+    device_vector<T>     dparam(5);
+    if(!dx || !dy || !dparam)
+    {
+        CHECK_HIP_ERROR(hipErrorOutOfMemory);
+        return;
+    }
+
+    EXPECT_ROCBLAS_STATUS(rocblas_rotm<T>(nullptr, N, dx, incx, dy, incy, dparam),
+                          rocblas_status_invalid_handle);
+    EXPECT_ROCBLAS_STATUS(rocblas_rotm<T>(handle, N, nullptr, incx, dy, incy, dparam),
+                          rocblas_status_invalid_pointer);
+    EXPECT_ROCBLAS_STATUS(rocblas_rotm<T>(handle, N, dx, incx, nullptr, incy, dparam),
+                          rocblas_status_invalid_pointer);
+    EXPECT_ROCBLAS_STATUS(rocblas_rotm<T>(handle, N, dx, incx, dy, incy, nullptr),
+                          rocblas_status_invalid_pointer);
+}
+
+template <typename T>
+void testing_rotm(const Arguments& arg)
+{
+    rocblas_int N    = arg.N;
+    rocblas_int incx = arg.incx;
+    rocblas_int incy = arg.incy;
+
+    rocblas_local_handle handle;
+    double               gpu_time_used, cpu_time_used;
+    double norm_error_host_x = 0.0, norm_error_host_y = 0.0, norm_error_device_x = 0.0,
+           norm_error_device_y = 0.0;
+
+    // check to prevent undefined memory allocation error
+    if(N <= 0 || incx <= 0 || incy <= 0)
+    {
+        static const size_t safe_size = 100; // arbitrarily set to 100
+        device_vector<T>    dx(safe_size);
+        device_vector<T>    dy(safe_size);
+        device_vector<T>    dparam(5);
+        if(!dx || !dy || !dparam)
+        {
+            CHECK_HIP_ERROR(hipErrorOutOfMemory);
+            return;
+        }
+
+        CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_device));
+        CHECK_ROCBLAS_ERROR(rocblas_rotm<T>(handle, N, dx, incx, dy, incy, dparam));
+        return;
+    }
+
+    size_t size_x = N * size_t(incx);
+    size_t size_y = N * size_t(incy);
+
+    device_vector<T> dx(size_x);
+    device_vector<T> dy(size_y);
+    device_vector<T> dparam(5);
+    if(!dx || !dy || !dparam)
+    {
+        CHECK_HIP_ERROR(hipErrorOutOfMemory);
+        return;
+    }
+
+    // Initial Data on CPU
+    host_vector<T> hx(size_x);
+    host_vector<T> hy(size_y);
+    host_vector<T> hdata(4);
+    host_vector<T> hparam(5);
+    rocblas_seedrand();
+    rocblas_init<T>(hx, 1, N, incx);
+    rocblas_init<T>(hy, 1, N, incy);
+    rocblas_init<T>(hdata, 1, 4, 1);
+
+    // CPU BLAS reference data
+    cblas_rotmg<T>(&hdata[0], &hdata[1], &hdata[2], &hdata[3], hparam);
+    const int FLAG_COUNT        = 4;
+    const T   FLAGS[FLAG_COUNT] = {-1, 0, 1, -2};
+    for(int i = 0; i < FLAG_COUNT; ++i)
+    {
+        hparam[0]         = FLAGS[i];
+        host_vector<T> cx = hx;
+        host_vector<T> cy = hy;
+        cpu_time_used     = get_time_us();
+        cblas_rotm<T>(N, cx, incx, cy, incy, hparam);
+        cpu_time_used = get_time_us() - cpu_time_used;
+
+        if(arg.unit_check || arg.norm_check)
+        {
+            // Test rocblas_pointer_mode_host
+            {
+                CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_host));
+                CHECK_HIP_ERROR(hipMemcpy(dx, hx, sizeof(T) * size_x, hipMemcpyHostToDevice));
+                CHECK_HIP_ERROR(hipMemcpy(dy, hy, sizeof(T) * size_y, hipMemcpyHostToDevice));
+                CHECK_ROCBLAS_ERROR(rocblas_rotm<T>(handle, N, dx, incx, dy, incy, hparam));
+                host_vector<T> rx(size_x);
+                host_vector<T> ry(size_y);
+                CHECK_HIP_ERROR(hipMemcpy(rx, dx, sizeof(T) * size_x, hipMemcpyDeviceToHost));
+                CHECK_HIP_ERROR(hipMemcpy(ry, dy, sizeof(T) * size_y, hipMemcpyDeviceToHost));
+                if(arg.unit_check)
+                {
+                    unit_check_general<T>(1, N, incx, cx, rx);
+                    unit_check_general<T>(1, N, incy, cy, ry);
+                }
+                if(arg.norm_check)
+                {
+                    norm_error_host_x = norm_check_general<T>('F', 1, N, incx, cx, rx);
+                    norm_error_host_y = norm_check_general<T>('F', 1, N, incy, cy, ry);
+                }
+            }
+
+            // Test rocblas_pointer_mode_device
+            {
+                CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_device));
+                CHECK_HIP_ERROR(hipMemcpy(dx, hx, sizeof(T) * size_x, hipMemcpyHostToDevice));
+                CHECK_HIP_ERROR(hipMemcpy(dy, hy, sizeof(T) * size_y, hipMemcpyHostToDevice));
+                CHECK_HIP_ERROR(hipMemcpy(dparam, hparam, sizeof(T) * 5, hipMemcpyHostToDevice));
+                CHECK_ROCBLAS_ERROR(rocblas_rotm<T>(handle, N, dx, incx, dy, incy, dparam));
+                host_vector<T> rx(size_x);
+                host_vector<T> ry(size_y);
+                CHECK_HIP_ERROR(hipMemcpy(rx, dx, sizeof(T) * size_x, hipMemcpyDeviceToHost));
+                CHECK_HIP_ERROR(hipMemcpy(ry, dy, sizeof(T) * size_y, hipMemcpyDeviceToHost));
+                if(arg.unit_check)
+                {
+                    unit_check_general<T>(1, N, incx, cx, rx);
+                    unit_check_general<T>(1, N, incy, cy, ry);
+                }
+                if(arg.norm_check)
+                {
+                    norm_error_device_x = norm_check_general<T>('F', 1, N, incx, cx, rx);
+                    norm_error_device_y = norm_check_general<T>('F', 1, N, incy, cy, ry);
+                }
+            }
+        }
+    }
+
+    if(arg.timing)
+    {
+        int number_cold_calls = 2;
+        int number_hot_calls  = 100;
+        CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_host));
+        CHECK_HIP_ERROR(hipMemcpy(dx, hx, sizeof(T) * size_x, hipMemcpyHostToDevice));
+        CHECK_HIP_ERROR(hipMemcpy(dy, hy, sizeof(T) * size_y, hipMemcpyHostToDevice));
+
+        for(int iter = 0; iter < number_cold_calls; iter++)
+        {
+            rocblas_rotm<T>(handle, N, dx, incx, dy, incy, hparam);
+        }
+        gpu_time_used = get_time_us(); // in microseconds
+        for(int iter = 0; iter < number_hot_calls; iter++)
+        {
+            rocblas_rotm<T>(handle, N, dx, incx, dy, incy, hparam);
+        }
+        gpu_time_used = (get_time_us() - gpu_time_used) / number_hot_calls;
+
+        std::cout << "N,incx,incy,rocblas(us),cpu(us)";
+        if(arg.norm_check)
+            std::cout
+                << ",norm_error_host_x,norm_error_host_y,norm_error_device_x,norm_error_device_y";
+        std::cout << std::endl;
+        std::cout << N << "," << incx << "," << incy << "," << gpu_time_used << ","
+                  << cpu_time_used;
+        if(arg.norm_check)
+            std::cout << ',' << norm_error_host_x << ',' << norm_error_host_y << ","
+                      << norm_error_device_x << "," << norm_error_device_y;
+        std::cout << std::endl;
+    }
+}
diff --git a/clients/include/testing_rotmg.hpp b/clients/include/testing_rotmg.hpp
new file mode 100644
index 000000000..852a3e6a9
--- /dev/null
+++ b/clients/include/testing_rotmg.hpp
@@ -0,0 +1,133 @@
+/* ************************************************************************
+ * Copyright 2018-2019 Advanced Micro Devices, Inc.
+ * ************************************************************************ */
+
+#include "cblas_interface.hpp"
+#include "norm.hpp"
+#include "rocblas.hpp"
+#include "rocblas_init.hpp"
+#include "rocblas_math.hpp"
+#include "rocblas_random.hpp"
+#include "rocblas_test.hpp"
+#include "rocblas_vector.hpp"
+#include "unit.hpp"
+#include "utility.hpp"
+
+template <typename T>
+void testing_rotmg_bad_arg(const Arguments& arg)
+{
+    static const size_t safe_size = 5;
+
+    rocblas_local_handle handle;
+    device_vector<T>     d1(safe_size);
+    device_vector<T>     d2(safe_size);
+    device_vector<T>     x1(safe_size);
+    device_vector<T>     y1(safe_size);
+    device_vector<T>     param(safe_size);
+    if(!d1 || !d2 || !x1 || !y1 || !param)
+    {
+        CHECK_HIP_ERROR(hipErrorOutOfMemory);
+        return;
+    }
+
+    EXPECT_ROCBLAS_STATUS(rocblas_rotmg<T>(nullptr, d1, d2, x1, y1, param),
+                          rocblas_status_invalid_handle);
+    EXPECT_ROCBLAS_STATUS(rocblas_rotmg<T>(handle, nullptr, d2, x1, y1, param),
+                          rocblas_status_invalid_pointer);
+    EXPECT_ROCBLAS_STATUS(rocblas_rotmg<T>(handle, d1, nullptr, x1, y1, param),
+                          rocblas_status_invalid_pointer);
+    EXPECT_ROCBLAS_STATUS(rocblas_rotmg<T>(handle, d1, d2, nullptr, y1, param),
+                          rocblas_status_invalid_pointer);
+    EXPECT_ROCBLAS_STATUS(rocblas_rotmg<T>(handle, d1, d2, x1, nullptr, param),
+                          rocblas_status_invalid_pointer);
+    EXPECT_ROCBLAS_STATUS(rocblas_rotmg<T>(handle, d1, d2, x1, y1, nullptr),
+                          rocblas_status_invalid_pointer);
+}
+
+template <typename T>
+void testing_rotmg(const Arguments& arg)
+{
+    const int TEST_COUNT = 100;
+
+    rocblas_local_handle handle;
+    double               gpu_time_used, cpu_time_used;
+    double               error_host, error_device;
+    host_vector<T>       params(9);
+
+    for(int i = 0; i < TEST_COUNT; ++i)
+    {
+        // Initial data on CPU
+        rocblas_seedrand();
+        rocblas_init<T>(params, 1, 9, 1);
+
+        // CPU BLAS
+        host_vector<T> cparams = params;
+        cpu_time_used          = get_time_us();
+        cblas_rotmg<T>(&cparams[0], &cparams[1], &cparams[2], &cparams[3], &cparams[4]);
+        cpu_time_used = get_time_us() - cpu_time_used;
+
+        // Test rocblas_pointer_mode_host
+        {
+            host_vector<T> hparams = params;
+            CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_host));
+            CHECK_ROCBLAS_ERROR(rocblas_rotmg<T>(
+                handle, &hparams[0], &hparams[1], &hparams[2], &hparams[3], &hparams[4]));
+
+            if(arg.unit_check)
+                unit_check_general<T>(1, 9, 1, cparams, hparams);
+
+            if(arg.norm_check)
+                error_host = norm_check_general<T>('F', 1, 9, 1, cparams, hparams);
+        }
+
+        // Test rocblas_pointer_mode_device
+        {
+            device_vector<T> dparams(9);
+            CHECK_HIP_ERROR(hipMemcpy(dparams, params, 9 * sizeof(T), hipMemcpyHostToDevice));
+            CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_device));
+            CHECK_ROCBLAS_ERROR(rocblas_rotmg<T>(
+                handle, dparams, dparams + 1, dparams + 2, dparams + 3, dparams + 4));
+            host_vector<T> hparams(9);
+            CHECK_HIP_ERROR(hipMemcpy(hparams, dparams, 9 * sizeof(T), hipMemcpyDeviceToHost));
+
+            if(arg.unit_check)
+                unit_check_general<T>(1, 9, 1, cparams, hparams);
+
+            if(arg.norm_check)
+                error_device = norm_check_general<T>('F', 1, 9, 1, cparams, hparams);
+        }
+    }
+
+    if(arg.timing)
+    {
+        int number_cold_calls = 2;
+        int number_hot_calls  = 100;
+        CHECK_ROCBLAS_ERROR(rocblas_set_pointer_mode(handle, rocblas_pointer_mode_host));
+
+        host_vector<T> hparams = params;
+        for(int iter = 0; iter < number_cold_calls; ++iter)
+        {
+            rocblas_rotmg<T>(
+                handle, &hparams[0], &hparams[1], &hparams[2], &hparams[3], &hparams[4]);
+        }
+
+        gpu_time_used = get_time_us();
+        for(int iter = 0; iter < number_hot_calls; ++iter)
+        {
+            hparams = params;
+            rocblas_rotmg<T>(
+                handle, &hparams[0], &hparams[1], &hparams[2], &hparams[3], &hparams[4]);
+        }
+        gpu_time_used = (get_time_us() - gpu_time_used) / number_hot_calls;
+
+        std::cout << "rocblas-us,CPU-us";
+        if(arg.norm_check)
+            std::cout << ",norm_error_host_ptr,norm_error_dev_ptr";
+        std::cout << std::endl;
+
+        std::cout << gpu_time_used << "," << cpu_time_used;
+        if(arg.norm_check)
+            std::cout << ',' << error_host << ',' << error_device;
+        std::cout << std::endl;
+    }
+}
diff --git a/clients/include/type_dispatch.hpp b/clients/include/type_dispatch.hpp
index 22c86f2ea..4717ddf64 100644
--- a/clients/include/type_dispatch.hpp
+++ b/clients/include/type_dispatch.hpp
@@ -22,12 +22,14 @@ auto rocblas_simple_dispatch(const Arguments& arg)
     {
     case rocblas_datatype_f16_r:
         return TEST<rocblas_half>{}(arg);
+    case rocblas_datatype_bf16_r:
+        return TEST<rocblas_bfloat16>{}(arg);
     case rocblas_datatype_f32_r:
         return TEST<float>{}(arg);
     case rocblas_datatype_f64_r:
         return TEST<double>{}(arg);
-        //  case rocblas_datatype_f16_c:
-        //      return TEST<rocblas_half_complex>{}(arg);
+    //  case rocblas_datatype_f16_c:
+    //      return TEST<rocblas_half_complex>{}(arg);
     case rocblas_datatype_f32_c:
         return TEST<rocblas_float_complex>{}(arg);
     case rocblas_datatype_f64_c:
diff --git a/clients/include/unit.hpp b/clients/include/unit.hpp
index 7bc8fe0d8..92cc84188 100644
--- a/clients/include/unit.hpp
+++ b/clients/include/unit.hpp
@@ -14,9 +14,11 @@
 #include "rocblas.h"
 #include "rocblas_math.hpp"
 #include "rocblas_test.hpp"
+#include "rocblas_vector.hpp"
 
 #ifndef GOOGLE_TEST
 #define UNIT_CHECK(M, N, batch_count, lda, strideA, hCPU, hGPU, UNIT_ASSERT_EQ)
+#define UNIT_CHECK_B(M, N, batch_count, lda, hCPU, hGPU, UNIT_ASSERT_EQ)
 #else
 // clang-format off
 #define UNIT_CHECK(M, N, batch_count, lda, strideA, hCPU, hGPU, UNIT_ASSERT_EQ)      \
@@ -32,6 +34,19 @@
                                        hGPU[i + j * lda + k * strideA]);             \
                     }                                                                \
     } while(0)
+#define UNIT_CHECK_B(M, N, batch_count, lda, hCPU, hGPU, UNIT_ASSERT_EQ)             \
+    do                                                                               \
+    {                                                                                \
+        for(size_t k = 0; k < batch_count; k++)                                      \
+            for(size_t j = 0; j < N; j++)                                            \
+                for(size_t i = 0; i < M; i++)                                        \
+                    if (rocblas_isnan(hCPU[k][i + j * lda])) {                       \
+                        ASSERT_TRUE(rocblas_isnan(hGPU[k][i + j * lda]));            \
+                    } else {                                                         \
+                        UNIT_ASSERT_EQ(hCPU[k][i + j * lda],                         \
+                                       hGPU[k][i + j * lda]);                        \
+                    }                                                                \
+    } while(0)
 // clang-format on
 #endif
 
@@ -206,6 +221,80 @@ inline void unit_check_general(rocblas_int  M,
     UNIT_CHECK(M, N, batch_count, lda, strideA, hCPU, hGPU, ASSERT_EQ);
 }
 
+template <typename T>
+void unit_check_general(rocblas_int    M,
+                        rocblas_int    N,
+                        rocblas_int    batch_count,
+                        rocblas_int    lda,
+                        host_vector<T> hCPU[],
+                        host_vector<T> hGPU[]);
+
+template <>
+inline void unit_check_general(rocblas_int                   M,
+                               rocblas_int                   N,
+                               rocblas_int                   batch_count,
+                               rocblas_int                   lda,
+                               host_vector<rocblas_bfloat16> hCPU[],
+                               host_vector<rocblas_bfloat16> hGPU[])
+{
+    UNIT_CHECK_B(M, N, batch_count, lda, hCPU, hGPU, ASSERT_BFLOAT16_EQ);
+}
+
+template <>
+inline void unit_check_general(rocblas_int               M,
+                               rocblas_int               N,
+                               rocblas_int               batch_count,
+                               rocblas_int               lda,
+                               host_vector<rocblas_half> hCPU[],
+                               host_vector<rocblas_half> hGPU[])
+{
+    UNIT_CHECK_B(M, N, batch_count, lda, hCPU, hGPU, ASSERT_HALF_EQ);
+}
+
+template <>
+inline void unit_check_general(rocblas_int        M,
+                               rocblas_int        N,
+                               rocblas_int        batch_count,
+                               rocblas_int        lda,
+                               host_vector<float> hCPU[],
+                               host_vector<float> hGPU[])
+{
+    UNIT_CHECK_B(M, N, batch_count, lda, hCPU, hGPU, ASSERT_FLOAT_EQ);
+}
+
+template <>
+inline void unit_check_general(rocblas_int         M,
+                               rocblas_int         N,
+                               rocblas_int         batch_count,
+                               rocblas_int         lda,
+                               host_vector<double> hCPU[],
+                               host_vector<double> hGPU[])
+{
+    UNIT_CHECK_B(M, N, batch_count, lda, hCPU, hGPU, ASSERT_DOUBLE_EQ);
+}
+
+template <>
+inline void unit_check_general(rocblas_int                        M,
+                               rocblas_int                        N,
+                               rocblas_int                        batch_count,
+                               rocblas_int                        lda,
+                               host_vector<rocblas_float_complex> hCPU[],
+                               host_vector<rocblas_float_complex> hGPU[])
+{
+    UNIT_CHECK_B(M, N, batch_count, lda, hCPU, hGPU, ASSERT_FLOAT_COMPLEX_EQ);
+}
+
+template <>
+inline void unit_check_general(rocblas_int                         M,
+                               rocblas_int                         N,
+                               rocblas_int                         batch_count,
+                               rocblas_int                         lda,
+                               host_vector<rocblas_double_complex> hCPU[],
+                               host_vector<rocblas_double_complex> hGPU[])
+{
+    UNIT_CHECK_B(M, N, batch_count, lda, hCPU, hGPU, ASSERT_DOUBLE_COMPLEX_EQ);
+}
+
 template <typename T>
 inline void trsm_err_res_check(T max_error, rocblas_int M, T forward_tolerance, T eps)
 {
diff --git a/clients/samples/CMakeLists.txt b/clients/samples/CMakeLists.txt
index 377e3a8dd..2ab2d75cf 100644
--- a/clients/samples/CMakeLists.txt
+++ b/clients/samples/CMakeLists.txt
@@ -6,6 +6,9 @@ get_target_property( HIPHCC_LOCATION hip::hip_hcc IMPORTED_LOCATION_RELEASE )
 
 set( rocblas_samples_common ../common/utility.cpp )
 
+set( THREADS_PREFER_PTHREAD_FLAG ON )
+find_package( Threads REQUIRED )
+
 add_executable( example-sscal example_sscal.cpp ${rocblas_samples_common} )
 add_executable( example-sgemm example_sgemm.cpp ${rocblas_samples_common} )
 add_executable( example-sgemm-strided-batched example_sgemm_strided_batched.cpp ${rocblas_samples_common} )
diff --git a/docker/dockerfile-build-centos b/docker/dockerfile-build-centos
index 078050f70..97a09c479 100644
--- a/docker/dockerfile-build-centos
+++ b/docker/dockerfile-build-centos
@@ -10,6 +10,7 @@ ARG user_uid
 RUN yum install -y \
     sudo \
     rock-dkms \
+    rocm_smi64 \
     centos-release-scl \
     devtoolset-7 \
     ca-certificates \
@@ -30,19 +31,22 @@ RUN yum install -y \
     python36-pytest \
     python36-setuptools \
     PyYAML \
+    llvm7.0-devel \
+    llvm7.0-static \
     libcxx-devel \
     boost-devel \
+    zlib-devel \ 
+    libgomp \
     numactl-libs \
-    rpm-build \ 
+    rpm-build \
     deltarpm
 
 RUN echo '#!/bin/bash' | tee /etc/profile.d/devtoolset7.sh && echo \
     'source scl_source enable devtoolset-7' >>/etc/profile.d/devtoolset7.sh
 
 RUN pip3 install wheel && pip3 install tox pyyaml
-    
-# docker pipeline runs containers with particular uid
-# create a jenkins user with this specific uid so it can use sudo priviledges
+
+# Create a jenkins user with this specific uid so it can use sudo priviledges
 # Grant any member of sudo group password-less sudo privileges
 RUN useradd --create-home -u ${user_uid} -o -G video --shell /bin/bash jenkins && \
     echo '%video ALL=(ALL) NOPASSWD:ALL' | tee /etc/sudoers.d/sudo-nopasswd && \
diff --git a/docker/dockerfile-build-fedora b/docker/dockerfile-build-fedora
index 8133a53a7..8748a9870 100644
--- a/docker/dockerfile-build-fedora
+++ b/docker/dockerfile-build-fedora
@@ -28,6 +28,7 @@ RUN dnf -y update && dnf install -y \
     libcxx-devel \
     rpm-build \
     boost-devel \
+    zlib-devel \
     && \
     dnf -y clean all
 
diff --git a/docker/dockerfile-build-ubuntu b/docker/dockerfile-build-ubuntu
index c98e7e121..f7b60d4e0 100644
--- a/docker/dockerfile-build-ubuntu
+++ b/docker/dockerfile-build-ubuntu
@@ -15,6 +15,8 @@ ARG user_uid
 # * libhsakmt.so: libnuma1
 RUN apt-get update && DEBIAN_FRONTEND=noninteractive apt-get install -y --no-install-recommends \
     sudo \
+    rock-dkms \
+    rocm_smi64 \
     ca-certificates \
     git \
     make \
diff --git a/docker/dockerfile-build-ubuntu-rock b/docker/dockerfile-build-ubuntu-rock
index e2502d7c4..9cc37b6e0 100644
--- a/docker/dockerfile-build-ubuntu-rock
+++ b/docker/dockerfile-build-ubuntu-rock
@@ -16,6 +16,7 @@ ARG user_uid
 RUN apt-get update && DEBIAN_FRONTEND=noninteractive apt-get install -y --no-install-recommends \
     rock-dkms \
     sudo \
+    rocm_smi64 \
     ca-certificates \
     git \
     make \
@@ -26,19 +27,29 @@ RUN apt-get update && DEBIAN_FRONTEND=noninteractive apt-get install -y --no-ins
     python3 \
     python-yaml \
     python3-yaml \
+    python3-dev \
+    python3-pip \
+    python3-pytest \
+    python3-setuptools \
     gfortran \
+    llvm-6.0-dev \
     libboost-program-options-dev \
     libnuma1 \
+    libpthread-stubs0-dev \
+    libomp-dev \
+    zlib1g-dev \
     && \
     apt-get clean && \
     rm -rf /var/lib/apt/lists/*
 
+RUN pip3 install wheel && pip3 install tox pyyaml
+
 # docker pipeline runs containers with particular uid
 # create a jenkins user with this specific uid so it can use sudo priviledges
 # Grant any member of sudo group password-less sudo privileges
-RUN useradd --create-home -u ${user_uid} -o -G sudo --shell /bin/bash jenkins && \
-    mkdir -p /etc/sudoers.d/ && \
-    echo '%sudo   ALL=(ALL) NOPASSWD:ALL' | tee /etc/sudoers.d/sudo-nopasswd
+RUN useradd --create-home -u ${user_uid} -o -G video --shell /bin/bash jenkins && \
+    echo '%video   ALL=(ALL) NOPASSWD:ALL' | tee /etc/sudoers.d/sudo-nopasswd && \
+    chmod 400 /etc/sudoers.d/sudo-nopasswd
 
 ARG ROCBLAS_SRC_ROOT=/usr/local/src/rocBLAS
 
diff --git a/extern/blis b/extern/blis
new file mode 160000
index 000000000..cdbf16aa9
--- /dev/null
+++ b/extern/blis
@@ -0,0 +1 @@
+Subproject commit cdbf16aa93234e0d6a80f0d0e385ec81e7b75465
diff --git a/header_compilation_tests.sh b/header_compilation_tests.sh
index aaf44c842..8805235ed 100755
--- a/header_compilation_tests.sh
+++ b/header_compilation_tests.sh
@@ -1,34 +1,23 @@
 #!/bin/bash
 
+export LOCALE=C
 set -e
-exec >&2
-
-if [[ ! -e build/release/include/rocblas-export.h ]]; then
-    echo "Please run this script after at least one build of rocBLAS."
-    exit 1
-fi
+exec 2>&1
 
 script=$(realpath "$0")
 
-echocmd()
+build_first()
 {
-    cat <<EOF
--------------------------------------------------------------------------------
-$@
-EOF
-    "$@"
+    echo "Please run this script after at least one build of rocBLAS."
+    exit 1
 }
 
-hip_warning()
-{
-    cat <<EOF
+[[ ! -e CMakeCache.txt ]] && build_first
 
-<hip/hip_runtime.h> and (sometimes due to bugs) <hip/hip_runtime_api.h> are
-incompatible with C, so they should only be included in the rocBLAS internal
-C++ implemenation, not in the public headers, which must be compatible with C.
+BUILD_DIR=$(realpath "$(pwd)")
+SOURCE_DIR=$(realpath -m "$(grep CMAKE_HOME_DIRECTORY CMakeCache.txt | sed 's/CMAKE_HOME_DIRECTORY:INTERNAL=//g')")
 
-EOF
-}
+[[ ! -e $BUILD_DIR/include/rocblas-export.h ]] && build_first
 
 # Returns whether the output file is up to date.
 # Prints the output file.
@@ -38,9 +27,10 @@ EOF
 out_uptodate()
 {
     local file="$1_$2"
-    local out="build/compilation_tests/$file.o"
-    mkdir -p $(dirname "$out")
-    realpath "$out"
+    local filename="$BUILD_DIR/compilation_tests/$file.o"
+    mkdir -p $(dirname "$filename")
+    local out=$(realpath -m "$filename")
+    echo "$out"
     [[ -n "$3" && "$out" -nt "$script" ]] || return
     find library clients \( -iname \*.hpp -o -iname \*.h \) -print0 \
         | while read -r -d $'\0' file; do
@@ -50,7 +40,7 @@ out_uptodate()
 
 HCC=/opt/rocm/hcc/bin/hcc
 
-HCC_OPTS="-Werror -DBUILD_WITH_TENSILE=1 -DTensile_RUNTIME_LANGUAGE_HIP=1 -DTensile_RUNTIME_LANGUAGE_OCL=0 -Drocblas_EXPORTS -I$(realpath library/include) -I$(realpath library/src/include) -I$(realpath build/release/include) -I$(realpath library/src/blas3/Tensile) -isystem /opt/rocm/hip/include -isystem /opt/rocm/hsa/include -isystem /opt/rocm/hcc/include -isystem /opt/rocm/include -I$(realpath build/release/Tensile) -O3 -DNDEBUG -fPIC -fvisibility=hidden -fvisibility-inlines-hidden -Wno-unused-command-line-argument"
+HCC_OPTS="-Werror -DBUILD_WITH_TENSILE=1 -DTensile_RUNTIME_LANGUAGE_HIP=1 -DTensile_RUNTIME_LANGUAGE_OCL=0 -Drocblas_EXPORTS -I$(realpath library/include) -I$(realpath library/src/include) -I$(realpath $BUILD_DIR/include) -I$(realpath $SOURCE_DIR/library/src/blas3/Tensile) -isystem /opt/rocm/hip/include -isystem /opt/rocm/hsa/include -isystem /opt/rocm/hcc/include -isystem /opt/rocm/include -I$(realpath $BUILD_DIR/Tensile) -O3 -DNDEBUG -fPIC -fvisibility=hidden -fvisibility-inlines-hidden -Wno-unused-command-line-argument"
 
 GPU_OPTS="-hc -fno-gpu-rdc --amdgpu-target=gfx803 --amdgpu-target=gfx900 --amdgpu-target=gfx906 -Werror"
 
@@ -61,24 +51,50 @@ C99="$HCC -xc-header -std=c99"
 CPP11="$HCC -xc++-header -std=c++11"
 CPP14="$HCC -xc++-header -std=c++14"
 
+if [[ -e /.dockerenv ]]; then
+    NP=4   # limit parallelism to 4
+else
+    NP=0   # unlimited
+fi
+
+# xargs commands to perform parallel builds
+xargs_coproc()
+{
+    { coproc { xargs "-P$NP" -d "\n" -n1 /bin/bash -xc --; } 4>&1 >&3 2>&1; } 3>&1
+    XARGS_PID=$!
+    exec {XARGS_OUT}<&${COPROC[0]}- {XARGS_IN}>&${COPROC[1]}-
+    echo true >&$XARGS_IN  # At least one command is necessary
+}
+
+xargs_wait()
+{
+    XARGS_OUTPUT=""
+    exec {XARGS_IN}<&-
+    if ! wait $XARGS_PID; then
+        read -t 0.1 -u $XARGS_OUT XARGS_OUTPUT
+        return 1
+    fi
+}
+
 # Every header file must compile on its own, by including all of its
 # dependencies. This avoids creating dependencies on the order of
-# included files. We define _ROCBLAS_INTERNAL_BFLOAT16_ to enable the
-# internal rocblas_bfloat16 code. testing_trmm.hpp is excluded for now.
+# included files. testing_trmm.hpp is excluded for now.
 #
+xargs_coproc
 find library clients \( -iname \*.hpp -o -iname \*.h \) \
      \! -name testing_trmm.hpp -print0 | while read -r -d $'\0' file; do
-    if ! out=$(out_uptodate $file cpp14 true) && \
-            ! echocmd $CPP14 -c -o "$out" -D_ROCBLAS_INTERNAL_BFLOAT16_ \
-              $HCC_OPTS $GPU_OPTS "$file"; then
-        rm -f "$out"
+    out=$(out_uptodate "$file" cpp14 true) || \
+        echo "$CPP14 -c -o "$out" $HCC_OPTS $GPU_OPTS "$file" || (rm -f "$out"; echo "$file" >&4; exit 255)" >&$XARGS_IN
+done
+
+if ! xargs_wait; then
         cat <<EOF
 
-The header file $file cannot be compiled by itself,
+The header file $XARGS_OUTPUT cannot be compiled by itself,
 probably because of unmet dependencies on other header files.
 
-Add the necessary #include files at the top of $file
-so that $file can be used in any context, without
+Add the necessary #include files at the top of $XARGS_OUTPUT
+so that $XARGS_OUTPUT can be used in any context, without
 depending on other files being #included before it is #included.
 
 This allows clang-format to reorder #include directives in a canonical order
@@ -88,58 +104,75 @@ file will not matter.
 
 EOF
         exit 1
-    fi
-done
+fi
 
-# The headers in library/include must compile with clang host, C99 or C++11,
+# The headers in $SOURCE_DIR/library/include must compile with clang host, C99 or C++11,
 # for client code.
 #
-for file in library/include/*.{h,in}; do
-    if [[ -x "$CLANG" ]]; then
-        if ! out=$(out_uptodate $file clang) && \
-                ! echocmd $CLANG $CLANG_OPTS -c -o "$out" $HCC_OPTS $file; then
-            rm -f "$out"
-            cat <<EOF
-
-The public header $file cannot be compiled with clang host-only
-compiler. rocBLAS public headers need to be compatible with host-only
-compilers.
+if [[ -x "$CLANG" ]]; then
+    xargs_coproc
+    for file in $SOURCE_DIR/library/include/*.{h,in}; do
+        out=$(out_uptodate $file clang) || \
+             echo "$CLANG $CLANG_OPTS -c -o "$out" $HCC_OPTS "$file" || (rm -f "$out"; echo "$file" >&4; exit 255)" >&$XARGS_IN
+    done
+
+    if ! xargs_wait; then
+        cat <<EOF
+
+The public header file $XARGS_OUTPUT cannot be compiled with
+clang host-only compiler. rocBLAS public header files need to be compatible
+with host-only compilers.
+
+<hip/hip_runtime.h> (and, sometimes due to bugs, <hip/hip_runtime_api.h>) are
+incompatible with C, so they should only be included in the rocBLAS internal
+C++ implemenation, not in the public headers, which must be compatible with C.
 EOF
-            hip_warning
-            exit 1
-        fi
+        exit 1
     fi
-    if ! out=$(out_uptodate $file c99) && \
-            ! echocmd $C99 -c -o "$out" $HCC_OPTS $GPU_OPTS $file; then
-        rm -f "$out"
-        cat <<EOF
+fi
+
+xargs_coproc
+for file in $SOURCE_DIR/library/include/*.{h,in}; do
+    out=$(out_uptodate $file c99) || \
+        echo "$C99 -c -o "$out" $HCC_OPTS $GPU_OPTS "$file" || (rm -f "$out"; echo "$file" >&4; exit 255)" >&$XARGS_IN
+done
 
-The public header $file cannot be compiled with a C compiler.
+if ! xargs_wait; then
+    cat <<EOF
+
+The public header file $XARGS_OUTPUT cannot be compiled with a C compiler.
 rocBLAS public headers need to be compatible with C99.
+
+<hip/hip_runtime.h> and (sometimes due to bugs) <hip/hip_runtime_api.h> are
+incompatible with C, so they should only be included in the rocBLAS internal
+C++ implemenation, not in the public headers, which must be compatible with C.
 EOF
-        hip_warning
         exit 1
-    elif ! out=$(out_uptodate $file cpp11) && \
-            ! echocmd $CPP11 -c -o "$out" $HCC_OPTS $GPU_OPTS $file; then
-        rm -f "$out"
+fi
+
+xargs_coproc
+for file in $SOURCE_DIR/library/include/*.{h,in}; do
+    out=$(out_uptodate $file cpp11) ||
+        echo "$CPP11 -c -o "$out" $HCC_OPTS $GPU_OPTS "$file" || (rm -f "$out"; echo "$file" >&4; exit 255)" >&$XARGS_IN
+done
+
+if ! xargs_wait; then
         cat <<EOF
 
-The public header $file cannot be compiled with -std=c++11.
-rocBLAS public headers need to be compatible with C++11.
+The public header file $XARGS_OUTPUT cannot be compiled with
+-std=c++11. rocBLAS public headers need to be compatible with C++11.
 
 EOF
         exit 1
-    fi
-done
+fi
 
 cat <<EOF
 -------------------------------------------------------------------------------
-All header compilation tests passed.
+All header file compilation tests passed.
 
-Public headers can compile with host-only Clang, -std=c99, and -std=c++11.
+Public header files can compile with host-only Clang, -std=c99, and -std=c++11.
 
 All public and internal implementation header files can compile on their own,
 without depending on #include file order.
 
 EOF
-exit 0
diff --git a/install.sh b/install.sh
index c50ebcce7..a72f1bf14 100755
--- a/install.sh
+++ b/install.sh
@@ -1,7 +1,7 @@
 #!/usr/bin/env bash
 # Author: Kent Knox
 
-#set -x #echo on
+set -x #echo on
 
 # #################################################
 # helper functions
@@ -22,6 +22,7 @@ function display_help()
   echo "    [-o|--cov] Set tensile code_object_version (V2 or V3)"
   echo "    [-t|--test_local_path] Use a local path for tensile instead of remote GIT repot"
 #  echo "    [--cuda] build library for cuda backend"
+  echo "    [--cpu_ref_lib] specify libary to use for cpu reference code in testing (blis or lapack)"
   echo "    [--hip-clang] build library for amdgpu backend using hip-clang"
 }
 
@@ -48,8 +49,8 @@ supported_distro( )
 # This function is helpful for dockerfiles that do not have sudo installed, but the default user is root
 check_exit_code( )
 {
-  if (( $? != 0 )); then
-    exit $?
+  if (( $1 != 0 )); then
+    exit $1
   fi
 }
 
@@ -60,10 +61,10 @@ elevate_if_not_root( )
 
   if (( ${uid} )); then
     sudo $@
-    check_exit_code
+    check_exit_code "$?"
   else
     $@
-    check_exit_code
+    check_exit_code "$?"
   fi
 }
 
@@ -119,9 +120,19 @@ install_packages( )
   fi
 
   # dependencies needed for rocblas and clients to build
-  local library_dependencies_ubuntu=( "make" "cmake-curses-gui" "python2.7" "python3" "python-yaml" "python3-yaml" "hip_hcc" "pkg-config" )
-  local library_dependencies_centos=( "epel-release" "make" "cmake3" "python34" "PyYAML" "python3*-PyYAML" "hip_hcc" "gcc-c++" "rpm-build" )
-  local library_dependencies_fedora=( "make" "cmake" "python34" "PyYAML" "python3*-PyYAML" "hip_hcc" "gcc-c++" "libcxx-devel" "rpm-build" )
+  local library_dependencies_ubuntu=( "make" "cmake-curses-gui" "pkg-config"
+                                      "python2.7" "python3" "python-yaml" "python3-yaml"
+                                      "llvm-6.0-dev" "libomp-dev"
+                                      "hip_hcc" "rocm_smi64" "zlib1g-dev")
+  local library_dependencies_centos=( "epel-release"
+                                      "make" "cmake3" "rpm-build"
+                                      "python34" "PyYAML" "python3*-PyYAML"
+                                      "gcc-c++" "llvm7.0-devel" "llvm7.0-static"
+                                      "hip_hcc" "rocm_smi64" "libgomp" "zlib-devel" )
+  local library_dependencies_fedora=( "make" "cmake" "rpm-build"
+                                      "python34" "PyYAML" "python3*-PyYAML"
+                                      "gcc-c++" "libcxx-devel" "libgomp"
+                                      "hip_hcc" "rocm_smi64" "zlib-devel" )
 
   if [[ "${build_cuda}" == true ]]; then
     # Ideally, this could be cuda-cublas-dev, but the package name has a version number in it
@@ -130,9 +141,9 @@ install_packages( )
     library_dependencies_fedora+=( "" ) # how to install cuda on fedora?
   fi
 
-  local client_dependencies_ubuntu=( "gfortran" "libboost-program-options-dev" )
-  local client_dependencies_centos=( "gcc-gfortran" "boost-devel" )
-  local client_dependencies_fedora=( "gcc-gfortran" "boost-devel" )
+  local client_dependencies_ubuntu=( "gfortran" "libboost-program-options-dev" "libomp-dev")
+  local client_dependencies_centos=( "gcc-gfortran" "boost-devel" "libgomp")
+  local client_dependencies_fedora=( "gcc-gfortran" "boost-devel" "libgomp")
 
   case "${ID}" in
     ubuntu)
@@ -204,10 +215,11 @@ install_prefix=rocblas-install
 tensile_logic=asm_full
 tensile_cov=V2
 tensile_fork=
-tensile_branch=
+tensile_tag=
 tensile_test_local_path=
 build_clients=false
 build_cuda=false
+cpu_ref_lib=blis
 build_release=true
 build_hip_clang=false
 
@@ -218,7 +230,7 @@ build_hip_clang=false
 # check if we have a modern version of getopt that can handle whitespace and long parameters
 getopt -T
 if [[ $? -eq 4 ]]; then
-  GETOPT_PARSE=$(getopt --name "${0}" --longoptions help,install,clients,dependencies,debug,hip-clang,logic:,cov:,fork:,branch:test_local_path: --options hicdgl:o:f:b:t: -- "$@")
+  GETOPT_PARSE=$(getopt --name "${0}" --longoptions help,install,clients,dependencies,debug,hip-clang,logic:,cov:,fork:,branch:test_local_path:,cpu_ref_lib: --options hicdgl:o:f:b:t: -- "$@")
 else
   echo "Need a new version of getopt"
   exit 1
@@ -259,7 +271,7 @@ while true; do
         tensile_fork=${2}
         shift 2 ;;
     -b|--branch)
-        tensile_branch=${2}
+        tensile_tag=${2}
         shift 2 ;;
     -t|--test_local_path)
         tensile_test_local_path=${2}
@@ -267,6 +279,9 @@ while true; do
     --cuda)
         build_cuda=true
         shift ;;
+    --cpu_ref_lib)
+        cpu_ref_lib=${2}
+        shift 2 ;;
     --hip-clang)
         build_hip_clang=true
         shift ;;
@@ -280,6 +295,15 @@ while true; do
   esac
 done
 
+if [[ "${cpu_ref_lib}" == blis ]]; then
+  LINK_BLIS=true
+elif [[ "${cpu_ref_lib}" == lapack ]]; then
+  LINK_BLIS=false
+else
+  echo "Currently the only CPU library options are blis and lapack"
+      exit 2
+fi
+
 build_dir=./build
 printf "\033[32mCreating project build directory in: \033[33m${build_dir}\033[0m\n"
 
@@ -313,10 +337,25 @@ if [[ "${install_dependencies}" == true ]]; then
   pushd .
     printf "\033[32mBuilding \033[33mgoogletest & lapack\033[32m from source; installing into \033[33m/usr/local\033[0m\n"
     mkdir -p ${build_dir}/deps && cd ${build_dir}/deps
-    ${cmake_executable} -DBUILD_BOOST=OFF ../../deps
+    ${cmake_executable} -lpthread -DBUILD_BOOST=OFF ../../deps
     make -j$(nproc)
     elevate_if_not_root make install
   popd
+
+fi
+
+if [[ "${cpu_ref_lib}" == blis ]] && [[ ! -f "${build_dir}/deps/blis/lib/libblis.so" ]]; then
+  git submodule update --init
+  cd extern/blis
+  if [[ -e "/etc/redhat-release" ]]; then  
+    echo 'CentOS detected'
+    ./configure --prefix=../../${build_dir}/deps/blis --enable-threading=openmp auto
+  else
+    echo 'Ubuntu detected'
+     ./configure --prefix=../../${build_dir}/deps/blis --enable-threading=openmp CC=/opt/rocm/hcc/bin/clang auto
+  fi
+  make install
+  cd ../..
 fi
 
 # We append customary rocm path; if user provides custom rocm path in ${path}, our
@@ -329,7 +368,9 @@ pushd .
   # #################################################
   cmake_common_options=""
   cmake_client_options=""
-  cmake_common_options="${cmake_common_options} -DTensile_LOGIC=${tensile_logic} -DTensile_CODE_OBJECT_VERSION=${tensile_cov}"
+
+  cmake_common_options="${cmake_common_options} -lpthread -DTensile_LOGIC=${tensile_logic} -DTensile_CODE_OBJECT_VERSION=${tensile_cov}"
+  cmake_client_options="-DLINK_BLIS=${LINK_BLIS}"
 
   # build type
   if [[ "${build_release}" == true ]]; then
@@ -344,14 +385,21 @@ pushd .
     cmake_common_options="${cmake_common_options} -Dtensile_fork=${tensile_fork}"
   fi
 
-  if [[ -n "${tensile_branch}" ]]; then
-    cmake_common_options="${cmake_common_options} -Dtensile_branch=${tensile_branch}"
+  if [[ -n "${tensile_tag}" ]]; then
+    cmake_common_options="${cmake_common_options} -Dtensile_tag=${tensile_tag}"
   fi
 
   if [[ -n "${tensile_test_local_path}" ]]; then
     cmake_common_options="${cmake_common_options} -DTensile_TEST_LOCAL_PATH=${tensile_test_local_path}"
   fi
 
+
+case "${ID}" in
+  centos|rhel)
+  cmake_common_options="${cmake_common_options} -DCMAKE_FIND_ROOT_PATH=/usr/lib64/llvm7.0/lib/cmake/"
+  ;;
+esac
+
   # clients
   if [[ "${build_clients}" == true ]]; then
     cmake_client_options="${cmake_client_options} -DBUILD_CLIENTS_SAMPLES=ON -DBUILD_CLIENTS_TESTS=ON -DBUILD_CLIENTS_BENCHMARKS=ON"
@@ -371,10 +419,10 @@ pushd .
   else
     CXX=${compiler} ${cmake_executable} ${cmake_common_options} -DCPACK_SET_DESTDIR=OFF -DCMAKE_INSTALL_PREFIX=rocblas-install -DCPACK_PACKAGING_INSTALL_PREFIX=/opt/rocm ../..
   fi
-  check_exit_code
+  check_exit_code "$?"
 
   make -j$(nproc) install
-  check_exit_code
+  check_exit_code "$?"
 
   # #################################################
   # install
@@ -382,7 +430,7 @@ pushd .
   # installing through package manager, which makes uninstalling easy
   if [[ "${install_package}" == true ]]; then
     make package
-    check_exit_code
+    check_exit_code "$?"
 
     case "${ID}" in
       ubuntu)
diff --git a/library/CMakeLists.txt b/library/CMakeLists.txt
index 5d7822659..62586c224 100755
--- a/library/CMakeLists.txt
+++ b/library/CMakeLists.txt
@@ -21,6 +21,9 @@ function( target_compile_features target_name )
   endif( )
 endfunction( )
 
+set(THREADS_PREFER_PTHREAD_FLAG ON)
+find_package(Threads REQUIRED)
+
 # ########################################################################
 # target_link_libraries() override
 # ########################################################################
diff --git a/library/include/rocblas-complex-types.h b/library/include/rocblas-complex-types.h
index 53e84903d..174b8ebb5 100644
--- a/library/include/rocblas-complex-types.h
+++ b/library/include/rocblas-complex-types.h
@@ -297,7 +297,7 @@ class rocblas_complex_num
     template <typename U, typename std::enable_if<std::is_convertible<U, T>{}, int>::type = 0>
     friend __device__ __host__ bool operator==(const U& lhs, const rocblas_complex_num& rhs)
     {
-        return T(lhs) == rhs.x && 00 == rhs.y;
+        return T(lhs) == rhs.x && 0 == rhs.y;
     }
 
     template <typename U, typename std::enable_if<std::is_convertible<U, T>{}, int>::type = 0>
diff --git a/library/include/rocblas-functions.h b/library/include/rocblas-functions.h
index 833c8e652..c0ff59c31 100644
--- a/library/include/rocblas-functions.h
+++ b/library/include/rocblas-functions.h
@@ -209,6 +209,22 @@ ROCBLAS_EXPORT rocblas_status rocblas_ddot(rocblas_handle handle,
                                            rocblas_int    incy,
                                            double*        result);
 
+ROCBLAS_EXPORT rocblas_status rocblas_hdot(rocblas_handle      handle,
+                                           rocblas_int         n,
+                                           const rocblas_half* x,
+                                           rocblas_int         incx,
+                                           const rocblas_half* y,
+                                           rocblas_int         incy,
+                                           rocblas_half*       result);
+
+ROCBLAS_EXPORT rocblas_status rocblas_bfdot(rocblas_handle          handle,
+                                            rocblas_int             n,
+                                            const rocblas_bfloat16* x,
+                                            rocblas_int             incx,
+                                            const rocblas_bfloat16* y,
+                                            rocblas_int             incy,
+                                            rocblas_bfloat16*       result);
+
 ROCBLAS_EXPORT rocblas_status rocblas_cdotu(rocblas_handle               handle,
                                             rocblas_int                  n,
                                             const rocblas_float_complex* x,
@@ -515,6 +531,223 @@ ROCBLAS_EXPORT rocblas_status rocblas_izamin(rocblas_handle                handl
                                              rocblas_int                   incx,
                                              rocblas_int*                  result);
 
+/*! \brief BLAS Level 1 API
+
+    \details
+    rot applies the Givens rotation matrix defined by c=cos(alpha) and s=sin(alpha) to vectors x and y.
+        Scalars c and s may be stored in either host or device memory, location is specified by calling rocblas_set_pointer_mode.
+    
+    @param[in]
+    handle  rocblas_handle
+            handle to the rocblas library context queue.
+    @param[in]
+    n       rocblas_int
+            number of elements in the x and y vectors.
+    @param[inout]
+    x       pointer storing vector x on the GPU.
+    @param[in]
+    incx    rocblas_int
+            specifies the increment between elements of x.
+    @param[inout]
+    y       pointer storing vector y on the GPU.
+    @param[in]
+    incy    rocblas_int
+            specifies the increment between elements of y.
+    @param[in]
+    c       scalar cosine component of the rotation matrix, may be stored in host or device memory.
+    @param[in]
+    s       scalar sine component of the rotation matrix, may be stored in host or device memory.
+
+    ********************************************************************/
+
+ROCBLAS_EXPORT rocblas_status rocblas_srot(rocblas_handle handle,
+                                           rocblas_int    n,
+                                           float*         x,
+                                           rocblas_int    incx,
+                                           float*         y,
+                                           rocblas_int    incy,
+                                           const float*   c,
+                                           const float*   s);
+
+ROCBLAS_EXPORT rocblas_status rocblas_drot(rocblas_handle handle,
+                                           rocblas_int    n,
+                                           double*        x,
+                                           rocblas_int    incx,
+                                           double*        y,
+                                           rocblas_int    incy,
+                                           const double*  c,
+                                           const double*  s);
+
+ROCBLAS_EXPORT rocblas_status rocblas_crot(rocblas_handle               handle,
+                                           rocblas_int                  n,
+                                           rocblas_float_complex*       x,
+                                           rocblas_int                  incx,
+                                           rocblas_float_complex*       y,
+                                           rocblas_int                  incy,
+                                           const float*                 c,
+                                           const rocblas_float_complex* s);
+
+ROCBLAS_EXPORT rocblas_status rocblas_csrot(rocblas_handle         handle,
+                                            rocblas_int            n,
+                                            rocblas_float_complex* x,
+                                            rocblas_int            incx,
+                                            rocblas_float_complex* y,
+                                            rocblas_int            incy,
+                                            const float*           c,
+                                            const float*           s);
+
+ROCBLAS_EXPORT rocblas_status rocblas_zrot(rocblas_handle                handle,
+                                           rocblas_int                   n,
+                                           rocblas_double_complex*       x,
+                                           rocblas_int                   incx,
+                                           rocblas_double_complex*       y,
+                                           rocblas_int                   incy,
+                                           const double*                 c,
+                                           const rocblas_double_complex* s);
+
+ROCBLAS_EXPORT rocblas_status rocblas_zdrot(rocblas_handle          handle,
+                                            rocblas_int             n,
+                                            rocblas_double_complex* x,
+                                            rocblas_int             incx,
+                                            rocblas_double_complex* y,
+                                            rocblas_int             incy,
+                                            const double*           c,
+                                            const double*           s);
+
+/*! \brief BLAS Level 1 API
+
+    \details
+    rotg creates the Givens rotation matrix for the vector (a b).
+         Scalars c and s may be stored in either host or device memory, location is specified by calling rocblas_set_pointer_mode.
+         If the pointer mode is set to rocblas_pointer_mode_host, this function blocks the CPU until the GPU has finished and the results are available in host memory.
+         If the pointer mode is set to rocblas_pointer_mode_device, this function returns immediately and synchronization is required to read the results.
+    
+    @param[in]
+    handle  rocblas_handle
+            handle to the rocblas library context queue.
+    @param[inout]
+    a       input vector element, overwritten with r.
+    @param[inout]
+    b       input vector element, overwritten with z.
+    @param[inout]
+    c       cosine element of Givens rotation.
+    @param[inout]
+    s       sine element of Givens rotation.
+
+    ********************************************************************/
+
+ROCBLAS_EXPORT rocblas_status
+    rocblas_srotg(rocblas_handle handle, float* a, float* b, float* c, float* s);
+
+ROCBLAS_EXPORT rocblas_status
+    rocblas_drotg(rocblas_handle handle, double* a, double* b, double* c, double* s);
+
+ROCBLAS_EXPORT rocblas_status rocblas_crotg(rocblas_handle         handle,
+                                            rocblas_float_complex* a,
+                                            rocblas_float_complex* b,
+                                            float*                 c,
+                                            rocblas_float_complex* s);
+
+ROCBLAS_EXPORT rocblas_status rocblas_zrotg(rocblas_handle          handle,
+                                            rocblas_double_complex* a,
+                                            rocblas_double_complex* b,
+                                            double*                 c,
+                                            rocblas_double_complex* s);
+
+/*! \brief BLAS Level 1 API
+
+    \details
+    rotm applies the modified Givens rotation matrix defined by param to vectors x and y.
+    
+    @param[in]
+    handle  rocblas_handle
+            handle to the rocblas library context queue.
+    @param[in]
+    n       rocblas_int
+            number of elements in the x and y vectors.
+    @param[inout]
+    x       pointer storing vector x on the GPU.
+    @param[in]
+    incx    rocblas_int
+            specifies the increment between elements of x.
+    @param[inout]
+    y       pointer storing vector y on the GPU.
+    @param[in]
+    incy    rocblas_int
+            specifies the increment between elements of y.
+    @param[in]
+    param   vector of 5 elements defining the rotation.
+            param[0] = flag
+            param[1] = H11
+            param[2] = H21
+            param[3] = H12
+            param[4] = H22
+            The flag parameter defines the form of H:
+            flag = -1 => H = ( H11 H12 H21 H22 )
+            flag =  0 => H = ( 1.0 H12 H21 1.0 )
+            flag =  1 => H = ( H11 1.0 -1.0 H22 )
+            flag = -2 => H = ( 1.0 0.0 0.0 1.0 )
+            param may be stored in either host or device memory, location is specified by calling rocblas_set_pointer_mode.
+
+    ********************************************************************/
+
+ROCBLAS_EXPORT rocblas_status rocblas_srotm(rocblas_handle handle,
+                                            rocblas_int    n,
+                                            float*         x,
+                                            rocblas_int    incx,
+                                            float*         y,
+                                            rocblas_int    incy,
+                                            const float*   param);
+
+ROCBLAS_EXPORT rocblas_status rocblas_drotm(rocblas_handle handle,
+                                            rocblas_int    n,
+                                            double*        x,
+                                            rocblas_int    incx,
+                                            double*        y,
+                                            rocblas_int    incy,
+                                            const double*  param);
+
+/*! \brief BLAS Level 1 API
+
+    \details
+    rotmg creates the modified Givens rotation matrix for the vector (d1 * x1, d2 * y1).
+          Parameters may be stored in either host or device memory, location is specified by calling rocblas_set_pointer_mode.
+          If the pointer mode is set to rocblas_pointer_mode_host, this function blocks the CPU until the GPU has finished and the results are available in host memory.
+          If the pointer mode is set to rocblas_pointer_mode_device, this function returns immediately and synchronization is required to read the results.
+    
+    @param[in]
+    handle  rocblas_handle
+            handle to the rocblas library context queue.
+    @param[inout]
+    d1      input scalar that is overwritten.
+    @param[inout]
+    d2      input scalar that is overwritten.
+    @param[inout]
+    x1      input scalar that is overwritten.
+    @param[in]
+    y1      input scalar.
+    @param[out]
+    param   vector of 5 elements defining the rotation.
+            param[0] = flag
+            param[1] = H11
+            param[2] = H21
+            param[3] = H12
+            param[4] = H22
+            The flag parameter defines the form of H:
+            flag = -1 => H = ( H11 H12 H21 H22 )
+            flag =  0 => H = ( 1.0 H12 H21 1.0 )
+            flag =  1 => H = ( H11 1.0 -1.0 H22 )
+            flag = -2 => H = ( 1.0 0.0 0.0 1.0 )
+            param may be stored in either host or device memory, location is specified by calling rocblas_set_pointer_mode.
+
+    ********************************************************************/
+
+ROCBLAS_EXPORT rocblas_status rocblas_srotmg(
+    rocblas_handle handle, float* d1, float* d2, float* x1, const float* y1, float* param);
+
+ROCBLAS_EXPORT rocblas_status rocblas_drotmg(
+    rocblas_handle handle, double* d1, double* d2, double* x1, const double* y1, double* param);
+
 /*
  * ===========================================================================
  *    level 2 BLAS
@@ -1064,6 +1297,153 @@ ROCBLAS_EXPORT rocblas_status rocblas_dger(rocblas_handle handle,
                                            double*        A,
                                            rocblas_int    lda);
 
+/*! \brief BLAS Level 2 API 
+
+    \details
+    xGER_BATCHED performs a batch of the matrix-vector operations
+
+        A_i := A_i + alpha*x_i*y_i**T
+
+    where (A_i, x_i, y_i) is the i-th instance of the batch.
+    alpha is a scalar, x_i and y_i are vectors and A_i is an
+    m by n matrix.
+
+    @param[in]
+    handle    rocblas_handle.
+              handle to the rocblas library context queue.
+    @param[in]
+    m         rocblas_int
+    @param[in]
+    n         rocblas_int
+    @param[in]
+    alpha
+              specifies the scalar alpha.
+    @param[in]
+    x         array of pointers storing the different vectors x_i on the GPU.
+    @param[in]
+    incx      rocblas_int
+              specifies the increment for the elements of vectors x_i.
+    @param[in]
+    y         array of pointesr storing the different vectors y_i on the GPU.
+    @param[in]
+    incy      rocblas_int
+              specifies the increment for the elements of vectors y_i.
+    @param[inout]
+    A         array of pointers storing the different matrices A_i on the GPU.
+    @param[in]
+    lda       rocblas_int
+              specifies the leading dimension of A.
+    @param[in]
+    batch_count rocblas_int
+                number of instances in the batch
+
+    ********************************************************************/
+
+ROCBLAS_EXPORT rocblas_status rocblas_sger_batched(rocblas_handle     handle,
+                                                   rocblas_int        m,
+                                                   rocblas_int        n,
+                                                   const float*       alpha,
+                                                   const float* const x[],
+                                                   rocblas_int        incx,
+                                                   const float* const y[],
+                                                   rocblas_int        incy,
+                                                   float* const       A[],
+                                                   rocblas_int        lda,
+                                                   rocblas_int        batch_count);
+
+ROCBLAS_EXPORT rocblas_status rocblas_dger_batched(rocblas_handle      handle,
+                                                   rocblas_int         m,
+                                                   rocblas_int         n,
+                                                   const double*       alpha,
+                                                   const double* const x[],
+                                                   rocblas_int         incx,
+                                                   const double* const y[],
+                                                   rocblas_int         incy,
+                                                   double* const       A[],
+                                                   rocblas_int         lda,
+                                                   rocblas_int         batch_count);
+
+/*! \brief BLAS Level 2 API
+
+    \details
+    xGER_STRIDED_BATCHED performs the matrix-vector operations
+
+        A_i := A_i + alpha*x_i*y_i**T
+
+    where (A_i, x_i, y_i) is the i-th instance of the batch.
+    alpha is a scalar, x_i and y_i are vectors and A_i is an
+    m by n matrix.
+
+    @param[in]
+    handle    rocblas_handle.
+              handle to the rocblas library context queue.
+    @param[in]
+    m         rocblas_int
+    @param[in]
+    n         rocblas_int
+    @param[in]
+    alpha
+              specifies the scalar alpha.
+    @param[in]
+    x         pointer to the first vector (x_0) in the batch stored on the GPU.
+    @param[in]
+    incx      rocblas_int
+              specifies the increments for the elements of vectors x_i.
+    @param[in]
+    stridex     rocblas_int
+                stride form the start of one vector (x_i) and the next one (x_i+1)
+    @param[in]
+    y         pointer to the first vector (y_0) in the batch stored on the GPU.
+    @param[in]
+    incy      rocblas_int
+              specifies the increment for the elements of vectors y_i.
+    @param[in]
+    stridey     rocblas_int
+                stride from the start of one vector (y_i) and the next one (y_i+1)
+    @param[inout]
+    A         pointer to the first matrix (A_0) in the batch stored on the GPU.
+    @param[in]
+    lda       rocblas_int
+              specifies the leading dimension of A.
+    @param[in]
+    strideA     rocblas_int
+                stride from the start of one matrix (A_i) and the next one (A_i+1)
+    @param[in]
+    batch_count rocblas_int
+                number of instances in the batch
+
+    ********************************************************************/
+
+ROCBLAS_EXPORT rocblas_status rocblas_sger_strided_batched(rocblas_handle handle,
+                                                           rocblas_int    m,
+                                                           rocblas_int    n,
+                                                           const float*   alpha,
+                                                           const float*   x,
+                                                           rocblas_int    incx,
+                                                           rocblas_int    stridex,
+                                                           const float*   y,
+                                                           rocblas_int    incy,
+                                                           rocblas_int    stridey,
+                                                           float*         A,
+                                                           rocblas_int    lda,
+                                                           rocblas_int    strideA,
+                                                           rocblas_int    batch_count);
+
+ROCBLAS_EXPORT rocblas_status rocblas_dger_strided_batched(rocblas_handle handle,
+                                                           rocblas_int    m,
+                                                           rocblas_int    n,
+                                                           const double*  alpha,
+                                                           const double*  x,
+                                                           rocblas_int    incx,
+                                                           rocblas_int    stridex,
+                                                           const double*  y,
+                                                           rocblas_int    incy,
+                                                           rocblas_int    stridey,
+                                                           double*        A,
+                                                           rocblas_int    lda,
+                                                           rocblas_int    strideA,
+                                                           rocblas_int    batch_count);
+
 /* not implemented
 ROCBLAS_EXPORT rocblas_status
 rocblas_cger(rocblas_handle handle,
@@ -1504,29 +1884,35 @@ rocblas_qgemm(
           rocblas_half_complex *C, rocblas_int ldc);
 */
 
-/* not implemented
-ROCBLAS_EXPORT rocblas_status
-rocblas_cgemm(
-    rocblas_handle handle,
-    rocblas_operation transa, rocblas_operation transb,
-    rocblas_int m, rocblas_int n, rocblas_int k,
-    const rocblas_float_complex *alpha,
-    const rocblas_float_complex *A, rocblas_int lda,
-    const rocblas_float_complex *B, rocblas_int ldb,
-    const rocblas_float_complex *beta,
-          rocblas_float_complex *C, rocblas_int ldc);
+ROCBLAS_EXPORT rocblas_status rocblas_cgemm(rocblas_handle               handle,
+                                            rocblas_operation            transa,
+                                            rocblas_operation            transb,
+                                            rocblas_int                  m,
+                                            rocblas_int                  n,
+                                            rocblas_int                  k,
+                                            const rocblas_float_complex* alpha,
+                                            const rocblas_float_complex* A,
+                                            rocblas_int                  lda,
+                                            const rocblas_float_complex* B,
+                                            rocblas_int                  ldb,
+                                            const rocblas_float_complex* beta,
+                                            rocblas_float_complex*       C,
+                                            rocblas_int                  ldc);
 
-ROCBLAS_EXPORT rocblas_status
-rocblas_zgemm(
-    rocblas_handle handle,
-    rocblas_operation transa, rocblas_operation transb,
-    rocblas_int m, rocblas_int n, rocblas_int k,
-    const rocblas_double_complex *alpha,
-    const rocblas_double_complex *A, rocblas_int lda,
-    const rocblas_double_complex *B, rocblas_int ldb,
-    const rocblas_double_complex *beta,
-          rocblas_double_complex *C, rocblas_int ldc);
-*/
+ROCBLAS_EXPORT rocblas_status rocblas_zgemm(rocblas_handle                handle,
+                                            rocblas_operation             transa,
+                                            rocblas_operation             transb,
+                                            rocblas_int                   m,
+                                            rocblas_int                   n,
+                                            rocblas_int                   k,
+                                            const rocblas_double_complex* alpha,
+                                            const rocblas_double_complex* A,
+                                            rocblas_int                   lda,
+                                            const rocblas_double_complex* B,
+                                            rocblas_int                   ldb,
+                                            const rocblas_double_complex* beta,
+                                            rocblas_double_complex*       C,
+                                            rocblas_int                   ldc);
 
 /***************************************************************************
  * batched
@@ -1736,31 +2122,43 @@ rocblas_qgemm_strided_batched(
     rocblas_int batch_count );
 */
 
-/* not implemented
-ROCBLAS_EXPORT rocblas_status
-rocblas_cgemm_strided_batched(
-    rocblas_handle handle,
-    rocblas_operation transa, rocblas_operation transb,
-    rocblas_int m, rocblas_int n, rocblas_int k,
-    const rocblas_float_complex *alpha,
-    const rocblas_float_complex *A, rocblas_int lda, rocblas_int stride_a,
-    const rocblas_float_complex *B, rocblas_int ldb, rocblas_int stride_b,
-    const rocblas_float_complex *beta,
-          rocblas_float_complex *C, rocblas_int ldc, rocblas_int stride_c,
-    rocblas_int batch_count );
+ROCBLAS_EXPORT rocblas_status rocblas_cgemm_strided_batched(rocblas_handle               handle,
+                                                            rocblas_operation            transa,
+                                                            rocblas_operation            transb,
+                                                            rocblas_int                  m,
+                                                            rocblas_int                  n,
+                                                            rocblas_int                  k,
+                                                            const rocblas_float_complex* alpha,
+                                                            const rocblas_float_complex* A,
+                                                            rocblas_int                  lda,
+                                                            rocblas_int                  stride_a,
+                                                            const rocblas_float_complex* B,
+                                                            rocblas_int                  ldb,
+                                                            rocblas_int                  stride_b,
+                                                            const rocblas_float_complex* beta,
+                                                            rocblas_float_complex*       C,
+                                                            rocblas_int                  ldc,
+                                                            rocblas_int                  stride_c,
+                                                            rocblas_int batch_count);
 
-ROCBLAS_EXPORT rocblas_status
-rocblas_zgemm_strided_batched(
-    rocblas_handle handle,
-    rocblas_operation transa, rocblas_operation transb,
-    rocblas_int m, rocblas_int n, rocblas_int k,
-    const rocblas_double_complex *alpha,
-    const rocblas_double_complex *A, rocblas_int lda, rocblas_int stride_a,
-    const rocblas_double_complex *B, rocblas_int ldb, rocblas_int stride_b,
-    const rocblas_double_complex *beta,
-          rocblas_double_complex *C, rocblas_int ldc, rocblas_int stride_c,
-    rocblas_int batch_count );
-*/
+ROCBLAS_EXPORT rocblas_status rocblas_zgemm_strided_batched(rocblas_handle                handle,
+                                                            rocblas_operation             transa,
+                                                            rocblas_operation             transb,
+                                                            rocblas_int                   m,
+                                                            rocblas_int                   n,
+                                                            rocblas_int                   k,
+                                                            const rocblas_double_complex* alpha,
+                                                            const rocblas_double_complex* A,
+                                                            rocblas_int                   lda,
+                                                            rocblas_int                   stride_a,
+                                                            const rocblas_double_complex* B,
+                                                            rocblas_int                   ldb,
+                                                            rocblas_int                   stride_b,
+                                                            const rocblas_double_complex* beta,
+                                                            rocblas_double_complex*       C,
+                                                            rocblas_int                   ldc,
+                                                            rocblas_int                   stride_c,
+                                                            rocblas_int batch_count);
 
 /*! \brief BLAS Level 3 API
 
@@ -1873,6 +2271,8 @@ ROCBLAS_EXPORT rocblas_status rocblas_dgeam(rocblas_handle    handle,
    compute_type
         - rocblas_datatype_i8_r = a_type = b_type; rocblas_datatype_i32_r = c_type = d_type =
    compute_type
+        - rocblas_datatype_f32_c  = a_type = b_type = c_type = d_type = compute_type
+        - rocblas_datatype_f64_c  = a_type = b_type = c_type = d_type = compute_type
 
     Below are restrictions for rocblas_datatype_i8_r = a_type = b_type; rocblas_datatype_i32_r =
    c_type = d_type = compute_type:
@@ -2109,6 +2509,8 @@ ROCBLAS_EXPORT rocblas_status rocblas_gemm_ex(rocblas_handle    handle,
    compute_type
         - rocblas_datatype_i8_r = a_type = b_type; rocblas_datatype_i32_r = c_type = d_type =
    compute_type
+        - rocblas_datatype_f32_c  = a_type = b_type = c_type = d_type = compute_type
+        - rocblas_datatype_f64_c  = a_type = b_type = c_type = d_type = compute_type
 
     Below are restrictions for rocblas_datatype_i8_r = a_type = b_type; rocblas_datatype_i32_r =
    c_type = d_type = compute_type:
diff --git a/library/include/rocblas_bfloat16.h b/library/include/rocblas_bfloat16.h
index 8037fa26b..eb3987adb 100644
--- a/library/include/rocblas_bfloat16.h
+++ b/library/include/rocblas_bfloat16.h
@@ -63,7 +63,7 @@ struct rocblas_bfloat16
     }
 
     // zero extend lower 16 bits of bfloat16 to convert to IEEE float
-    explicit constexpr __host__ __device__ operator float() const
+    constexpr __host__ __device__ operator float() const
     {
         union
         {
@@ -235,11 +235,6 @@ constexpr __host__ __device__ bool iszero(rocblas_bfloat16 a)
 {
     return !(a.data & 0x7fff);
 }
-constexpr __host__ __device__ rocblas_bfloat16 abs(rocblas_bfloat16 a)
-{
-    a.data &= 0x7fff;
-    return a;
-}
 inline rocblas_bfloat16 sin(rocblas_bfloat16 a)
 {
     return rocblas_bfloat16(sinf(float(a)));
diff --git a/library/src/CMakeLists.txt b/library/src/CMakeLists.txt
index e9f48c91b..81f8bb6d2 100755
--- a/library/src/CMakeLists.txt
+++ b/library/src/CMakeLists.txt
@@ -23,6 +23,9 @@ endfunction( )
 # package_targets is used as a list of install target
 set( package_targets rocblas )
 
+set(THREADS_PREFER_PTHREAD_FLAG ON)
+find_package(Threads REQUIRED)
+
 # Set up Tensile  Dependency
 if( BUILD_WITH_TENSILE )
   # If we want to build a shared rocblas lib, force Tensile to build as a static lib to absorb into rocblas
@@ -33,9 +36,6 @@ if( BUILD_WITH_TENSILE )
     list( APPEND package_targets Tensile )
   endif( )
 
-  # HACK: We include the config file directly because find_package(Tensile) is broken
-  include( ${Tensile_TensileConfig} )
-
   set( Tensile_RUNTIME_LANGUAGE "HIP" )
   message( STATUS "AMDGPU_TARGETS=${AMDGPU_TARGETS}" )
   TensileCreateLibraryCmake(
@@ -46,8 +46,7 @@ if( BUILD_WITH_TENSILE )
       ${Tensile_MERGE_FILES}
       ${Tensile_SHORT_FILENAMES}
       ${Tensile_PRINT_DEBUG}
-      Tensile_ROOT ${Tensile_ROOT}
-  )
+   )
 
   # Create a unique name for Tensile compiled for rocBLAS
   set_target_properties( Tensile PROPERTIES OUTPUT_NAME tensile-rocblas CXX_EXTENSIONS NO )
@@ -107,6 +106,8 @@ set( rocblas_blas2_source
   blas2/rocblas_gemv_strided_batched.cpp
   blas2/rocblas_trsv.cpp
   blas2/rocblas_ger.cpp
+  blas2/rocblas_ger_batched.cpp
+  blas2/rocblas_ger_strided_batched.cpp
   blas2/rocblas_syr.cpp
 )
 
@@ -120,6 +121,10 @@ set( rocblas_blas1_source
   blas1/rocblas_nrm2.cpp
   blas1/rocblas_scal.cpp
   blas1/rocblas_swap.cpp
+  blas1/rocblas_rot.cpp
+  blas1/rocblas_rotg.cpp
+  blas1/rocblas_rotm.cpp
+  blas1/rocblas_rotmg.cpp
 )
 
 prepend_path( ".." rocblas_headers_public relative_rocblas_headers_public )
@@ -211,5 +216,5 @@ add_custom_command(
   TARGET rocblas
   POST_BUILD
   COMMAND ${CMAKE_HOME_DIRECTORY}/header_compilation_tests.sh
-  WORKING_DIRECTORY ${CMAKE_HOME_DIRECTORY}
- )
+  WORKING_DIRECTORY ${CMAKE_BINARY_DIR}
+)
diff --git a/library/src/blas1/reduction.h b/library/src/blas1/reduction.h
index 32a62ab60..a9a4589f1 100644
--- a/library/src/blas1/reduction.h
+++ b/library/src/blas1/reduction.h
@@ -215,7 +215,7 @@ __global__ void rocblas_reduction_kernel_part2(rocblas_int nblocks, To* workspac
 
     // Store result on device or in workspace
     if(tx == 0)
-        *result = FINALIZE{}(tmp[0]);
+        *result = Tr(FINALIZE{}(tmp[0]));
 }
 
 // At least two kernels are needed to finish the reduction
diff --git a/library/src/blas1/rocblas_dot.cpp b/library/src/blas1/rocblas_dot.cpp
index 1dcb2c00f..8ef551fee 100644
--- a/library/src/blas1/rocblas_dot.cpp
+++ b/library/src/blas1/rocblas_dot.cpp
@@ -13,20 +13,20 @@ namespace
     // setting to 512 for gfx803.
     constexpr int NB = 512;
 
-    template <bool CONJ, typename T>
+    template <bool CONJ, typename T, typename T2 = T>
     __global__ void dot_kernel_part1(
-        rocblas_int n, const T* x, rocblas_int incx, const T* y, rocblas_int incy, T* workspace)
+        rocblas_int n, const T* x, rocblas_int incx, const T* y, rocblas_int incy, T2* workspace)
     {
         ptrdiff_t tx  = hipThreadIdx_x;
         ptrdiff_t tid = hipBlockIdx_x * hipBlockDim_x + tx;
 
-        __shared__ T tmp[NB];
+        __shared__ T2 tmp[NB];
 
         // bound
         if(tid < n)
-            tmp[tx] = y[tid * incy] * (CONJ ? conj(x[tid * incx]) : x[tid * incx]);
+            tmp[tx] = T2(y[tid * incy]) * T2(CONJ ? conj(x[tid * incx]) : x[tid * incx]);
         else
-            tmp[tx] = T(0); // pad with zero
+            tmp[tx] = T2(0); // pad with zero
 
         rocblas_sum_reduce<NB>(tx, tmp);
 
@@ -36,7 +36,7 @@ namespace
 
     // assume workspace has already been allocated, recommened for repeated calling of dot product
     // routine
-    template <bool CONJ, typename T>
+    template <bool CONJ, typename T, typename T2 = T>
     rocblas_status rocblas_dot_workspace(rocblas_handle __restrict__ handle,
                                          rocblas_int n,
                                          const T*    x,
@@ -44,7 +44,7 @@ namespace
                                          const T*    y,
                                          rocblas_int incy,
                                          T*          result,
-                                         T*          workspace,
+                                         T2*         workspace,
                                          rocblas_int blocks)
     {
         // At least two kernels are needed to finish the reduction
@@ -73,18 +73,33 @@ namespace
                            incy,
                            workspace);
 
-        hipLaunchKernelGGL(rocblas_reduction_kernel_part2<NB>,
-                           1,
-                           threads,
-                           0,
-                           handle->rocblas_stream,
-                           blocks,
-                           workspace,
-                           handle->pointer_mode != rocblas_pointer_mode_device ? workspace
-                                                                               : result);
-        if(handle->pointer_mode != rocblas_pointer_mode_device)
+        if(handle->pointer_mode == rocblas_pointer_mode_device)
+        {
+            hipLaunchKernelGGL(rocblas_reduction_kernel_part2<NB>,
+                               1,
+                               threads,
+                               0,
+                               handle->rocblas_stream,
+                               blocks,
+                               workspace,
+                               result);
+        }
+        else
+        {
+            hipLaunchKernelGGL(rocblas_reduction_kernel_part2<NB>,
+                               1,
+                               threads,
+                               0,
+                               handle->rocblas_stream,
+                               blocks,
+                               workspace,
+                               workspace);
+
+            T2 res_T2;
             RETURN_IF_HIP_ERROR(
-                hipMemcpy(result, workspace, sizeof(*result), hipMemcpyDeviceToHost));
+                hipMemcpy(&res_T2, workspace, sizeof(res_T2), hipMemcpyDeviceToHost));
+            *result = T(res_T2);
+        }
 
         return rocblas_status_success;
     }
@@ -95,6 +110,10 @@ namespace
     constexpr char rocblas_dot_name<CONJ, float>[] = "rocblas_sdot";
     template <bool CONJ>
     constexpr char rocblas_dot_name<CONJ, double>[] = "rocblas_ddot";
+    template <bool CONJ>
+    constexpr char rocblas_dot_name<CONJ, rocblas_half>[] = "rocblas_hdot";
+    template <bool CONJ>
+    constexpr char rocblas_dot_name<CONJ, rocblas_bfloat16>[] = "rocblas_bfdot";
     template <>
     constexpr char rocblas_dot_name<true, rocblas_float_complex>[] = "rocblas_cdotc";
     template <>
@@ -105,7 +124,7 @@ namespace
     constexpr char rocblas_dot_name<false, rocblas_double_complex>[] = "rocblas_zdotu";
 
     // allocate workspace inside this API
-    template <bool CONJ, typename T>
+    template <bool CONJ, typename T, typename T2 = T>
     rocblas_status rocblas_dot(rocblas_handle handle,
                                rocblas_int    n,
                                const T*       x,
@@ -152,13 +171,13 @@ namespace
 
         auto blocks = (n - 1) / NB + 1;
         if(handle->is_device_memory_size_query())
-            return handle->set_optimal_device_memory_size(sizeof(T) * blocks);
+            return handle->set_optimal_device_memory_size(sizeof(T2) * blocks);
 
-        auto mem = handle->device_malloc(sizeof(T) * blocks);
+        auto mem = handle->device_malloc(sizeof(T2) * blocks);
         if(!mem)
             return rocblas_status_memory_error;
 
-        return rocblas_dot_workspace<CONJ>(handle, n, x, incx, y, incy, result, (T*)mem, blocks);
+        return rocblas_dot_workspace<CONJ>(handle, n, x, incx, y, incy, result, (T2*)mem, blocks);
     }
 
 } // namespace
@@ -193,6 +212,29 @@ rocblas_status rocblas_ddot(rocblas_handle handle,
     return rocblas_dot<false>(handle, n, x, incx, y, incy, result);
 }
 
+rocblas_status rocblas_hdot(rocblas_handle      handle,
+                            rocblas_int         n,
+                            const rocblas_half* x,
+                            rocblas_int         incx,
+                            const rocblas_half* y,
+                            rocblas_int         incy,
+                            rocblas_half*       result)
+{
+    return rocblas_dot<false>(
+        handle, n, (const _Float16*)x, incx, (const _Float16*)y, incy, (_Float16*)result);
+}
+
+rocblas_status rocblas_bfdot(rocblas_handle          handle,
+                             rocblas_int             n,
+                             const rocblas_bfloat16* x,
+                             rocblas_int             incx,
+                             const rocblas_bfloat16* y,
+                             rocblas_int             incy,
+                             rocblas_bfloat16*       result)
+{
+    return rocblas_dot<false, rocblas_bfloat16, float>(handle, n, x, incx, y, incy, result);
+}
+
 rocblas_status rocblas_cdotu(rocblas_handle               handle,
                              rocblas_int                  n,
                              const rocblas_float_complex* x,
diff --git a/library/src/blas1/rocblas_rot.cpp b/library/src/blas1/rocblas_rot.cpp
new file mode 100644
index 000000000..ba4b18fb6
--- /dev/null
+++ b/library/src/blas1/rocblas_rot.cpp
@@ -0,0 +1,214 @@
+/* ************************************************************************
+ * Copyright 2016-2019 Advanced Micro Devices, Inc.
+ * ************************************************************************ */
+#include "handle.h"
+#include "logging.h"
+#include "rocblas.h"
+#include "utility.h"
+
+namespace
+{
+    constexpr int NB = 512;
+
+    template <typename T,
+              typename U,
+              typename V,
+              typename std::enable_if<!is_complex<V>, int>::type = 0>
+    __global__ void rot_kernel(rocblas_int n,
+                               T*          x,
+                               rocblas_int incx,
+                               T*          y,
+                               rocblas_int incy,
+                               U           c_device_host,
+                               V           s_device_host)
+    {
+        auto      c   = load_scalar(c_device_host);
+        auto      s   = load_scalar(s_device_host);
+        ptrdiff_t tid = hipBlockIdx_x * hipBlockDim_x + hipThreadIdx_x;
+
+        if(tid < n)
+        {
+            auto ix   = tid * incx;
+            auto iy   = tid * incy;
+            auto temp = c * x[ix] + s * y[iy];
+            y[iy]     = c * y[iy] - s * x[ix];
+            x[ix]     = temp;
+        }
+    }
+
+    template <typename T,
+              typename U,
+              typename V,
+              typename std::enable_if<is_complex<V>, int>::type = 0>
+    __global__ void rot_kernel(rocblas_int n,
+                               T*          x,
+                               rocblas_int incx,
+                               T*          y,
+                               rocblas_int incy,
+                               U           c_device_host,
+                               V           s_device_host)
+    {
+        auto      c   = load_scalar(c_device_host);
+        auto      s   = load_scalar(s_device_host);
+        ptrdiff_t tid = hipBlockIdx_x * hipBlockDim_x + hipThreadIdx_x;
+
+        if(tid < n)
+        {
+            auto ix   = tid * incx;
+            auto iy   = tid * incy;
+            auto temp = c * x[ix] + s * y[iy];
+            y[iy]     = c * y[iy] - conj(s) * x[ix];
+            x[ix]     = temp;
+        }
+    }
+
+    template <typename T, typename = T>
+    constexpr char rocblas_rot_name[] = "unknown";
+    template <>
+    constexpr char rocblas_rot_name<float>[] = "rocblas_srot";
+    template <>
+    constexpr char rocblas_rot_name<double>[] = "rocblas_drot";
+    template <>
+    constexpr char rocblas_rot_name<rocblas_float_complex>[] = "rocblas_crot";
+    template <>
+    constexpr char rocblas_rot_name<rocblas_double_complex>[] = "rocblas_zrot";
+    template <>
+    constexpr char rocblas_rot_name<rocblas_float_complex, float>[] = "rocblas_csrot";
+    template <>
+    constexpr char rocblas_rot_name<rocblas_double_complex, double>[] = "rocblas_zdrot";
+
+    template <class T, class U, class V>
+    rocblas_status rocblas_rot(rocblas_handle handle,
+                               rocblas_int    n,
+                               T*             x,
+                               rocblas_int    incx,
+                               T*             y,
+                               rocblas_int    incy,
+                               const U*       c,
+                               const V*       s)
+    {
+        if(!handle)
+            return rocblas_status_invalid_handle;
+
+        auto layer_mode = handle->layer_mode;
+        if(layer_mode & rocblas_layer_mode_log_trace)
+            log_trace(handle, rocblas_rot_name<T, V>, n, x, incx, y, incy, c, s);
+        if(layer_mode & rocblas_layer_mode_log_bench)
+            log_bench(handle,
+                      "./rocblas-bench -f rot -r",
+                      rocblas_precision_string<T>,
+                      "-n",
+                      n,
+                      "--incx",
+                      incx,
+                      "--incy",
+                      incy);
+        if(layer_mode & rocblas_layer_mode_log_profile)
+            log_profile(handle, rocblas_rot_name<T, V>, "N", n, "incx", incx, "incy", incy);
+
+        if(!x || !y || !c || !s)
+            return rocblas_status_invalid_pointer;
+
+        RETURN_ZERO_DEVICE_MEMORY_SIZE_IF_QUERIED(handle);
+
+        // Quick return if possible
+        if(n <= 0 || incx <= 0 || incy <= 0)
+            return rocblas_status_success;
+
+        dim3        blocks((n - 1) / NB + 1);
+        dim3        threads(NB);
+        hipStream_t rocblas_stream = handle->rocblas_stream;
+
+        if(rocblas_pointer_mode_device == handle->pointer_mode)
+            hipLaunchKernelGGL(
+                rot_kernel, blocks, threads, 0, rocblas_stream, n, x, incx, y, incy, c, s);
+        else // c and s are on host
+            hipLaunchKernelGGL(
+                rot_kernel, blocks, threads, 0, rocblas_stream, n, x, incx, y, incy, *c, *s);
+
+        return rocblas_status_success;
+    }
+
+} // namespace
+
+/*
+ * ===========================================================================
+ *    C wrapper
+ * ===========================================================================
+ */
+
+extern "C" {
+
+rocblas_status rocblas_srot(rocblas_handle handle,
+                            rocblas_int    n,
+                            float*         x,
+                            rocblas_int    incx,
+                            float*         y,
+                            rocblas_int    incy,
+                            const float*   c,
+                            const float*   s)
+{
+    return rocblas_rot(handle, n, x, incx, y, incy, c, s);
+}
+
+rocblas_status rocblas_drot(rocblas_handle handle,
+                            rocblas_int    n,
+                            double*        x,
+                            rocblas_int    incx,
+                            double*        y,
+                            rocblas_int    incy,
+                            const double*  c,
+                            const double*  s)
+{
+    return rocblas_rot(handle, n, x, incx, y, incy, c, s);
+}
+
+rocblas_status rocblas_crot(rocblas_handle               handle,
+                            rocblas_int                  n,
+                            rocblas_float_complex*       x,
+                            rocblas_int                  incx,
+                            rocblas_float_complex*       y,
+                            rocblas_int                  incy,
+                            const float*                 c,
+                            const rocblas_float_complex* s)
+{
+    return rocblas_rot(handle, n, x, incx, y, incy, c, s);
+}
+
+rocblas_status rocblas_csrot(rocblas_handle         handle,
+                             rocblas_int            n,
+                             rocblas_float_complex* x,
+                             rocblas_int            incx,
+                             rocblas_float_complex* y,
+                             rocblas_int            incy,
+                             const float*           c,
+                             const float*           s)
+{
+    return rocblas_rot(handle, n, x, incx, y, incy, c, s);
+}
+
+rocblas_status rocblas_zrot(rocblas_handle                handle,
+                            rocblas_int                   n,
+                            rocblas_double_complex*       x,
+                            rocblas_int                   incx,
+                            rocblas_double_complex*       y,
+                            rocblas_int                   incy,
+                            const double*                 c,
+                            const rocblas_double_complex* s)
+{
+    return rocblas_rot(handle, n, x, incx, y, incy, c, s);
+}
+
+rocblas_status rocblas_zdrot(rocblas_handle          handle,
+                             rocblas_int             n,
+                             rocblas_double_complex* x,
+                             rocblas_int             incx,
+                             rocblas_double_complex* y,
+                             rocblas_int             incy,
+                             const double*           c,
+                             const double*           s)
+{
+    return rocblas_rot(handle, n, x, incx, y, incy, c, s);
+}
+
+} // extern "C"
diff --git a/library/src/blas1/rocblas_rotg.cpp b/library/src/blas1/rocblas_rotg.cpp
new file mode 100644
index 000000000..d293a10cf
--- /dev/null
+++ b/library/src/blas1/rocblas_rotg.cpp
@@ -0,0 +1,152 @@
+/* ************************************************************************
+ * Copyright 2016-2019 Advanced Micro Devices, Inc.
+ * ************************************************************************ */
+#include "handle.h"
+#include "logging.h"
+#include "rocblas.h"
+#include "utility.h"
+
+namespace
+{
+    template <typename T, typename U, typename std::enable_if<!is_complex<T>, int>::type = 0>
+    __device__ __host__ void rotg_calc(T& a, T& b, U& c, T& s)
+    {
+        T scale = rocblas_abs(a) + rocblas_abs(b);
+        if(scale == 0.0)
+        {
+            c = 1.0;
+            s = 0.0;
+            a = 0.0;
+            b = 0.0;
+        }
+        else
+        {
+            T sa  = a / scale;
+            T sb  = b / scale;
+            T r   = scale * sqrt(sa * sa + sb * sb);
+            T roe = rocblas_abs(a) > rocblas_abs(b) ? a : b;
+            r     = copysign(r, roe);
+            c     = a / r;
+            s     = b / r;
+            T z   = 1.0;
+            if(rocblas_abs(a) > rocblas_abs(b))
+                z = s;
+            if(rocblas_abs(b) >= rocblas_abs(a) && c != 0.0)
+                z = 1.0 / c;
+            a = r;
+            b = z;
+        }
+    }
+
+    template <typename T, typename U, typename std::enable_if<is_complex<T>, int>::type = 0>
+    __device__ __host__ void rotg_calc(T& a, T& b, U& c, T& s)
+    {
+        if(!rocblas_abs(a))
+        {
+            c = 0;
+            s = {1, 0};
+            a = b;
+        }
+        else
+        {
+            auto scale = rocblas_abs(a) + rocblas_abs(b);
+            auto sa    = rocblas_abs(a / scale);
+            auto sb    = rocblas_abs(b / scale);
+            auto norm  = scale * sqrt(sa * sa + sb * sb);
+            auto alpha = a / rocblas_abs(a);
+            c          = rocblas_abs(a) / norm;
+            s          = alpha * conj(b) / norm;
+            a          = alpha * norm;
+        }
+    }
+
+    template <typename T, typename U>
+    __global__ void rotg_kernel(T* a, T* b, U* c, T* s)
+    {
+        rotg_calc(*a, *b, *c, *s);
+    }
+
+    template <typename>
+    constexpr char rocblas_rotg_name[] = "unknown";
+    template <>
+    constexpr char rocblas_rotg_name<float>[] = "rocblas_srotg";
+    template <>
+    constexpr char rocblas_rotg_name<double>[] = "rocblas_drotg";
+    template <>
+    constexpr char rocblas_rotg_name<rocblas_float_complex>[] = "rocblas_crotg";
+    template <>
+    constexpr char rocblas_rotg_name<rocblas_double_complex>[] = "rocblas_zrotg";
+
+    template <class T, class U>
+    rocblas_status rocblas_rotg(rocblas_handle handle, T* a, T* b, U* c, T* s)
+    {
+        if(!handle)
+            return rocblas_status_invalid_handle;
+
+        auto layer_mode = handle->layer_mode;
+        if(layer_mode & rocblas_layer_mode_log_trace)
+            log_trace(handle, rocblas_rotg_name<T>, a, b, c, s);
+        if(layer_mode & rocblas_layer_mode_log_bench)
+            log_bench(handle, "./rocblas-bench -f rotg -r", rocblas_precision_string<T>);
+        if(layer_mode & rocblas_layer_mode_log_profile)
+            log_profile(handle, rocblas_rotg_name<T>);
+
+        if(!a || !b || !c || !s)
+            return rocblas_status_invalid_pointer;
+
+        RETURN_ZERO_DEVICE_MEMORY_SIZE_IF_QUERIED(handle);
+
+        hipStream_t rocblas_stream = handle->rocblas_stream;
+
+        if(rocblas_pointer_mode_device == handle->pointer_mode)
+        {
+            hipLaunchKernelGGL(rotg_kernel, 1, 1, 0, rocblas_stream, a, b, c, s);
+        }
+        else
+        {
+            RETURN_IF_HIP_ERROR(hipStreamSynchronize(rocblas_stream));
+            rotg_calc(*a, *b, *c, *s);
+        }
+
+        return rocblas_status_success;
+    }
+
+} // namespace
+
+/*
+ * ===========================================================================
+ *    C wrapper
+ * ===========================================================================
+ */
+
+extern "C" {
+
+rocblas_status rocblas_srotg(rocblas_handle handle, float* a, float* b, float* c, float* s)
+{
+    return rocblas_rotg(handle, a, b, c, s);
+}
+
+rocblas_status rocblas_drotg(rocblas_handle handle, double* a, double* b, double* c, double* s)
+{
+    return rocblas_rotg(handle, a, b, c, s);
+}
+
+rocblas_status rocblas_crotg(rocblas_handle         handle,
+                             rocblas_float_complex* a,
+                             rocblas_float_complex* b,
+                             float*                 c,
+                             rocblas_float_complex* s)
+{
+    return rocblas_rotg(handle, a, b, c, s);
+}
+
+rocblas_status rocblas_zrotg(rocblas_handle          handle,
+                             rocblas_double_complex* a,
+                             rocblas_double_complex* b,
+                             double*                 c,
+                             rocblas_double_complex* s)
+{
+    return rocblas_rotg(handle, a, b, c, s);
+}
+
+} // extern "C"
diff --git a/library/src/blas1/rocblas_rotm.cpp b/library/src/blas1/rocblas_rotm.cpp
new file mode 100644
index 000000000..5ce51b266
--- /dev/null
+++ b/library/src/blas1/rocblas_rotm.cpp
@@ -0,0 +1,174 @@
+/* ************************************************************************
+ * Copyright 2016-2019 Advanced Micro Devices, Inc.
+ * ************************************************************************ */
+#include "handle.h"
+#include "logging.h"
+#include "rocblas.h"
+#include "utility.h"
+
+namespace
+{
+    constexpr int NB = 512;
+
+    template <typename T, typename U>
+    __global__ void rotm_kernel(rocblas_int n,
+                                T*          x,
+                                rocblas_int incx,
+                                T*          y,
+                                rocblas_int incy,
+                                U           flag_device_host,
+                                U           h11_device_host,
+                                U           h21_device_host,
+                                U           h12_device_host,
+                                U           h22_device_host)
+    {
+        auto      flag = load_scalar(flag_device_host);
+        auto      h11  = load_scalar(h11_device_host);
+        auto      h21  = load_scalar(h21_device_host);
+        auto      h12  = load_scalar(h12_device_host);
+        auto      h22  = load_scalar(h22_device_host);
+        ptrdiff_t tid  = hipBlockIdx_x * hipBlockDim_x + hipThreadIdx_x;
+
+        if(tid < n && flag != -2)
+        {
+            auto ix = tid * incx;
+            auto iy = tid * incy;
+            auto w  = x[ix];
+            auto z  = y[iy];
+            if(flag < 0)
+            {
+                x[ix] = w * h11 + z * h12;
+                y[iy] = w * h21 + z * h22;
+            }
+            else if(flag == 0)
+            {
+                x[ix] = w + z * h12;
+                y[iy] = w * h21 + z;
+            }
+            else
+            {
+                x[ix] = w * h11 + z;
+                y[iy] = -w + z * h22;
+            }
+        }
+    }
+
+    template <typename>
+    constexpr char rocblas_rotm_name[] = "unknown";
+    template <>
+    constexpr char rocblas_rotm_name<float>[] = "rocblas_srotm";
+    template <>
+    constexpr char rocblas_rotm_name<double>[] = "rocblas_drotm";
+
+    template <class T>
+    rocblas_status rocblas_rotm(rocblas_handle handle,
+                                rocblas_int    n,
+                                T*             x,
+                                rocblas_int    incx,
+                                T*             y,
+                                rocblas_int    incy,
+                                const T*       param)
+    {
+        if(!handle)
+            return rocblas_status_invalid_handle;
+
+        auto layer_mode = handle->layer_mode;
+        if(layer_mode & rocblas_layer_mode_log_trace)
+            log_trace(handle, rocblas_rotm_name<T>, n, x, incx, y, incy, param);
+        if(layer_mode & rocblas_layer_mode_log_bench)
+            log_bench(handle,
+                      "./rocblas-bench -f rotm -r",
+                      rocblas_precision_string<T>,
+                      "-n",
+                      n,
+                      "--incx",
+                      incx,
+                      "--incy",
+                      incy);
+        if(layer_mode & rocblas_layer_mode_log_profile)
+            log_profile(handle, rocblas_rotm_name<T>, "N", n, "incx", incx, "incy", incy);
+
+        if(!x || !y || !param)
+            return rocblas_status_invalid_pointer;
+
+        RETURN_ZERO_DEVICE_MEMORY_SIZE_IF_QUERIED(handle);
+
+        // Quick return if possible
+        if(n <= 0 || incx <= 0 || incy <= 0)
+            return rocblas_status_success;
+        if(rocblas_pointer_mode_host == handle->pointer_mode && param[0] == -2)
+            return rocblas_status_success;
+
+        dim3        blocks((n - 1) / NB + 1);
+        dim3        threads(NB);
+        hipStream_t rocblas_stream = handle->rocblas_stream;
+
+        if(rocblas_pointer_mode_device == handle->pointer_mode)
+            hipLaunchKernelGGL(rotm_kernel,
+                               blocks,
+                               threads,
+                               0,
+                               rocblas_stream,
+                               n,
+                               x,
+                               incx,
+                               y,
+                               incy,
+                               param,
+                               param + 1,
+                               param + 2,
+                               param + 3,
+                               param + 4);
+        else // c and s are on host
+            hipLaunchKernelGGL(rotm_kernel,
+                               blocks,
+                               threads,
+                               0,
+                               rocblas_stream,
+                               n,
+                               x,
+                               incx,
+                               y,
+                               incy,
+                               param[0],
+                               param[1],
+                               param[2],
+                               param[3],
+                               param[4]);
+
+        return rocblas_status_success;
+    }
+
+} // namespace
+
+/*
+ * ===========================================================================
+ *    C wrapper
+ * ===========================================================================
+ */
+
+extern "C" {
+
+ROCBLAS_EXPORT rocblas_status rocblas_srotm(rocblas_handle handle,
+                                            rocblas_int    n,
+                                            float*         x,
+                                            rocblas_int    incx,
+                                            float*         y,
+                                            rocblas_int    incy,
+                                            const float*   param)
+{
+    return rocblas_rotm(handle, n, x, incx, y, incy, param);
+}
+
+ROCBLAS_EXPORT rocblas_status rocblas_drotm(rocblas_handle handle,
+                                            rocblas_int    n,
+                                            double*        x,
+                                            rocblas_int    incx,
+                                            double*        y,
+                                            rocblas_int    incy,
+                                            const double*  param)
+{
+    return rocblas_rotm(handle, n, x, incx, y, incy, param);
+}
+
+} // extern "C"
diff --git a/library/src/blas1/rocblas_rotmg.cpp b/library/src/blas1/rocblas_rotmg.cpp
new file mode 100644
index 000000000..f01aca7fa
--- /dev/null
+++ b/library/src/blas1/rocblas_rotmg.cpp
@@ -0,0 +1,221 @@
+/* ************************************************************************
+ * Copyright 2016-2019 Advanced Micro Devices, Inc.
+ * ************************************************************************ */
+#include "handle.h"
+#include "logging.h"
+#include "rocblas.h"
+#include "utility.h"
+
+namespace
+{
+    template <typename T>
+    __device__ __host__ void rotmg_calc(T& d1, T& d2, T& x1, const T& y1, T* param)
+    {
+        const T gam    = 4096;
+        const T gamsq  = gam * gam;
+        const T rgamsq = 1 / gamsq;
+
+        T flag = -1;
+        T h11 = 0, h21 = 0, h12 = 0, h22 = 0;
+
+        if(d1 < 0)
+        {
+            d1 = d2 = x1 = 0;
+        }
+        else
+        {
+            T p2 = d2 * y1;
+            if(p2 == 0)
+            {
+                flag     = -2;
+                param[0] = flag;
+                return;
+            }
+            T p1 = d1 * x1;
+            T q2 = p2 * y1;
+            T q1 = p1 * x1;
+            if(rocblas_abs(q1) > rocblas_abs(q2))
+            {
+                h21 = -y1 / x1;
+                h12 = p2 / p1;
+                T u = 1 - h12 * h21;
+                if(u > 0)
+                {
+                    flag = 0;
+                    d1 /= u;
+                    d2 /= u;
+                    x1 *= u;
+                }
+            }
+            else
+            {
+                if(q2 < 0)
+                {
+                    d1 = d2 = x1 = 0;
+                }
+                else
+                {
+                    flag   = 1;
+                    h11    = p1 / p2;
+                    h22    = x1 / y1;
+                    T u    = 1 + h11 * h22;
+                    T temp = d2 / u;
+                    d2     = d1 / u;
+                    d1     = temp;
+                    x1     = y1 * u;
+                }
+            }
+
+            if(d1 != 0)
+            {
+                while((d1 <= rgamsq) || (d1 >= gamsq))
+                {
+                    if(flag == 0)
+                    {
+                        h11 = h22 = 1;
+                        flag      = -1;
+                    }
+                    else
+                    {
+                        h21  = -1;
+                        h12  = 1;
+                        flag = -1;
+                    }
+                    if(d1 <= rgamsq)
+                    {
+                        d1 *= gamsq;
+                        x1 /= gam;
+                        h11 /= gam;
+                        h12 /= gam;
+                    }
+                    else
+                    {
+                        d1 /= gamsq;
+                        x1 *= gam;
+                        h11 *= gam;
+                        h12 *= gam;
+                    }
+                }
+            }
+
+            if(d2 != 0)
+            {
+                while((rocblas_abs(d2) <= rgamsq) || (rocblas_abs(d2) >= gamsq))
+                {
+                    if(flag == 0)
+                    {
+                        h11 = h22 = 1;
+                        flag      = -1;
+                    }
+                    else
+                    {
+                        h21  = -1;
+                        h12  = 1;
+                        flag = -1;
+                    }
+                    if(rocblas_abs(d2) <= rgamsq)
+                    {
+                        d2 *= gamsq;
+                        h21 /= gam;
+                        h22 /= gam;
+                    }
+                    else
+                    {
+                        d2 /= gamsq;
+                        h21 *= gam;
+                        h22 *= gam;
+                    }
+                }
+            }
+        }
+
+        if(flag < 0)
+        {
+            param[1] = h11;
+            param[2] = h21;
+            param[3] = h12;
+            param[4] = h22;
+        }
+        else if(flag == 0)
+        {
+            param[2] = h21;
+            param[3] = h12;
+        }
+        else
+        {
+            param[1] = h11;
+            param[4] = h22;
+        }
+        param[0] = flag;
+    }
+
+    template <typename T>
+    __global__ void rotmg_kernel(T* d1, T* d2, T* x1, const T* y1, T* param)
+    {
+        rotmg_calc(*d1, *d2, *x1, *y1, param);
+    }
+
+    template <typename>
+    constexpr char rocblas_rotmg_name[] = "unknown";
+    template <>
+    constexpr char rocblas_rotmg_name<float>[] = "rocblas_srotmg";
+    template <>
+    constexpr char rocblas_rotmg_name<double>[] = "rocblas_drotmg";
+
+    template <class T>
+    rocblas_status rocblas_rotmg(rocblas_handle handle, T* d1, T* d2, T* x1, const T* y1, T* param)
+    {
+        if(!handle)
+            return rocblas_status_invalid_handle;
+
+        auto layer_mode = handle->layer_mode;
+        if(layer_mode & rocblas_layer_mode_log_trace)
+            log_trace(handle, rocblas_rotmg_name<T>, d1, d2, x1, y1, param);
+        if(layer_mode & rocblas_layer_mode_log_bench)
+            log_trace(handle, "./rocblas-bench -f rotmg -r", rocblas_precision_string<T>);
+        if(layer_mode & rocblas_layer_mode_log_profile)
+            log_profile(handle, rocblas_rotmg_name<T>);
+
+        if(!d1 || !d2 || !x1 || !y1 || !param)
+            return rocblas_status_invalid_pointer;
+
+        RETURN_ZERO_DEVICE_MEMORY_SIZE_IF_QUERIED(handle);
+
+        hipStream_t rocblas_stream = handle->rocblas_stream;
+
+        if(rocblas_pointer_mode_device == handle->pointer_mode)
+        {
+            hipLaunchKernelGGL(rotmg_kernel, 1, 1, 0, rocblas_stream, d1, d2, x1, y1, param);
+        }
+        else
+        {
+            RETURN_IF_HIP_ERROR(hipStreamSynchronize(rocblas_stream));
+            rotmg_calc(*d1, *d2, *x1, *y1, param);
+        }
+
+        return rocblas_status_success;
+    }
+
+} // namespace
+
+/*
+ * ===========================================================================
+ *    C wrapper
+ * ===========================================================================
+ */
+
+extern "C" {
+
+ROCBLAS_EXPORT rocblas_status rocblas_srotmg(
+    rocblas_handle handle, float* d1, float* d2, float* x1, const float* y1, float* param)
+{
+    return rocblas_rotmg(handle, d1, d2, x1, y1, param);
+}
+
+ROCBLAS_EXPORT rocblas_status rocblas_drotmg(
+    rocblas_handle handle, double* d1, double* d2, double* x1, const double* y1, double* param)
+{
+    return rocblas_rotmg(handle, d1, d2, x1, y1, param);
+}
+
+} // extern "C"
diff --git a/library/src/blas2/gemv_device.hpp b/library/src/blas2/gemv_device.hpp
index 6e106c8c7..d2b973e6f 100644
--- a/library/src/blas2/gemv_device.hpp
+++ b/library/src/blas2/gemv_device.hpp
@@ -190,7 +190,6 @@ __device__ void gemvn_kernel(rocblas_int                   m,
     rocblas_int ty = thread_id / DIM_X;
 
     rocblas_int ind = hipBlockIdx_x * DIM_X + tx;
-    ;
 
     __shared__ rocblas_double_complex sdata[DIM_X * DIM_Y];
 
diff --git a/library/src/blas2/rocblas_gemv.cpp b/library/src/blas2/rocblas_gemv.cpp
index 17c1afb01..25aeaf9e4 100644
--- a/library/src/blas2/rocblas_gemv.cpp
+++ b/library/src/blas2/rocblas_gemv.cpp
@@ -2,7 +2,6 @@
  * Copyright 2016-2019 Advanced Micro Devices, Inc.
  * ************************************************************************ */
 #include "rocblas_gemv.hpp"
-#include "gemv_device.hpp"
 #include "handle.h"
 #include "logging.h"
 #include "rocblas.h"
diff --git a/library/src/blas2/rocblas_gemv.hpp b/library/src/blas2/rocblas_gemv.hpp
index 2d72e1fa5..a3b6561eb 100644
--- a/library/src/blas2/rocblas_gemv.hpp
+++ b/library/src/blas2/rocblas_gemv.hpp
@@ -21,6 +21,7 @@ rocblas_status rocblas_gemv_template(rocblas_handle    handle,
                                      T*                y,
                                      rocblas_int       incy)
 {
+    //quick return
     if(!m || !n)
         return rocblas_status_success;
 
@@ -194,4 +195,370 @@ rocblas_status rocblas_gemv_template(rocblas_handle    handle,
     return rocblas_status_success;
 }
 
+template <typename T>
+rocblas_status rocblas_gemv_batched_template(rocblas_handle    handle,
+                                             rocblas_operation transA,
+                                             rocblas_int       m,
+                                             rocblas_int       n,
+                                             const T*          alpha,
+                                             const T* const    A[],
+                                             rocblas_int       lda,
+                                             const T* const    x[],
+                                             rocblas_int       incx,
+                                             const T*          beta,
+                                             T* const          y[],
+                                             rocblas_int       incy,
+                                             rocblas_int       batch_count)
+{
+    // Quick return if possible. Not Argument error
+    if(!m || !n || !batch_count)
+        return rocblas_status_success;
+
+    hipStream_t rocblas_stream = handle->rocblas_stream;
+
+    if(transA == rocblas_operation_none)
+    {
+        // GEMVN_DIM_Y must be at least 4, 8 * 8 is very slow only 40Gflop/s
+        static constexpr int GEMVN_DIM_X = 64;
+        static constexpr int GEMVN_DIM_Y = 16;
+        rocblas_int          blocks      = (m - 1) / (GEMVN_DIM_X * 4) + 1;
+        if(std::is_same<T, rocblas_double_complex>{})
+            blocks = (m - 1) / (GEMVN_DIM_X) + 1;
+
+        dim3 gemvn_grid(blocks, batch_count);
+        dim3 gemvn_threads(GEMVN_DIM_X, GEMVN_DIM_Y);
+
+        if(handle->pointer_mode == rocblas_pointer_mode_device)
+        {
+            hipLaunchKernelGGL((gemvn_kernel_batched<GEMVN_DIM_X, GEMVN_DIM_Y>),
+                               gemvn_grid,
+                               gemvn_threads,
+                               0,
+                               rocblas_stream,
+                               m,
+                               n,
+                               alpha,
+                               A,
+                               lda,
+                               x,
+                               incx,
+                               beta,
+                               y,
+                               incy);
+        }
+        else
+        {
+            if(!*alpha && *beta == 1)
+                return rocblas_status_success;
+
+            hipLaunchKernelGGL((gemvn_kernel_batched<GEMVN_DIM_X, GEMVN_DIM_Y>),
+                               gemvn_grid,
+                               gemvn_threads,
+                               0,
+                               rocblas_stream,
+                               m,
+                               n,
+                               *alpha,
+                               A,
+                               lda,
+                               x,
+                               incx,
+                               *beta,
+                               y,
+                               incy);
+        }
+    }
+    else if(transA == rocblas_operation_transpose)
+    {
+        // transpose
+        // number of columns on the y-dim of the grid
+        static constexpr int NB = 256;
+        dim3                 gemvt_grid(n, batch_count);
+        dim3                 gemvt_threads(NB);
+
+        if(handle->pointer_mode == rocblas_pointer_mode_device)
+        {
+            hipLaunchKernelGGL(gemvt_kernel_batched<NB>,
+                               gemvt_grid,
+                               gemvt_threads,
+                               0,
+                               rocblas_stream,
+                               m,
+                               n,
+                               alpha,
+                               A,
+                               lda,
+                               x,
+                               incx,
+                               beta,
+                               y,
+                               incy);
+        }
+        else
+        {
+            if(!*alpha && *beta == 1)
+                return rocblas_status_success;
+
+            hipLaunchKernelGGL(gemvt_kernel_batched<NB>,
+                               gemvt_grid,
+                               gemvt_threads,
+                               0,
+                               rocblas_stream,
+                               m,
+                               n,
+                               *alpha,
+                               A,
+                               lda,
+                               x,
+                               incx,
+                               *beta,
+                               y,
+                               incy);
+        }
+    }
+    else // conjugate transpose
+    {
+        // conjugate transpose
+        // number of columns on the y-dim of the grid
+        static constexpr int NB = 256;
+        dim3                 gemvc_grid(n, batch_count);
+        dim3                 gemvc_threads(NB);
+
+        if(handle->pointer_mode == rocblas_pointer_mode_device)
+        {
+            hipLaunchKernelGGL(gemvc_kernel_batched<NB>,
+                               gemvc_grid,
+                               gemvc_threads,
+                               0,
+                               rocblas_stream,
+                               m,
+                               n,
+                               alpha,
+                               A,
+                               lda,
+                               x,
+                               incx,
+                               beta,
+                               y,
+                               incy);
+        }
+        else
+        {
+            if(!*alpha && *beta == 1)
+                return rocblas_status_success;
+
+            hipLaunchKernelGGL(gemvc_kernel_batched<NB>,
+                               gemvc_grid,
+                               gemvc_threads,
+                               0,
+                               rocblas_stream,
+                               m,
+                               n,
+                               *alpha,
+                               A,
+                               lda,
+                               x,
+                               incx,
+                               *beta,
+                               y,
+                               incy);
+        }
+    }
+
+    return rocblas_status_success;
+}
+
+template <typename T>
+rocblas_status rocblas_gemv_strided_batched_template(rocblas_handle    handle,
+                                                     rocblas_operation transA,
+                                                     rocblas_int       m,
+                                                     rocblas_int       n,
+                                                     const T*          alpha,
+                                                     const T*          A,
+                                                     rocblas_int       lda,
+                                                     rocblas_int       strideA,
+                                                     const T*          x,
+                                                     rocblas_int       incx,
+                                                     rocblas_int       stridex,
+                                                     const T*          beta,
+                                                     T*                y,
+                                                     rocblas_int       incy,
+                                                     rocblas_int       stridey,
+                                                     rocblas_int       batch_count)
+{
+    // Quick return if possible. Not Argument error
+    if(!m || !n || !batch_count)
+        return rocblas_status_success;
+
+    hipStream_t rocblas_stream = handle->rocblas_stream;
+
+    if(transA == rocblas_operation_none)
+    {
+        // GEMVN_DIM_Y must be at least 4, 8 * 8 is very slow only 40Gflop/s
+        static constexpr int GEMVN_DIM_X = 64;
+        static constexpr int GEMVN_DIM_Y = 16;
+        rocblas_int          blocks      = (m - 1) / (GEMVN_DIM_X * 4) + 1;
+        if(std::is_same<T, rocblas_double_complex>{})
+            blocks = (m - 1) / (GEMVN_DIM_X) + 1;
+
+        dim3 gemvn_grid(blocks, batch_count);
+        dim3 gemvn_threads(GEMVN_DIM_X, GEMVN_DIM_Y);
+
+        if(handle->pointer_mode == rocblas_pointer_mode_device)
+        {
+            hipLaunchKernelGGL((gemvn_kernel_strided<GEMVN_DIM_X, GEMVN_DIM_Y>),
+                               gemvn_grid,
+                               gemvn_threads,
+                               0,
+                               rocblas_stream,
+                               m,
+                               n,
+                               alpha,
+                               A,
+                               lda,
+                               strideA,
+                               x,
+                               incx,
+                               stridex,
+                               beta,
+                               y,
+                               incy,
+                               stridey);
+        }
+        else
+        {
+            if(!*alpha && *beta == 1)
+                return rocblas_status_success;
+
+            hipLaunchKernelGGL((gemvn_kernel_strided<GEMVN_DIM_X, GEMVN_DIM_Y>),
+                               gemvn_grid,
+                               gemvn_threads,
+                               0,
+                               rocblas_stream,
+                               m,
+                               n,
+                               *alpha,
+                               A,
+                               lda,
+                               strideA,
+                               x,
+                               incx,
+                               stridex,
+                               *beta,
+                               y,
+                               incy,
+                               stridey);
+        }
+    }
+    else if(transA == rocblas_operation_transpose)
+    {
+        // transpose
+        // number of columns on the y-dim of the grid
+        static constexpr int NB = 256;
+        dim3                 gemvt_grid(n, batch_count);
+        dim3                 gemvt_threads(NB);
+
+        if(handle->pointer_mode == rocblas_pointer_mode_device)
+        {
+            hipLaunchKernelGGL(gemvt_kernel_strided<NB>,
+                               gemvt_grid,
+                               gemvt_threads,
+                               0,
+                               rocblas_stream,
+                               m,
+                               n,
+                               alpha,
+                               A,
+                               lda,
+                               strideA,
+                               x,
+                               incx,
+                               stridex,
+                               beta,
+                               y,
+                               incy,
+                               stridey);
+        }
+        else
+        {
+            if(!*alpha && *beta == 1)
+                return rocblas_status_success;
+
+            hipLaunchKernelGGL(gemvt_kernel_strided<NB>,
+                               gemvt_grid,
+                               gemvt_threads,
+                               0,
+                               rocblas_stream,
+                               m,
+                               n,
+                               *alpha,
+                               A,
+                               lda,
+                               strideA,
+                               x,
+                               incx,
+                               stridex,
+                               *beta,
+                               y,
+                               incy,
+                               stridey);
+        }
+    }
+    else // conjugate transpose
+    {
+        // conjugate transpose
+        // number of columns on the y-dim of the grid
+        static constexpr int NB = 256;
+        dim3                 gemvc_grid(n, batch_count);
+        dim3                 gemvc_threads(NB);
+
+        if(handle->pointer_mode == rocblas_pointer_mode_device)
+        {
+            hipLaunchKernelGGL(gemvc_kernel_strided<NB>,
+                               gemvc_grid,
+                               gemvc_threads,
+                               0,
+                               rocblas_stream,
+                               m,
+                               n,
+                               alpha,
+                               A,
+                               lda,
+                               strideA,
+                               x,
+                               incx,
+                               stridex,
+                               beta,
+                               y,
+                               incy,
+                               stridey);
+        }
+        else
+        {
+            if(!*alpha && *beta == 1)
+                return rocblas_status_success;
+
+            hipLaunchKernelGGL(gemvc_kernel_strided<NB>,
+                               gemvc_grid,
+                               gemvc_threads,
+                               0,
+                               rocblas_stream,
+                               m,
+                               n,
+                               *alpha,
+                               A,
+                               lda,
+                               strideA,
+                               x,
+                               incx,
+                               stridex,
+                               *beta,
+                               y,
+                               incy,
+                               stridey);
+        }
+    }
+    return rocblas_status_success;
+}
+
 #endif
diff --git a/library/src/blas2/rocblas_gemv_batched.cpp b/library/src/blas2/rocblas_gemv_batched.cpp
index 2ec2fc3c6..c0af67b88 100644
--- a/library/src/blas2/rocblas_gemv_batched.cpp
+++ b/library/src/blas2/rocblas_gemv_batched.cpp
@@ -1,10 +1,10 @@
 /* ************************************************************************
  * Copyright 2016-2019 Advanced Micro Devices, Inc.
  * ************************************************************************ */
-#include "gemv_device.hpp"
 #include "handle.h"
 #include "logging.h"
 #include "rocblas.h"
+#include "rocblas_gemv.hpp"
 #include "utility.h"
 
 namespace
@@ -21,19 +21,19 @@ namespace
     constexpr char rocblas_gemv_name<rocblas_double_complex>[] = "rocblas_zgemv_batched";
 
     template <typename T>
-    rocblas_status rocblas_gemv_batched(rocblas_handle    handle,
-                                        rocblas_operation transA,
-                                        rocblas_int       m,
-                                        rocblas_int       n,
-                                        const T*          alpha,
-                                        const T* const    A[],
-                                        rocblas_int       lda,
-                                        const T* const    x[],
-                                        rocblas_int       incx,
-                                        const T*          beta,
-                                        T* const          y[],
-                                        rocblas_int       incy,
-                                        rocblas_int       batch_count)
+    rocblas_status rocblas_gemv_batched_impl(rocblas_handle    handle,
+                                             rocblas_operation transA,
+                                             rocblas_int       m,
+                                             rocblas_int       n,
+                                             const T*          alpha,
+                                             const T* const    A[],
+                                             rocblas_int       lda,
+                                             const T* const    x[],
+                                             rocblas_int       incx,
+                                             const T*          beta,
+                                             T* const          y[],
+                                             rocblas_int       incy,
+                                             rocblas_int       batch_count)
     {
         if(!handle)
             return rocblas_status_invalid_handle;
@@ -90,7 +90,7 @@ namespace
                               *beta,
                               "--incy",
                               incy,
-                              "--batch_count",
+                              "--batch",
                               batch_count);
             }
             else
@@ -127,7 +127,7 @@ namespace
                             incx,
                             "incy",
                             incy,
-                            "batch_count",
+                            "batch",
                             batch_count);
         }
 
@@ -135,161 +135,12 @@ namespace
             return rocblas_status_invalid_pointer;
         if(m < 0 || n < 0 || lda < m || lda < 1 || !incx || !incy)
             return rocblas_status_invalid_size;
-        // Quick return if possible. Not Argument error
-        if(!m || !n)
-            return rocblas_status_success;
-
-        hipStream_t rocblas_stream = handle->rocblas_stream;
-
-        if(transA == rocblas_operation_none)
-        {
-            // GEMVN_DIM_Y must be at least 4, 8 * 8 is very slow only 40Gflop/s
-            static constexpr int GEMVN_DIM_X = 64;
-            static constexpr int GEMVN_DIM_Y = 16;
-            rocblas_int          blocks      = (m - 1) / (GEMVN_DIM_X * 4) + 1;
-
-            dim3 gemvn_grid(blocks, batch_count);
-            dim3 gemvn_threads(GEMVN_DIM_X, GEMVN_DIM_Y);
-
-            if(handle->pointer_mode == rocblas_pointer_mode_device)
-            {
-                hipLaunchKernelGGL((gemvn_kernel_batched<GEMVN_DIM_X, GEMVN_DIM_Y>),
-                                   gemvn_grid,
-                                   gemvn_threads,
-                                   0,
-                                   rocblas_stream,
-                                   m,
-                                   n,
-                                   alpha,
-                                   A,
-                                   lda,
-                                   x,
-                                   incx,
-                                   beta,
-                                   y,
-                                   incy);
-            }
-            else
-            {
-                if(!*alpha && *beta == 1)
-                    return rocblas_status_success;
-
-                hipLaunchKernelGGL((gemvn_kernel_batched<GEMVN_DIM_X, GEMVN_DIM_Y>),
-                                   gemvn_grid,
-                                   gemvn_threads,
-                                   0,
-                                   rocblas_stream,
-                                   m,
-                                   n,
-                                   *alpha,
-                                   A,
-                                   lda,
-                                   x,
-                                   incx,
-                                   *beta,
-                                   y,
-                                   incy);
-            }
-        }
-        else if(transA == rocblas_operation_transpose)
-        {
-            // transpose
-            // number of columns on the y-dim of the grid
-            static constexpr int NB = 256;
-            dim3                 gemvt_grid(n, batch_count);
-            dim3                 gemvt_threads(NB);
-
-            if(handle->pointer_mode == rocblas_pointer_mode_device)
-            {
-                hipLaunchKernelGGL(gemvt_kernel_batched<NB>,
-                                   gemvt_grid,
-                                   gemvt_threads,
-                                   0,
-                                   rocblas_stream,
-                                   m,
-                                   n,
-                                   alpha,
-                                   A,
-                                   lda,
-                                   x,
-                                   incx,
-                                   beta,
-                                   y,
-                                   incy);
-            }
-            else
-            {
-                if(!*alpha && *beta == 1)
-                    return rocblas_status_success;
-
-                hipLaunchKernelGGL(gemvt_kernel_batched<NB>,
-                                   gemvt_grid,
-                                   gemvt_threads,
-                                   0,
-                                   rocblas_stream,
-                                   m,
-                                   n,
-                                   *alpha,
-                                   A,
-                                   lda,
-                                   x,
-                                   incx,
-                                   *beta,
-                                   y,
-                                   incy);
-            }
-        }
-        else // conjugate transpose
-        {
-            // conjugate transpose
-            // number of columns on the y-dim of the grid
-            static constexpr int NB = 256;
-            dim3                 gemvc_grid(n, 1);
-            dim3                 gemvc_threads(NB);
-
-            if(handle->pointer_mode == rocblas_pointer_mode_device)
-            {
-                hipLaunchKernelGGL(gemvc_kernel_batched<NB>,
-                                   gemvc_grid,
-                                   gemvc_threads,
-                                   0,
-                                   rocblas_stream,
-                                   m,
-                                   n,
-                                   alpha,
-                                   A,
-                                   lda,
-                                   x,
-                                   incx,
-                                   beta,
-                                   y,
-                                   incy);
-            }
-            else
-            {
-                if(!*alpha && *beta == 1)
-                    return rocblas_status_success;
+        if(batch_count < 0)
+            return rocblas_status_invalid_size;
 
-                hipLaunchKernelGGL(gemvc_kernel_batched<NB>,
-                                   gemvc_grid,
-                                   gemvc_threads,
-                                   0,
-                                   rocblas_stream,
-                                   m,
-                                   n,
-                                   *alpha,
-                                   A,
-                                   lda,
-                                   x,
-                                   incx,
-                                   *beta,
-                                   y,
-                                   incy);
-            }
-        }
-        return rocblas_status_success;
+        return rocblas_gemv_batched_template(
+            handle, transA, m, n, alpha, A, lda, x, incx, beta, y, incy, batch_count);
     }
-
 } // namespace
 
 /*
@@ -314,7 +165,7 @@ rocblas_status rocblas_sgemv_batched(rocblas_handle     handle,
                                      rocblas_int        incy,
                                      rocblas_int        batch_count)
 {
-    return rocblas_gemv_batched(
+    return rocblas_gemv_batched_impl(
         handle, transA, m, n, alpha, A, lda, x, incx, beta, y, incy, batch_count);
 }
 
@@ -332,7 +183,7 @@ rocblas_status rocblas_dgemv_batched(rocblas_handle      handle,
                                      rocblas_int         incy,
                                      rocblas_int         batch_count)
 {
-    return rocblas_gemv_batched(
+    return rocblas_gemv_batched_impl(
         handle, transA, m, n, alpha, A, lda, x, incx, beta, y, incy, batch_count);
 }
 
@@ -350,7 +201,7 @@ rocblas_status rocblas_cgemv_batched(rocblas_handle                     handle,
                                      rocblas_int                        incy,
                                      rocblas_int                        batch_count)
 {
-    return rocblas_gemv_batched(
+    return rocblas_gemv_batched_impl(
         handle, transA, m, n, alpha, A, lda, x, incx, beta, y, incy, batch_count);
 }
 
@@ -368,7 +219,7 @@ rocblas_status rocblas_zgemv_batched(rocblas_handle                      handle,
                                      rocblas_int                         incy,
                                      rocblas_int                         batch_count)
 {
-    return rocblas_gemv_batched(
+    return rocblas_gemv_batched_impl(
         handle, transA, m, n, alpha, A, lda, x, incx, beta, y, incy, batch_count);
 }
 
diff --git a/library/src/blas2/rocblas_gemv_strided_batched.cpp b/library/src/blas2/rocblas_gemv_strided_batched.cpp
index da3d4716c..8e2b6fc30 100644
--- a/library/src/blas2/rocblas_gemv_strided_batched.cpp
+++ b/library/src/blas2/rocblas_gemv_strided_batched.cpp
@@ -1,10 +1,10 @@
 /* ************************************************************************
  * Copyright 2016-2019 Advanced Micro Devices, Inc.
  * ************************************************************************ */
-#include "gemv_device.hpp"
 #include "handle.h"
 #include "logging.h"
 #include "rocblas.h"
+#include "rocblas_gemv.hpp"
 #include "utility.h"
 
 namespace
@@ -21,22 +21,22 @@ namespace
     constexpr char rocblas_gemv_name<rocblas_double_complex>[] = "rocblas_zgemv_strided_batched";
 
     template <typename T>
-    rocblas_status rocblas_gemv_strided_batched(rocblas_handle    handle,
-                                                rocblas_operation transA,
-                                                rocblas_int       m,
-                                                rocblas_int       n,
-                                                const T*          alpha,
-                                                const T*          A,
-                                                rocblas_int       lda,
-                                                rocblas_int       strideA,
-                                                const T*          x,
-                                                rocblas_int       incx,
-                                                rocblas_int       stridex,
-                                                const T*          beta,
-                                                T*                y,
-                                                rocblas_int       incy,
-                                                rocblas_int       stridey,
-                                                rocblas_int       batch_count)
+    rocblas_status rocblas_gemv_strided_batched_impl(rocblas_handle    handle,
+                                                     rocblas_operation transA,
+                                                     rocblas_int       m,
+                                                     rocblas_int       n,
+                                                     const T*          alpha,
+                                                     const T*          A,
+                                                     rocblas_int       lda,
+                                                     rocblas_int       strideA,
+                                                     const T*          x,
+                                                     rocblas_int       incx,
+                                                     rocblas_int       stridex,
+                                                     const T*          beta,
+                                                     T*                y,
+                                                     rocblas_int       incy,
+                                                     rocblas_int       stridey,
+                                                     rocblas_int       batch_count)
     {
         if(!handle)
             return rocblas_status_invalid_handle;
@@ -90,19 +90,19 @@ namespace
                                   : "",
                               "--lda",
                               lda,
-                              "--strideA",
+                              "--stride_a",
                               strideA,
                               "--incx",
                               incx,
-                              "--stridex",
+                              "--stride_x",
                               stridex,
                               "--beta",
                               *beta,
                               "--incy",
                               incy,
-                              "--stridey",
+                              "--stride_y",
                               stridey,
-                              "--batch_count",
+                              "--batch",
                               batch_count);
             }
             else
@@ -138,17 +138,17 @@ namespace
                             n,
                             "lda",
                             lda,
-                            "strideA",
+                            "stride_a",
                             strideA,
                             "incx",
                             incx,
-                            "stridex",
+                            "stride_x",
                             stridex,
                             "incy",
                             incy,
-                            "stridey",
+                            "stride_y",
                             stridey,
-                            "batch_count",
+                            "batch",
                             batch_count);
         }
 
@@ -156,181 +156,52 @@ namespace
             return rocblas_status_invalid_pointer;
         if(m < 0 || n < 0 || lda < m || lda < 1 || !incx || !incy)
             return rocblas_status_invalid_size;
+        if(strideA < lda * n)
+            return rocblas_status_invalid_size;
+        if(batch_count < 0)
+            return rocblas_status_invalid_size;
 
-        // Quick return if possible. Not Argument error
-        if(!m || !n)
-            return rocblas_status_success;
-
-        hipStream_t rocblas_stream = handle->rocblas_stream;
+        size_t size_x, dim_x, abs_incx;
+        size_t size_y, dim_y, abs_incy;
 
         if(transA == rocblas_operation_none)
         {
-            // GEMVN_DIM_Y must be at least 4, 8 * 8 is very slow only 40Gflop/s
-            static constexpr int GEMVN_DIM_X = 64;
-            static constexpr int GEMVN_DIM_Y = 16;
-            rocblas_int          blocks      = (m - 1) / (GEMVN_DIM_X * 4) + 1;
-
-            dim3 gemvn_grid(blocks, batch_count);
-            dim3 gemvn_threads(GEMVN_DIM_X, GEMVN_DIM_Y);
-
-            if(handle->pointer_mode == rocblas_pointer_mode_device)
-            {
-                hipLaunchKernelGGL((gemvn_kernel_strided<GEMVN_DIM_X, GEMVN_DIM_Y>),
-                                   gemvn_grid,
-                                   gemvn_threads,
-                                   0,
-                                   rocblas_stream,
-                                   m,
-                                   n,
-                                   alpha,
-                                   A,
-                                   lda,
-                                   strideA,
-                                   x,
-                                   incx,
-                                   stridex,
-                                   beta,
-                                   y,
-                                   incy,
-                                   stridey);
-            }
-            else
-            {
-                if(!*alpha && *beta == 1)
-                    return rocblas_status_success;
-
-                hipLaunchKernelGGL((gemvn_kernel_strided<GEMVN_DIM_X, GEMVN_DIM_Y>),
-                                   gemvn_grid,
-                                   gemvn_threads,
-                                   0,
-                                   rocblas_stream,
-                                   m,
-                                   n,
-                                   *alpha,
-                                   A,
-                                   lda,
-                                   strideA,
-                                   x,
-                                   incx,
-                                   stridex,
-                                   *beta,
-                                   y,
-                                   incy,
-                                   stridey);
-            }
+            dim_x = n;
+            dim_y = m;
         }
-        else if(transA == rocblas_operation_transpose)
+        else
         {
-            // transpose
-            // number of columns on the y-dim of the grid
-            static constexpr int NB = 256;
-            dim3                 gemvt_grid(n, batch_count);
-            dim3                 gemvt_threads(NB);
+            dim_x = m;
+            dim_y = n;
+        }
 
-            if(handle->pointer_mode == rocblas_pointer_mode_device)
-            {
-                hipLaunchKernelGGL(gemvt_kernel_strided<NB>,
-                                   gemvt_grid,
-                                   gemvt_threads,
-                                   0,
-                                   rocblas_stream,
-                                   m,
-                                   n,
-                                   alpha,
-                                   A,
-                                   lda,
-                                   strideA,
-                                   x,
-                                   incx,
-                                   stridex,
-                                   beta,
-                                   y,
-                                   incy,
-                                   stridey);
-            }
-            else
-            {
-                if(!*alpha && *beta == 1)
-                    return rocblas_status_success;
+        abs_incx = incx >= 0 ? incx : -incx;
+        abs_incy = incy >= 0 ? incy : -incy;
 
-                hipLaunchKernelGGL(gemvt_kernel_strided<NB>,
-                                   gemvt_grid,
-                                   gemvt_threads,
-                                   0,
-                                   rocblas_stream,
-                                   m,
-                                   n,
-                                   *alpha,
-                                   A,
-                                   lda,
-                                   strideA,
-                                   x,
-                                   incx,
-                                   stridex,
-                                   *beta,
-                                   y,
-                                   incy,
-                                   stridey);
-            }
-        }
-        else // conjugate transpose
-        {
-            // conjugate transpose
-            // number of columns on the y-dim of the grid
-            static constexpr int NB = 256;
-            dim3                 gemvc_grid(n, 1);
-            dim3                 gemvc_threads(NB);
+        size_x = dim_x * abs_incx;
+        size_y = dim_y * abs_incy;
 
-            if(handle->pointer_mode == rocblas_pointer_mode_device)
-            {
-                hipLaunchKernelGGL(gemvc_kernel_strided<NB>,
-                                   gemvc_grid,
-                                   gemvc_threads,
-                                   0,
-                                   rocblas_stream,
-                                   m,
-                                   n,
-                                   alpha,
-                                   A,
-                                   lda,
-                                   strideA,
-                                   x,
-                                   incx,
-                                   stridex,
-                                   beta,
-                                   y,
-                                   incy,
-                                   stridey);
-            }
-            else
-            {
-                if(!*alpha && *beta == 1)
-                    return rocblas_status_success;
+        if(stridex < size_x || stridey < size_y)
+            return rocblas_status_invalid_size;
 
-                hipLaunchKernelGGL(gemvc_kernel_strided<NB>,
-                                   gemvc_grid,
-                                   gemvc_threads,
-                                   0,
-                                   rocblas_stream,
-                                   m,
-                                   n,
-                                   *alpha,
-                                   A,
-                                   lda,
-                                   strideA,
-                                   x,
-                                   incx,
-                                   stridex,
-                                   *beta,
-                                   y,
-                                   incy,
-                                   stridey);
-            }
-        }
-        return rocblas_status_success;
+        return rocblas_gemv_strided_batched_template(handle,
+                                                     transA,
+                                                     m,
+                                                     n,
+                                                     alpha,
+                                                     A,
+                                                     lda,
+                                                     strideA,
+                                                     x,
+                                                     incx,
+                                                     stridex,
+                                                     beta,
+                                                     y,
+                                                     incy,
+                                                     stridey,
+                                                     batch_count);
     }
-
-} // namespace
+} //namespace
 
 /*
 * ===========================================================================
@@ -357,22 +228,22 @@ rocblas_status rocblas_sgemv_strided_batched(rocblas_handle    handle,
                                              rocblas_int       stridey,
                                              rocblas_int       batch_count)
 {
-    return rocblas_gemv_strided_batched(handle,
-                                        transA,
-                                        m,
-                                        n,
-                                        alpha,
-                                        A,
-                                        lda,
-                                        strideA,
-                                        x,
-                                        incx,
-                                        stridex,
-                                        beta,
-                                        y,
-                                        incy,
-                                        stridey,
-                                        batch_count);
+    return rocblas_gemv_strided_batched_impl(handle,
+                                             transA,
+                                             m,
+                                             n,
+                                             alpha,
+                                             A,
+                                             lda,
+                                             strideA,
+                                             x,
+                                             incx,
+                                             stridex,
+                                             beta,
+                                             y,
+                                             incy,
+                                             stridey,
+                                             batch_count);
 }
 
 rocblas_status rocblas_dgemv_strided_batched(rocblas_handle    handle,
@@ -392,22 +263,22 @@ rocblas_status rocblas_dgemv_strided_batched(rocblas_handle    handle,
                                              rocblas_int       stridey,
                                              rocblas_int       batch_count)
 {
-    return rocblas_gemv_strided_batched(handle,
-                                        transA,
-                                        m,
-                                        n,
-                                        alpha,
-                                        A,
-                                        lda,
-                                        strideA,
-                                        x,
-                                        incx,
-                                        stridex,
-                                        beta,
-                                        y,
-                                        incy,
-                                        stridey,
-                                        batch_count);
+    return rocblas_gemv_strided_batched_impl(handle,
+                                             transA,
+                                             m,
+                                             n,
+                                             alpha,
+                                             A,
+                                             lda,
+                                             strideA,
+                                             x,
+                                             incx,
+                                             stridex,
+                                             beta,
+                                             y,
+                                             incy,
+                                             stridey,
+                                             batch_count);
 }
 
 rocblas_status rocblas_cgemv_strided_batched(rocblas_handle               handle,
@@ -427,22 +298,22 @@ rocblas_status rocblas_cgemv_strided_batched(rocblas_handle               handle
                                              rocblas_int                  stridey,
                                              rocblas_int                  batch_count)
 {
-    return rocblas_gemv_strided_batched(handle,
-                                        transA,
-                                        m,
-                                        n,
-                                        alpha,
-                                        A,
-                                        lda,
-                                        strideA,
-                                        x,
-                                        incx,
-                                        stridex,
-                                        beta,
-                                        y,
-                                        incy,
-                                        stridey,
-                                        batch_count);
+    return rocblas_gemv_strided_batched_impl(handle,
+                                             transA,
+                                             m,
+                                             n,
+                                             alpha,
+                                             A,
+                                             lda,
+                                             strideA,
+                                             x,
+                                             incx,
+                                             stridex,
+                                             beta,
+                                             y,
+                                             incy,
+                                             stridey,
+                                             batch_count);
 }
 
 rocblas_status rocblas_zgemv_strided_batched(rocblas_handle                handle,
@@ -462,22 +333,22 @@ rocblas_status rocblas_zgemv_strided_batched(rocblas_handle                handl
                                              rocblas_int                   stridey,
                                              rocblas_int                   batch_count)
 {
-    return rocblas_gemv_strided_batched(handle,
-                                        transA,
-                                        m,
-                                        n,
-                                        alpha,
-                                        A,
-                                        lda,
-                                        strideA,
-                                        x,
-                                        incx,
-                                        stridex,
-                                        beta,
-                                        y,
-                                        incy,
-                                        stridey,
-                                        batch_count);
+    return rocblas_gemv_strided_batched_impl(handle,
+                                             transA,
+                                             m,
+                                             n,
+                                             alpha,
+                                             A,
+                                             lda,
+                                             strideA,
+                                             x,
+                                             incx,
+                                             stridex,
+                                             beta,
+                                             y,
+                                             incy,
+                                             stridey,
+                                             batch_count);
 }
 
 } // extern "C"
diff --git a/library/src/blas2/rocblas_ger.cpp b/library/src/blas2/rocblas_ger.cpp
index 3793f0fef..218d21419 100644
--- a/library/src/blas2/rocblas_ger.cpp
+++ b/library/src/blas2/rocblas_ger.cpp
@@ -4,29 +4,11 @@
 #include "handle.h"
 #include "logging.h"
 #include "rocblas.h"
+#include "rocblas_ger_strided_batched.hpp"
 #include "utility.h"
 
 namespace
 {
-    template <typename T, typename U>
-    __global__ void ger_kernel(rocblas_int m,
-                               rocblas_int n,
-                               U           alpha_device_host,
-                               const T* __restrict__ x,
-                               rocblas_int incx,
-                               const T* __restrict__ y,
-                               rocblas_int incy,
-                               T*          A,
-                               rocblas_int lda)
-    {
-        auto      alpha = load_scalar(alpha_device_host);
-        ptrdiff_t tx    = hipBlockIdx_x * hipBlockDim_x + hipThreadIdx_x;
-        ptrdiff_t ty    = hipBlockIdx_y * hipBlockDim_y + hipThreadIdx_y;
-
-        if(tx < m && ty < n)
-            A[tx + lda * ty] += alpha * x[tx * incx] * y[ty * incy];
-    }
-
     template <typename>
     constexpr char rocblas_ger_name[] = "unknown";
     template <>
@@ -35,16 +17,16 @@ namespace
     constexpr char rocblas_ger_name<double>[] = "rocblas_dger";
 
     template <typename T>
-    rocblas_status rocblas_ger(rocblas_handle handle,
-                               rocblas_int    m,
-                               rocblas_int    n,
-                               const T*       alpha,
-                               const T*       x,
-                               rocblas_int    incx,
-                               const T*       y,
-                               rocblas_int    incy,
-                               T*             A,
-                               rocblas_int    lda)
+    rocblas_status rocblas_ger_impl(rocblas_handle handle,
+                                    rocblas_int    m,
+                                    rocblas_int    n,
+                                    const T*       alpha,
+                                    const T*       x,
+                                    rocblas_int    incx,
+                                    const T*       y,
+                                    rocblas_int    incy,
+                                    T*             A,
+                                    rocblas_int    lda)
     {
         if(!handle)
             return rocblas_status_invalid_handle;
@@ -106,51 +88,9 @@ namespace
         if(!m || !n)
             return rocblas_status_success;
 
-        hipStream_t rocblas_stream = handle->rocblas_stream;
-
-        static constexpr int GEMV_DIM_X = 128;
-        static constexpr int GEMV_DIM_Y = 8;
-        rocblas_int          blocksX    = (m - 1) / GEMV_DIM_X + 1;
-        rocblas_int          blocksY    = (n - 1) / GEMV_DIM_Y + 1;
-
-        dim3 ger_grid(blocksX, blocksY);
-        dim3 ger_threads(GEMV_DIM_X, GEMV_DIM_Y);
-
-        if(incx < 0)
-            x -= ptrdiff_t(incx) * (m - 1);
-        if(incy < 0)
-            y -= ptrdiff_t(incy) * (n - 1);
-
-        if(handle->pointer_mode == rocblas_pointer_mode_device)
-            hipLaunchKernelGGL(ger_kernel,
-                               ger_grid,
-                               ger_threads,
-                               0,
-                               rocblas_stream,
-                               m,
-                               n,
-                               alpha,
-                               x,
-                               incx,
-                               y,
-                               incy,
-                               A,
-                               lda);
-        else
-            hipLaunchKernelGGL(ger_kernel,
-                               ger_grid,
-                               ger_threads,
-                               0,
-                               rocblas_stream,
-                               m,
-                               n,
-                               *alpha,
-                               x,
-                               incx,
-                               y,
-                               incy,
-                               A,
-                               lda);
+        rocblas_ger_strided_batched_template(
+            handle, m, n, alpha, x, 0, incx, incx * m, y, 0, incy, incy * n, A, 0, lda, lda * n, 1);
+
         return rocblas_status_success;
     }
 
@@ -175,7 +115,7 @@ rocblas_status rocblas_sger(rocblas_handle handle,
                             float*         A,
                             rocblas_int    lda)
 {
-    return rocblas_ger(handle, m, n, alpha, x, incx, y, incy, A, lda);
+    return rocblas_ger_impl(handle, m, n, alpha, x, incx, y, incy, A, lda);
 }
 
 rocblas_status rocblas_dger(rocblas_handle handle,
@@ -189,7 +129,7 @@ rocblas_status rocblas_dger(rocblas_handle handle,
                             double*        A,
                             rocblas_int    lda)
 {
-    return rocblas_ger(handle, m, n, alpha, x, incx, y, incy, A, lda);
+    return rocblas_ger_impl(handle, m, n, alpha, x, incx, y, incy, A, lda);
 }
 
 } // extern "C"
diff --git a/library/src/blas2/rocblas_ger_batched.cpp b/library/src/blas2/rocblas_ger_batched.cpp
new file mode 100644
index 000000000..8715638c6
--- /dev/null
+++ b/library/src/blas2/rocblas_ger_batched.cpp
@@ -0,0 +1,164 @@
+/* ************************************************************************
+ * Copyright 2016-2019 Advanced Micro Devices, Inc.
+ * ************************************************************************ */
+#include "rocblas_ger_batched.hpp"
+#include "handle.h"
+#include "logging.h"
+#include "rocblas.h"
+#include "utility.h"
+
+namespace
+{
+    template <typename>
+    constexpr char rocblas_ger_batched_name[] = "unknown";
+    template <>
+    constexpr char rocblas_ger_batched_name<float>[] = "rocblas_sger_batched";
+    template <>
+    constexpr char rocblas_ger_batched_name<double>[] = "rocblas_dger_batched";
+
+    template <typename T>
+    rocblas_status rocblas_ger_batched_impl(rocblas_handle handle,
+                                            rocblas_int    m,
+                                            rocblas_int    n,
+                                            const T*       alpha,
+                                            const T* const x[],
+                                            rocblas_int    incx,
+                                            const T* const y[],
+                                            rocblas_int    incy,
+                                            T* const       A[],
+                                            rocblas_int    lda,
+                                            rocblas_int    batch_count)
+    {
+        if(!handle)
+            return rocblas_status_invalid_handle;
+        RETURN_ZERO_DEVICE_MEMORY_SIZE_IF_QUERIED(handle);
+
+        if(!alpha)
+            return rocblas_status_invalid_pointer;
+
+        auto layer_mode = handle->layer_mode;
+        if(handle->pointer_mode == rocblas_pointer_mode_host)
+        {
+            if(layer_mode & rocblas_layer_mode_log_trace)
+                log_trace(handle,
+                          rocblas_ger_batched_name<T>,
+                          m,
+                          n,
+                          *alpha,
+                          x,
+                          incx,
+                          y,
+                          incy,
+                          A,
+                          lda,
+                          batch_count);
+
+            if(layer_mode & rocblas_layer_mode_log_bench)
+                log_bench(handle,
+                          "./rocblas-bench -f ger_batched -r",
+                          rocblas_precision_string<T>,
+                          "-m",
+                          m,
+                          "-n",
+                          n,
+                          "--alpha",
+                          *alpha,
+                          "--incx",
+                          incx,
+                          "--incy",
+                          incy,
+                          "--lda",
+                          lda,
+                          "--batch_count",
+                          batch_count);
+        }
+        else
+        {
+            if(layer_mode & rocblas_layer_mode_log_trace)
+                log_trace(handle,
+                          rocblas_ger_batched_name<T>,
+                          m,
+                          n,
+                          alpha,
+                          x,
+                          incx,
+                          y,
+                          incy,
+                          A,
+                          lda,
+                          batch_count);
+        }
+
+        if(layer_mode & rocblas_layer_mode_log_profile)
+            log_profile(handle,
+                        rocblas_ger_batched_name<T>,
+                        "M",
+                        m,
+                        "N",
+                        n,
+                        "incx",
+                        incx,
+                        "incy",
+                        incy,
+                        "lda",
+                        lda,
+                        "batch_count",
+                        batch_count);
+
+        if(!x || !y || !A)
+            return rocblas_status_invalid_pointer;
+
+        if(m < 0 || n < 0 || !incx || !incy || lda < m || lda < 1 || batch_count < 0)
+            return rocblas_status_invalid_size;
+
+        // Quick return if possible. Not Argument error
+        if(!m || !n || !batch_count)
+            return rocblas_status_success;
+
+        rocblas_ger_batched_template(
+            handle, m, n, alpha, x, 0, incx, y, 0, incy, A, 0, lda, batch_count);
+
+        return rocblas_status_success;
+    }
+
+} // namespace
+
+/*
+ * ===========================================================================
+ *    C wrapper
+ * ===========================================================================
+ */
+
+extern "C" {
+
+rocblas_status rocblas_sger_batched(rocblas_handle     handle,
+                                    rocblas_int        m,
+                                    rocblas_int        n,
+                                    const float*       alpha,
+                                    const float* const x[],
+                                    rocblas_int        incx,
+                                    const float* const y[],
+                                    rocblas_int        incy,
+                                    float* const       A[],
+                                    rocblas_int        lda,
+                                    rocblas_int        batch_count)
+{
+    return rocblas_ger_batched_impl(handle, m, n, alpha, x, incx, y, incy, A, lda, batch_count);
+}
+
+rocblas_status rocblas_dger_batched(rocblas_handle      handle,
+                                    rocblas_int         m,
+                                    rocblas_int         n,
+                                    const double*       alpha,
+                                    const double* const x[],
+                                    rocblas_int         incx,
+                                    const double* const y[],
+                                    rocblas_int         incy,
+                                    double* const       A[],
+                                    rocblas_int         lda,
+                                    rocblas_int         batch_count)
+{
+    return rocblas_ger_batched_impl(handle, m, n, alpha, x, incx, y, incy, A, lda, batch_count);
+}
+
+} // extern "C"
diff --git a/library/src/blas2/rocblas_ger_batched.hpp b/library/src/blas2/rocblas_ger_batched.hpp
new file mode 100644
index 000000000..172238d7f
--- /dev/null
+++ b/library/src/blas2/rocblas_ger_batched.hpp
@@ -0,0 +1,108 @@
+/* ************************************************************************
+ * Copyright 2016-2019 Advanced Micro Devices, Inc.
+ * ************************************************************************ */
+#include "handle.h"
+#include "logging.h"
+#include "rocblas.h"
+#include "utility.h"
+
+template <typename T, typename U>
+__global__ void ger_batched_kernel(rocblas_int m,
+                                   rocblas_int n,
+                                   U           alpha_device_host,
+                                   const T* const __restrict__ xa[],
+                                   rocblas_int shiftx,
+                                   rocblas_int incx,
+                                   const T* const __restrict__ ya[],
+                                   rocblas_int shifty,
+                                   rocblas_int incy,
+                                   T* const    Aa[],
+                                   rocblas_int shiftA,
+                                   rocblas_int lda)
+{
+    ptrdiff_t tx = hipBlockIdx_x * hipBlockDim_x + hipThreadIdx_x;
+    ptrdiff_t ty = hipBlockIdx_y * hipBlockDim_y + hipThreadIdx_y;
+
+    if(tx < m && ty < n)
+    {
+        auto alpha = load_scalar(alpha_device_host);
+        T*   A;
+        const T* __restrict__ x;
+        const T* __restrict__ y;
+        A = Aa[hipBlockIdx_z] + shiftA;
+        x = xa[hipBlockIdx_z] + shiftx;
+        y = ya[hipBlockIdx_z] + shifty;
+
+        if(incx < 0)
+            x -= ssize_t(incx) * (m - 1);
+        if(incy < 0)
+            y -= ssize_t(incy) * (n - 1);
+
+        A[tx + lda * ty] += alpha * x[tx * incx] * y[ty * incy];
+    }
+}
+
+template <typename T>
+rocblas_status rocblas_ger_batched_template(rocblas_handle handle,
+                                            rocblas_int    m,
+                                            rocblas_int    n,
+                                            const T*       alpha,
+                                            const T* const x[],
+                                            rocblas_int    shiftx,
+                                            rocblas_int    incx,
+                                            const T* const y[],
+                                            rocblas_int    shifty,
+                                            rocblas_int    incy,
+                                            T* const       A[],
+                                            rocblas_int    shiftA,
+                                            rocblas_int    lda,
+                                            rocblas_int    batch_count)
+{
+    hipStream_t rocblas_stream = handle->rocblas_stream;
+
+    static constexpr int GEMV_DIM_X = 128;
+    static constexpr int GEMV_DIM_Y = 8;
+    rocblas_int          blocksX    = (m - 1) / GEMV_DIM_X + 1;
+    rocblas_int          blocksY    = (n - 1) / GEMV_DIM_Y + 1;
+
+    dim3 ger_batched_grid(blocksX, blocksY, batch_count);
+    dim3 ger_batched_threads(GEMV_DIM_X, GEMV_DIM_Y);
+
+    if(handle->pointer_mode == rocblas_pointer_mode_device)
+        hipLaunchKernelGGL(ger_batched_kernel,
+                           ger_batched_grid,
+                           ger_batched_threads,
+                           0,
+                           rocblas_stream,
+                           m,
+                           n,
+                           alpha,
+                           x,
+                           shiftx,
+                           incx,
+                           y,
+                           shifty,
+                           incy,
+                           A,
+                           shiftA,
+                           lda);
+    else
+        hipLaunchKernelGGL(ger_batched_kernel,
+                           ger_batched_grid,
+                           ger_batched_threads,
+                           0,
+                           rocblas_stream,
+                           m,
+                           n,
+                           *alpha,
+                           x,
+                           shiftx,
+                           incx,
+                           y,
+                           shifty,
+                           incy,
+                           A,
+                           shiftA,
+                           lda);
+    return rocblas_status_success;
+}
diff --git a/library/src/blas2/rocblas_ger_strided_batched.cpp b/library/src/blas2/rocblas_ger_strided_batched.cpp
new file mode 100644
index 000000000..9343b24f2
--- /dev/null
+++ b/library/src/blas2/rocblas_ger_strided_batched.cpp
@@ -0,0 +1,209 @@
+/* ************************************************************************
+ * Copyright 2016-2019 Advanced Micro Devices, Inc.
+ * ************************************************************************ */
+#include "rocblas_ger_strided_batched.hpp"
+#include "handle.h"
+#include "logging.h"
+#include "rocblas.h"
+#include "utility.h"
+
+namespace
+{
+    template <typename>
+    constexpr char rocblas_ger_strided_batched_name[] = "unknown";
+    template <>
+    constexpr char rocblas_ger_strided_batched_name<float>[] = "rocblas_sger_strided_batched";
+    template <>
+    constexpr char rocblas_ger_strided_batched_name<double>[] = "rocblas_dger_strided_batched";
+
+    template <typename T>
+    rocblas_status rocblas_ger_strided_batched_impl(rocblas_handle handle,
+                                                    rocblas_int    m,
+                                                    rocblas_int    n,
+                                                    const T*       alpha,
+                                                    const T*       x,
+                                                    rocblas_int    incx,
+                                                    rocblas_int    stridex,
+                                                    const T*       y,
+                                                    rocblas_int    incy,
+                                                    rocblas_int    stridey,
+                                                    T*             A,
+                                                    rocblas_int    lda,
+                                                    rocblas_int    strideA,
+                                                    rocblas_int    batch_count)
+    {
+        if(!handle)
+            return rocblas_status_invalid_handle;
+        RETURN_ZERO_DEVICE_MEMORY_SIZE_IF_QUERIED(handle);
+
+        if(!alpha)
+            return rocblas_status_invalid_pointer;
+
+        auto layer_mode = handle->layer_mode;
+        if(handle->pointer_mode == rocblas_pointer_mode_host)
+        {
+            if(layer_mode & rocblas_layer_mode_log_trace)
+                log_trace(handle,
+                          rocblas_ger_strided_batched_name<T>,
+                          m,
+                          n,
+                          *alpha,
+                          x,
+                          incx,
+                          stridex,
+                          y,
+                          incy,
+                          stridey,
+                          A,
+                          lda,
+                          strideA,
+                          batch_count);
+
+            if(layer_mode & rocblas_layer_mode_log_bench)
+                log_bench(handle,
+                          "./rocblas-bench -f ger_strided_batched -r",
+                          rocblas_precision_string<T>,
+                          "-m",
+                          m,
+                          "-n",
+                          n,
+                          "--alpha",
+                          *alpha,
+                          "--incx",
+                          incx,
+                          "--stridex",
+                          stridex,
+                          "--incy",
+                          incy,
+                          "--stridey",
+                          stridey,
+                          "--lda",
+                          lda,
+                          "--strideA",
+                          strideA,
+                          "--batch_count",
+                          batch_count);
+        }
+        else
+        {
+            if(layer_mode & rocblas_layer_mode_log_trace)
+                log_trace(handle,
+                          rocblas_ger_strided_batched_name<T>,
+                          m,
+                          n,
+                          alpha,
+                          x,
+                          incx,
+                          stridex,
+                          y,
+                          incy,
+                          stridey,
+                          A,
+                          lda,
+                          strideA,
+                          batch_count);
+        }
+
+        if(layer_mode & rocblas_layer_mode_log_profile)
+            log_profile(handle,
+                        rocblas_ger_strided_batched_name<T>,
+                        "M",
+                        m,
+                        "N",
+                        n,
+                        "incx",
+                        incx,
+                        "stridex",
+                        stridex,
+                        "incy",
+                        incy,
+                        "stridey",
+                        stridey,
+                        "lda",
+                        lda,
+                        "strideA",
+                        strideA,
+                        "batch_count",
+                        batch_count);
+
+        if(!x || !y || !A)
+            return rocblas_status_invalid_pointer;
+
+        if(m < 0 || n < 0 || !incx || !incy || lda < m || lda < 1 || stridex < m * std::abs(incx)
+           || stridey < n * abs(incy) || strideA < lda * n || batch_count < 0)
+            return rocblas_status_invalid_size;
+
+        // Quick return if possible. Not Argument error
+        if(!m || !n || !batch_count)
+            return rocblas_status_success;
+
+        rocblas_ger_strided_batched_template(handle,
+                                             m,
+                                             n,
+                                             alpha,
+                                             x,
+                                             0,
+                                             incx,
+                                             stridex,
+                                             y,
+                                             0,
+                                             incy,
+                                             stridey,
+                                             A,
+                                             0,
+                                             lda,
+                                             strideA,
+                                             batch_count);
+
+        return rocblas_status_success;
+    }
+
+} // namespace
+
+/*
+ * ===========================================================================
+ *    C wrapper
+ * ===========================================================================
+ */
+
+extern "C" {
+
+rocblas_status rocblas_sger_strided_batched(rocblas_handle handle,
+                                            rocblas_int    m,
+                                            rocblas_int    n,
+                                            const float*   alpha,
+                                            const float*   x,
+                                            rocblas_int    incx,
+                                            rocblas_int    stridex,
+                                            const float*   y,
+                                            rocblas_int    incy,
+                                            rocblas_int    stridey,
+                                            float*         A,
+                                            rocblas_int    lda,
+                                            rocblas_int    strideA,
+                                            rocblas_int    batch_count)
+{
+    return rocblas_ger_strided_batched_impl(
+        handle, m, n, alpha, x, incx, stridex, y, incy, stridey, A, lda, strideA, batch_count);
+}
+
+rocblas_status rocblas_dger_strided_batched(rocblas_handle handle,
+                                            rocblas_int    m,
+                                            rocblas_int    n,
+                                            const double*  alpha,
+                                            const double*  x,
+                                            rocblas_int    incx,
+                                            rocblas_int    stridex,
+                                            const double*  y,
+                                            rocblas_int    incy,
+                                            rocblas_int    stridey,
+                                            double*        A,
+                                            rocblas_int    lda,
+                                            rocblas_int    strideA,
+                                            rocblas_int    batch_count)
+{
+    return rocblas_ger_strided_batched_impl(
+        handle, m, n, alpha, x, incx, stridex, y, incy, stridey, A, lda, strideA, batch_count);
+}
+
+} // extern "C"
diff --git a/library/src/blas2/rocblas_ger_strided_batched.hpp b/library/src/blas2/rocblas_ger_strided_batched.hpp
new file mode 100644
index 000000000..17defad70
--- /dev/null
+++ b/library/src/blas2/rocblas_ger_strided_batched.hpp
@@ -0,0 +1,121 @@
+/* ************************************************************************
+ * Copyright 2016-2019 Advanced Micro Devices, Inc.
+ * ************************************************************************ */
+#include "handle.h"
+#include "logging.h"
+#include "rocblas.h"
+#include "utility.h"
+
+template <typename T, typename U>
+__global__ void ger_strided_batched_kernel(rocblas_int m,
+                                           rocblas_int n,
+                                           U           alpha_device_host,
+                                           const T* const __restrict__ xa,
+                                           rocblas_int shiftx,
+                                           rocblas_int incx,
+                                           rocblas_int stridex,
+                                           const T* const __restrict__ ya,
+                                           rocblas_int shifty,
+                                           rocblas_int incy,
+                                           rocblas_int stridey,
+                                           T* const    Aa,
+                                           rocblas_int shiftA,
+                                           rocblas_int lda,
+                                           rocblas_int strideA)
+{
+
+    ptrdiff_t tx = hipBlockIdx_x * hipBlockDim_x + hipThreadIdx_x;
+    ptrdiff_t ty = hipBlockIdx_y * hipBlockDim_y + hipThreadIdx_y;
+
+    if(tx < m && ty < n)
+    {
+        auto alpha = load_scalar(alpha_device_host);
+        T*   A;
+        const T* __restrict__ x;
+        const T* __restrict__ y;
+        A = Aa + hipBlockIdx_z * strideA + shiftA;
+        x = xa + hipBlockIdx_z * stridex + shiftx;
+        y = ya + hipBlockIdx_z * stridey + shifty;
+
+        A[tx + lda * ty] += alpha * x[tx * incx] * y[ty * incy];
+    }
+}
+
+template <typename T>
+rocblas_status rocblas_ger_strided_batched_template(rocblas_handle handle,
+                                                    rocblas_int    m,
+                                                    rocblas_int    n,
+                                                    const T*       alpha,
+                                                    const T*       x,
+                                                    rocblas_int    shiftx,
+                                                    rocblas_int    incx,
+                                                    rocblas_int    stridex,
+                                                    const T*       y,
+                                                    rocblas_int    shifty,
+                                                    rocblas_int    incy,
+                                                    rocblas_int    stridey,
+                                                    T*             A,
+                                                    rocblas_int    shiftA,
+                                                    rocblas_int    lda,
+                                                    rocblas_int    strideA,
+                                                    rocblas_int    batch_count)
+{
+    hipStream_t rocblas_stream = handle->rocblas_stream;
+
+    static constexpr int GEMV_DIM_X = 128;
+    static constexpr int GEMV_DIM_Y = 8;
+    rocblas_int          blocksX    = (m - 1) / GEMV_DIM_X + 1;
+    rocblas_int          blocksY    = (n - 1) / GEMV_DIM_Y + 1;
+
+    dim3 ger_strided_batched_grid(blocksX, blocksY, batch_count);
+    dim3 ger_strided_batched_threads(GEMV_DIM_X, GEMV_DIM_Y);
+
+    if(incx < 0)
+        x -= ptrdiff_t(incx) * (m - 1);
+    if(incy < 0)
+        y -= ptrdiff_t(incy) * (n - 1);
+
+    if(handle->pointer_mode == rocblas_pointer_mode_device)
+        hipLaunchKernelGGL(ger_strided_batched_kernel,
+                           ger_strided_batched_grid,
+                           ger_strided_batched_threads,
+                           0,
+                           rocblas_stream,
+                           m,
+                           n,
+                           alpha,
+                           x,
+                           shiftx,
+                           incx,
+                           stridex,
+                           y,
+                           shifty,
+                           incy,
+                           stridey,
+                           A,
+                           shiftA,
+                           lda,
+                           strideA);
+    else
+        hipLaunchKernelGGL(ger_strided_batched_kernel,
+                           ger_strided_batched_grid,
+                           ger_strided_batched_threads,
+                           0,
+                           rocblas_stream,
+                           m,
+                           n,
+                           *alpha,
+                           x,
+                           shiftx,
+                           incx,
+                           stridex,
+                           y,
+                           shifty,
+                           incy,
+                           stridey,
+                           A,
+                           shiftA,
+                           lda,
+                           strideA);
+    return rocblas_status_success;
+}
diff --git a/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Ailk_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Ailk_BjlkC_CB.yaml
new file mode 100644
index 000000000..9804fe63a
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Ailk_BjlkC_CB.yaml
@@ -0,0 +1,221 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 95.3262]
+- null
diff --git a/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Ailk_BjlkC_ZB.yaml b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Ailk_BjlkC_ZB.yaml
new file mode 100644
index 000000000..3a2cb97a5
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Ailk_BjlkC_ZB.yaml
@@ -0,0 +1,221 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 74.2624]
+- null
diff --git a/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Ailk_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Ailk_Bjlk_CB.yaml
new file mode 100644
index 000000000..a5b1b7882
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Ailk_Bjlk_CB.yaml
@@ -0,0 +1,221 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 98.1813]
+- null
diff --git a/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Ailk_Bjlk_ZB.yaml b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Ailk_Bjlk_ZB.yaml
new file mode 100644
index 000000000..0379068d8
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Ailk_Bjlk_ZB.yaml
@@ -0,0 +1,221 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 55.1309]
+- null
diff --git a/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Ailk_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Ailk_Bljk_CB.yaml
new file mode 100644
index 000000000..9bf87b2eb
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Ailk_Bljk_CB.yaml
@@ -0,0 +1,221 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 86.661]
+- null
diff --git a/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Ailk_Bljk_ZB.yaml b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Ailk_Bljk_ZB.yaml
new file mode 100644
index 000000000..e0d2ee51d
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Ailk_Bljk_ZB.yaml
@@ -0,0 +1,221 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 73.8434]
+- null
diff --git a/library/src/blas3/Tensile/Logic/archive/hip_Cijk_AlikC_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_AlikC_BjlkC_CB.yaml
new file mode 100644
index 000000000..4637edce5
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_AlikC_BjlkC_CB.yaml
@@ -0,0 +1,221 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 98.5504]
+- null
diff --git a/library/src/blas3/Tensile/Logic/archive/hip_Cijk_AlikC_BjlkC_ZB.yaml b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_AlikC_BjlkC_ZB.yaml
new file mode 100644
index 000000000..f4bbec836
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_AlikC_BjlkC_ZB.yaml
@@ -0,0 +1,221 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: true
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 63.1677]
+- null
diff --git a/library/src/blas3/Tensile/Logic/archive/hip_Cijk_AlikC_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_AlikC_Bjlk_CB.yaml
new file mode 100644
index 000000000..f8099a727
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_AlikC_Bjlk_CB.yaml
@@ -0,0 +1,221 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 87.091]
+- null
diff --git a/library/src/blas3/Tensile/Logic/archive/hip_Cijk_AlikC_Bjlk_ZB.yaml b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_AlikC_Bjlk_ZB.yaml
new file mode 100644
index 000000000..405ab6a9f
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_AlikC_Bjlk_ZB.yaml
@@ -0,0 +1,221 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 67.477]
+- null
diff --git a/library/src/blas3/Tensile/Logic/archive/hip_Cijk_AlikC_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_AlikC_Bljk_CB.yaml
new file mode 100644
index 000000000..ea013c142
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_AlikC_Bljk_CB.yaml
@@ -0,0 +1,221 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 100.055]
+- null
diff --git a/library/src/blas3/Tensile/Logic/archive/hip_Cijk_AlikC_Bljk_ZB.yaml b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_AlikC_Bljk_ZB.yaml
new file mode 100644
index 000000000..5a3762fef
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_AlikC_Bljk_ZB.yaml
@@ -0,0 +1,221 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 54.614]
+- null
diff --git a/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Alik_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Alik_BjlkC_CB.yaml
new file mode 100644
index 000000000..852959ba4
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Alik_BjlkC_CB.yaml
@@ -0,0 +1,221 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 95.3251]
+- null
diff --git a/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Alik_BjlkC_ZB.yaml b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Alik_BjlkC_ZB.yaml
new file mode 100644
index 000000000..3cb20c294
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Alik_BjlkC_ZB.yaml
@@ -0,0 +1,221 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 68.8053]
+- null
diff --git a/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Alik_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Alik_Bjlk_CB.yaml
new file mode 100644
index 000000000..fd1de52cd
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Alik_Bjlk_CB.yaml
@@ -0,0 +1,221 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 95.4998]
+- null
diff --git a/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Alik_Bjlk_ZB.yaml b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Alik_Bjlk_ZB.yaml
new file mode 100644
index 000000000..ac3925060
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Alik_Bjlk_ZB.yaml
@@ -0,0 +1,221 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 54.1627]
+- null
diff --git a/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Alik_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Alik_Bljk_CB.yaml
new file mode 100644
index 000000000..45e300a68
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Alik_Bljk_CB.yaml
@@ -0,0 +1,221 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 83.8878]
+- null
diff --git a/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Alik_Bljk_ZB.yaml b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Alik_Bljk_ZB.yaml
new file mode 100644
index 000000000..6deff2722
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/archive/hip_Cijk_Alik_Bljk_ZB.yaml
@@ -0,0 +1,221 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 72.1173]
+- null
diff --git a/library/src/blas3/Tensile/Logic/archive/massage.py b/library/src/blas3/Tensile/Logic/archive/massage.py
index f81ca013e..23773b63e 100644
--- a/library/src/blas3/Tensile/Logic/archive/massage.py
+++ b/library/src/blas3/Tensile/Logic/archive/massage.py
@@ -1,59 +1,340 @@
+from __future__ import print_function
 import os
+import sys
+import argparse
+import copy
 
-files = [f for f in os.listdir(".") if (f.startswith('vega20') and f.endswith('DB.yaml')) or \
-                                       (f.startswith('vega20') and f.endswith('SB.yaml')) or \
-                                       (f.startswith('hip') and f.endswith('.yaml'))]
-# print(files)
-for f in files:
-   with open('ldd_'+f, "w") as fo: 
-      with open(f) as fi:  
-         with open(f) as fi1:
-            line = fi1.readline()
-            si = 0
-            while ("- [" not in line) or ("- [D" in line):# Copying over first part of original file
-               if ("SolutionIndex" in line) and (int(line.split(':')[1]) > si):
-                  si = int(line.split(':')[1])
-               fo.write(line)
-               line = fi1.readline()
-            line = fi.readline()
-            si = si + 1
-            while "- -" not in line:
-               line = fi.readline()
-            #handle - -
-            line = "  -" + line.split('- -')[1]
-            while "- [" not in line or ("- [D" in line):#Copying first part of new 
-                if "LVPB" in line:
-                    fo.write(line+"    LdcEqualsLdd: false\n")
-                elif "SolutionIndex" in line:
-                     fo.write(line.split(':')[0]+': '+str(int(line.split(':')[1])+si)+'\n')
-                elif ("&id" in line) and ("[" in line):
-                     fo.write((line.split('[')[0]+'\n').replace('&','*'))
-                elif "ReplacementKernel" in line:
-                     # print("CHANGING")
-                     fo.write(line.split(':')[0]+': false\n')
-                elif "LdcEqualsLdd" in line:
-                     pass
-                else:
-                     fo.write(line)
-                line = fi.readline()
-            fo.write(line)#After copied all text
-            line = fi1.readline()
-            while "- null" not in line:#Copying second part of original
-               fo.write(line)
-               line = fi1.readline()
-            end = line
-            line = fi.readline()
-            #handle - - - 
-            line = "  -" + line.split('- -')[1]
-            while line:#Copying second part of new
-                if "    - [" in line:
-                     new = line.split(',')
-                     new[0] = "    - [" + str(int(new[0].split('[')[1])+si) 
-                     new[1] = " " + str(float(new[1].split(']')[0])+0.1) + ']'
-                     fo.write(new[0]+','+new[1]+'\n')
-                else:
-                     fo.write(line)
-                line = fi.readline()
-for f in files:
-   os.remove(f)
-   os.rename('ldd_'+f, f)
+HR = "################################################################################"
+
+################################################################################
+# Print Debug
+################################################################################
+
+def printWarning(message):
+  print("Tensile::WARNING: %s" % message)
+  sys.stdout.flush()
+
+def printExit(message):
+  print("Tensile::FATAL: %s" % message)
+  sys.stdout.flush()
+  sys.exit(-1)
+
+try:
+  import yaml
+except ImportError:
+  printExit("You must install PyYAML to use Tensile (to parse config files). See http://pyyaml.org/wiki/PyYAML for installation instructions.")
+
+def ensurePath( path ):
+  if not os.path.exists(path):
+    os.makedirs(path)
+  return path
+
+################################################################################
+# Library Logic Container
+################################################################################
+class LibraryLogic:
+
+  def __init__(self,filename=None):
+
+    if filename is not None:
+      print ("# Reading Library Logic: " + filename)
+      try:
+        stream = open(filename, "r")
+      except IOError:
+        printExit("Cannot open file: %s" % filename )
+      data = yaml.load(stream, yaml.SafeLoader)
+
+      if isinstance(data, list):
+
+        length = len(data)
+
+        if (length > 0):
+          self.__set_versionString(data[0]["MinimumRequiredVersion"])
+        else:
+          self.__set_versionString(None)
+
+        if (length > 1):
+          self.__set_scheduleName(data[1])
+        else:
+          self.__set_scheduleName(None)
+
+        if (length > 2):
+          self.__set_architectureName(data[2])
+        else:
+          self.__set_architectureName(None)
+
+        if (length > 3):
+          self.__set_deviceNames(data[3])
+        else:
+          self.__set_deviceNames(None)
+
+        if (length > 4):
+          self.__set_problemType(data[4])
+        else:
+          self.__set_problemType(None)
+
+        if (length > 5):
+          self.__set_solutionStates(data[5])
+        else:
+          self.__set_solutionStates(None)
+
+        if (length > 6):
+          self.__set_indexOrder(data[6])
+        else:
+          self.__set_indexOrder(None)
+
+        if (length > 7):
+          exactData = data[7]
+          exactList = list()
+          for exact in exactData:
+            size = exact[0]
+            if (len(size) > 4):
+              exactOut = [size[:4],exact[1]]
+              exactList.append(exactOut)
+            else:
+              exactList.append(exact)
+          self.__set_exactLogic(exactList)
+        else:
+          self.__set_exactLogic(None)
+
+        if (length > 8):
+          self.__set_rangeLogic(data[8])
+        else:
+          self.__set_rangeLogic(None)
+    
+      else:
+        printExit("Invalid Logic file: %s" % filename)
+
+      stream.close()
+
+    else:
+      self.__set_versionString(None)
+      self.__set_scheduleName(None)
+      self.__set_architectureName(None)
+      self.__set_deviceNames(None)
+      self.__set_problemType(None)
+      self.__set_solutionStates(None)
+      self.__set_indexOrder(None)
+      self.__set_exactLogic(None)
+      self.__set_rangeLogic(None)
+
+  #versionString
+  def __get_versionString(self):
+    return self.__versionString
+
+  def __set_versionString(self,value):
+    self.__versionString = value
+
+  versionString = property(__get_versionString,__set_versionString)
+
+  #scheduleName
+  def __get_scheduleName(self):
+    return self.__scheduleName
+
+  def __set_scheduleName(self, value):
+    self.__scheduleName = value
+
+  scheduleName = property(__get_scheduleName,__set_scheduleName)
+
+  #architectureName
+  def __get_architectureName(self):
+    return self.__architectureName
+
+  def __set_architectureName(self,value):
+    self.__architectureName = value
+
+  architectureName = property(__get_architectureName,__set_architectureName)
+
+  #deviceNames
+  def __get_deviceNames(self):
+    return self.__deviceNames
+
+  def __set_deviceNames(self,value):
+    self.__deviceNames = value
+
+  deviceNames = property(__get_deviceNames,__set_deviceNames)
+
+  
+  #problemTypeState
+  def __get_problemType(self):
+    return self.__problemType
+
+  def __set_problemType(self,value):
+    self.__problemType = value
+
+  problemType = property(__get_problemType,__set_problemType)
+
+  #solutionStates
+  def __get_solutionStates(self):
+    return self.__solutionStates
+
+  def __set_solutionStates(self,value):
+    self.__solutionStates = value
+
+  solutionStates = property(__get_solutionStates,__set_solutionStates)
+
+  #indexOrder
+  def __get_indexOrder(self):
+    return self.__indexOrder
+
+  def __set_indexOrder(self,value):
+    self.__indexOrder = value
+  
+  indexOrder = property(__get_indexOrder,__set_indexOrder)
+
+
+  #exactLogic
+  def __get_exactLogic(self):
+    return self.__exactLogic
+
+  def __set_exactLogic(self,value):
+    self.__exactLogic = value
+
+  exactLogic = property(__get_exactLogic,__set_exactLogic)
+
+  #rangeLogic
+  def __get_rangeLogic(self):
+    return self.__rangeLogic
+
+  def __set_rangeLogic(self,value):
+    self.__rangeLogic = value
+
+  rangeLogic = property(__get_rangeLogic,__set_rangeLogic)
+
+  def writeLibraryLogic(self,filename):
+  
+    data = []
+
+    data.append({"MinimumRequiredVersion":self.versionString})
+    data.append(self.scheduleName)     
+    data.append(self.architectureName)
+    data.append(self.deviceNames)
+    data.append(self.problemType)
+    data.append(self.solutionStates)
+    data.append(self.indexOrder)
+    data.append(self.exactLogic)
+    data.append(self.rangeLogic)
+
+    if not data:
+      printExit("No data to output")
+    else:
+      try:
+        stream = open(filename, "w")
+        yaml.safe_dump(data, stream)
+        stream.close()
+      except IOError:
+        printExit("Cannot open file: %s" % filename)
+
+def MassageTensileLogic(origionalLibraryLogic):
+
+  ouputLibraryLogic = copy.deepcopy(origionalLibraryLogic)
+  
+  inputSolutionList = origionalLibraryLogic.solutionStates
+  outputSolutionList = ouputLibraryLogic.solutionStates
+
+  solutionIndexKey = "SolutionIndex"
+  lastSolutionIndex = 0
+  for solution in inputSolutionList:
+    solutionIndex = solution[solutionIndexKey]
+    if solutionIndex > lastSolutionIndex:
+      lastSolutionIndex = solutionIndex
+
+  numSolutions = len(inputSolutionList)
+
+  if numSolutions != (lastSolutionIndex + 1):
+    raise Exception("SolutionIndex mismatch. The maximal solution index should match the number of solutions. There may be a formatting issue in the logic file.")
+
+  solutionIndexCounter = lastSolutionIndex + 1
+
+  outputSolutionList = []
+  solutionIndexMapper = {}
+  for solution in inputSolutionList:
+    deepSolution = copy.deepcopy(solution)
+    outputSolutionList.append(deepSolution)
+
+  for solution in inputSolutionList:
+
+    if "PackBatchDims" not in solution or solution["PackBatchDims"] != 1:
+      newSolution = copy.deepcopy(solution)
+      oldSolutionIndex = solution[solutionIndexKey]
+      solutionIndexMapper[oldSolutionIndex] = solutionIndexCounter
+      newSolution[solutionIndexKey] = solutionIndexCounter
+
+      newSolution["LdcEqualsLdd"] = False
+      if "ReplacementKernel" in newSolution:
+        newSolution["ReplacementKernel"] = False
+      solutionIndexCounter = solutionIndexCounter + 1
+      outputSolutionList.append(newSolution)
+
+  ouputLibraryLogic.solutionStates = outputSolutionList
+
+  for exact in origionalLibraryLogic.exactLogic:
+    # example exact entry [[123,124,1,123], [5, 4312.3]]
+    # the first fiedl in [5, 4312.3] is the mapping to the 
+    # kernel configuration
+    oldSolutionIndex = exact[1][0]
+    if oldSolutionIndex in solutionIndexMapper:
+      newExact = copy.deepcopy(exact)
+      newSolutionIndex = solutionIndexMapper[oldSolutionIndex]
+      newExact[1][0] = newSolutionIndex
+      ouputLibraryLogic.exactLogic.append(newExact)
+
+  return ouputLibraryLogic
+
+def MassageLogicFile(inputFileName, outputFileName):
+  
+  _, fileName = os.path.split(inputFileName)
+  print ("processing file: " + fileName)
+  libraryLogic = LibraryLogic(inputFileName)
+  massagedLibraryLogic = MassageTensileLogic(libraryLogic)
+  massagedLibraryLogic.writeLibraryLogic(outputFileName)
+
+def RunMassage():
+
+  print("")
+  print(HR)
+  print("# Merge Library Logic")
+  print(HR)
+  print("")
+  
+  ##############################################################################
+  # Parse Command Line Arguments
+  ##############################################################################
+  
+  argParser = argparse.ArgumentParser()
+  argParser.add_argument("InputPath", help="Path to the un massaged LibraryLogic.yaml files.")
+  argParser.add_argument("OutputPath", help="Where to write the massaged files?")
+
+  args = argParser.parse_args()
+
+  inputPath = args.InputPath
+  outputPath = args.OutputPath
+
+  print ("Exact Logic Path: " + inputPath)
+  print ("OutputPath: " + outputPath)
+
+  print("")
+  ensurePath(outputPath)
+  if not os.path.exists(inputPath):
+    printExit("input logic path %s doesn't exist" % inputPath)
+
+  inputLogicFiles = [os.path.join(inputPath, f) for f in os.listdir(inputPath) \
+      if (os.path.isfile(os.path.join(inputPath, f)) \
+      and os.path.splitext(f)[1]==".yaml")]
+
+  for unmassagedLogicFilePath in inputLogicFiles:
+    _, fileName = os.path.split(unmassagedLogicFilePath)
+
+      
+    outputLogicFilePath = os.path.join(outputPath, fileName)
+
+    try:
+      MassageLogicFile(unmassagedLogicFilePath, outputLogicFilePath)
+    except Exception as ex:
+      print("Exception: {0}".format(ex))
+
+################################################################################
+# Main
+################################################################################
+if __name__ == "__main__":
+    RunMassage()
diff --git a/library/src/blas3/Tensile/Logic/archive/vega20_Cijk_Ailk_Bjlk_SB.yaml b/library/src/blas3/Tensile/Logic/archive/vega20_Cijk_Ailk_Bjlk_SB.yaml
index 4b91ed1df..4eee15c76 100644
--- a/library/src/blas3/Tensile/Logic/archive/vega20_Cijk_Ailk_Bjlk_SB.yaml
+++ b/library/src/blas3/Tensile/Logic/archive/vega20_Cijk_Ailk_Bjlk_SB.yaml
@@ -64199,6 +64199,3170 @@
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 395
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT4_4_USFGRO0_VW2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 96
+    LSCB: 64
+    LSPA: 5
+    LSPB: 8
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 396
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT6_4_USFGRO0_VW2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 397
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 398
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_NLCA1_NLCB1_PGR1_PLR0_TT8_4_USFGRO0_VW2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: 1
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 399
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 96
+    LSCB: 64
+    LSPA: 5
+    LSPB: 8
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
+    LVPB: 4
+    LdcEqualsLdd: 1
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 400
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_AMAS3_DTL0_EPS1_GRVW2_GSU1_NLCA1_NLCB1_PBD1_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 401
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 402
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD1_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 403
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 404
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD1_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 405
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: 1
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 406
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: 1
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 407
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: 1
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 408
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_DTL0_EPS0_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 409
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS1_DTL0_EPS1_GRVW1_GSU1_NLCA1_NLCB1_PBD1_PGR1_PLR0_TT4_8_USFGRO0_VW1_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: 1
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 2
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 410
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_AMAS1_DTL0_EPS1_GRVW1_GSU1_NLCA1_NLCB3_PBD1_PGR1_PLR1_TT4_6_USFGRO0_VW1_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: true
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 1
+    LSPB: 4
+    LVCA: 128
+    LVCB: 32
+    LVPA: 1
+    LVPB: 4
+    LdcEqualsLdd: 1
+    LdsNumElements: 1280
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: true
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 411
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x8_SE_AMAS3_DTL1_EPS0_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: true
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 1
+    LSPB: 2
+    LVCA: 128
+    LVCB: 64
+    LVPA: 1
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: true
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 64
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 412
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS1_DTL1_EPS1_GRVW1_GSU1_NLCA1_NLCB1_PBD1_PGR1_PLR0_TT8_8_USFGRO0_VW1_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
 - [2, 3, 0, 1]
 - - - [1024, 128, 1, 128]
     - [4, 1028.02]
@@ -66274,8 +69438,6 @@
     - [98, 6963.26]
   - - [784, 128, 128, 512]
     - [107, 8983.53]
-  - - [196, 256, 64, 1024]
-    - [106, 7823.4]
   - - [3136, 256, 256, 64]
     - [103, 9051.28]
   - - [3136, 64, 128, 64]
@@ -66304,60 +69466,22 @@
     - [102, 8210.56]
   - - [5329, 160, 64, 64]
     - [118, 8156.79]
-  - - [1225, 288, 64, 48]
-    - [122, 6926.13]
-  - - [1225, 192, 64, 64]
-    - [124, 7840.0]
-  - - [64, 1280, 64, 384]
-    - [125, 9276.01]
   - - [1225, 384, 64, 192]
     - [115, 9162.25]
-  - - [1225, 288, 64, 64]
-    - [116, 7495.17]
-  - - [5329, 64, 64, 80]
-    - [117, 8480.03]
   - - [289, 1024, 64, 256]
     - [115, 8483.73]
-  - - [289, 768, 64, 192]
-    - [121, 8234.74]
-  - - [289, 768, 64, 128]
-    - [121, 7988.71]
   - - [64, 1536, 64, 384]
     - [125, 9323.55]
   - - [1225, 384, 64, 64]
     - [124, 8158.7]
-  - - [64, 2048, 64, 192]
-    - [121, 8818.51]
-  - - [64, 1280, 64, 320]
-    - [117, 9202.07]
   - - [1225, 384, 64, 96]
     - [115, 8540.6]
-  - - [64, 1280, 64, 448]
-    - [121, 9317.72]
-  - - [289, 768, 64, 160]
-    - [125, 8128.71]
-  - - [1225, 192, 64, 32]
-    - [124, 6495.27]
   - - [64, 1536, 64, 256]
     - [121, 9142.9]
-  - - [1225, 256, 64, 48]
-    - [119, 7545.26]
-  - - [1225, 256, 64, 64]
-    - [120, 7972.35]
-  - - [1225, 192, 64, 48]
-    - [123, 7348.8]
   - - [289, 1024, 64, 384]
     - [113, 8725.56]
   - - [289, 1024, 64, 192]
     - [115, 8313.06]
-  - - [64, 1280, 64, 192]
-    - [117, 8768.58]
-  - - [64, 2048, 64, 320]
-    - [114, 9147.88]
-  - - [64, 2048, 64, 448]
-    - [112, 9304.06]
-  - - [64, 2048, 64, 384]
-    - [114, 9235.18]
   - - [289, 1024, 64, 128]
     - [121, 7989.41]
   - - [4096, 1024, 1, 2984]
@@ -69178,8 +72302,6 @@
     - [357, 4362.6]
   - - [49, 832, 32, 256]
     - [320, 5618.63]
-  - - [3136, 64, 64, 64]
-    - [306, 8457.65]
   - - [196, 512, 32, 24]
     - [307, 3621.73]
   - - [289, 1120, 1, 160]
@@ -69192,8 +72314,6 @@
     - [305, 3575.67]
   - - [289, 1792, 1, 320]
     - [328, 5140.33]
-  - - [3136, 256, 64, 64]
-    - [329, 9310.12]
   - - [1001, 1024, 1, 32]
     - [300, 2733.4]
   - - [196, 480, 32, 64]
@@ -69202,8 +72322,6 @@
     - [358, 3205.57]
   - - [49, 832, 32, 160]
     - [362, 4988.82]
-  - - [49, 2048, 64, 512]
-    - [332, 7370.31]
   - - [49, 832, 32, 384]
     - [320, 5901.95]
   - - [289, 896, 1, 192]
@@ -69242,8 +72360,6 @@
     - [371, 5987.1]
   - - [64, 2048, 32, 448]
     - [334, 9669.87]
-  - - [196, 1024, 64, 256]
-    - [373, 7818.94]
   - - [5329, 448, 1, 64]
     - [306, 6201.02]
   - - [784, 256, 32, 64]
@@ -69306,8 +72422,6 @@
     - [312, 7067.63]
   - - [49, 832, 32, 48]
     - [345, 3316.72]
-  - - [3136, 64, 64, 256]
-    - [367, 9721.9]
   - - [5329, 160, 32, 64]
     - [369, 8159.84]
   - - [1225, 288, 32, 48]
@@ -69372,14 +72486,8 @@
     - [324, 4831.61]
   - - [196, 528, 32, 256]
     - [342, 6453.82]
-  - - [49, 512, 64, 2048]
-    - [377, 7548.98]
   - - [64, 2048, 32, 192]
     - [329, 8955.81]
-  - - [784, 512, 64, 128]
-    - [329, 9160.73]
-  - - [784, 128, 64, 512]
-    - [336, 9280.69]
   - - [196, 528, 32, 160]
     - [370, 6161.15]
   - - [1225, 192, 32, 48]
@@ -69424,4 +72532,70 @@
     - [393, 9642.08]
   - - [1001, 1536, 1, 64]
     - [383, 5146.56]
+  - - [2048, 2048, 1, 1024]
+    - [397, 9940.21]
+  - - [3200, 2048, 1, 1024]
+    - [396, 9899.24]
+  - - [4096, 4096, 1, 1024]
+    - [398, 10222.2]
+  - - [2048, 256, 1, 1024]
+    - [395, 8452.0]
+  - - [257, 4096, 1, 1024]
+    - [396, 8353.5]
+  - - [64, 2048, 64, 192]
+    - [403, 9434.24]
+  - - [1225, 192, 64, 48]
+    - [407, 7799.38]
+  - - [1225, 288, 64, 48]
+    - [411, 7030.37]
+  - - [289, 768, 64, 160]
+    - [409, 8784.74]
+  - - [3136, 64, 64, 64]
+    - [399, 7941.3]
+  - - [1225, 192, 64, 32]
+    - [408, 6772.91]
+  - - [1225, 256, 64, 48]
+    - [407, 8022.81]
+  - - [64, 2048, 64, 384]
+    - [401, 9859.28]
+  - - [64, 1280, 64, 384]
+    - [401, 9675.44]
+  - - [196, 1024, 64, 256]
+    - [404, 9583.63]
+  - - [64, 1280, 64, 192]
+    - [401, 9320.68]
+  - - [1225, 192, 64, 64]
+    - [407, 8180.87]
+  - - [3136, 256, 64, 64]
+    - [403, 8966.88]
+  - - [1225, 288, 64, 64]
+    - [411, 7567.39]
+  - - [5329, 64, 64, 80]
+    - [406, 8634.33]
+  - - [49, 2048, 64, 512]
+    - [410, 8822.54]
+  - - [784, 512, 64, 128]
+    - [404, 9519.26]
+  - - [289, 768, 64, 192]
+    - [409, 8929.24]
+  - - [64, 1280, 64, 448]
+    - [401, 9702.62]
+  - - [289, 768, 64, 128]
+    - [409, 8566.86]
+  - - [1225, 256, 64, 64]
+    - [407, 8306.43]
+  - - [3136, 64, 64, 256]
+    - [405, 9431.89]
+  - - [64, 1280, 64, 320]
+    - [401, 9754.2]
+  - - [64, 2048, 64, 320]
+    - [401, 9765.55]
+  - - [49, 512, 64, 2048]
+    - [412, 7606.26]
+  - - [64, 2048, 64, 448]
+    - [401, 9948.37]
+  - - [196, 256, 64, 1024]
+    - [400, 8824.43]
+  - - [784, 128, 64, 512]
+    - [402, 9393.09]
 - null
diff --git a/library/src/blas3/Tensile/Logic/archive/vega20_Cijk_Ailk_Bljk_SB.yaml b/library/src/blas3/Tensile/Logic/archive/vega20_Cijk_Ailk_Bljk_SB.yaml
index 1d7b68389..56991285b 100644
--- a/library/src/blas3/Tensile/Logic/archive/vega20_Cijk_Ailk_Bljk_SB.yaml
+++ b/library/src/blas3/Tensile/Logic/archive/vega20_Cijk_Ailk_Bljk_SB.yaml
@@ -111310,6 +111310,4757 @@
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 695
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 696
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_NLCA1_PGR1_PLR0_TT8_4_USFGRO0_VW2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 697
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 698
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 699
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3104
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 700
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 6688
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1600
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 701
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_AMAS3_DTL0_EPS1_GRVW2_LPB2_NLCA1_PBD1_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 6688
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1600
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 702
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_AMAS3_DTL0_EPS1_GRVW2_LPB2_NLCA1_PBD1_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3344
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 703
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_AMAS3_DTL0_EPS1_GRVW2_LPB2_NLCA1_PBD1_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 704
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD1_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 705
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 706
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 707
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD0_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 708
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 32
+    LVCB: 2
+    LVPA: 1
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 709
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD1_PGR1_PLR1_TT8_8_USFGRO0_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 1928
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 448
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 48
+    MacroTileA: 64
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 710
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x48x8_SE_AMAS1_DTL0_EPS1_GRVW1_LPB1_NLCA1_PBD1_PGR1_PLR1_TT4_6_USFGRO0_VW1_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: true
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 1
+    LSPB: 16
+    LVCA: 128
+    LVCB: 8
+    LVPA: 1
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 3592
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: true
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 64
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 711
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS1_DTL1_EPS1_GRVW1_LPB1_NLCA1_PBD1_PGR1_PLR0_TT8_8_USFGRO0_VW1_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 712
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW1_LPB4_NLCA1_PBD0_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 713
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 1928
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 448
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 48
+    MacroTileA: 64
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 714
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x48x8_SE_AMAS1_DTL0_EPS1_GRVW1_LPB1_NLCA1_PBD1_PGR1_PLR1_TT4_6_USFGRO0_VW1_WG16_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 16
+    LVCB: 2
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 715
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3360
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 716
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3848
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 3584
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 192
+    MacroTile1: 32
+    MacroTileA: 192
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 6
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 717
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT192x32x8_SE_AMAS1_DTL0_EPS1_GRVW1_LPB1_NLCA3_PBD1_PGR1_PLR1_TT6_4_USFGRO0_VW1_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 2
+    LSPB: 16
+    LVCA: 128
+    LVCB: 16
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 2832
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 48
+    MacroTileA: 128
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 8
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 718
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x48x16_SE_AMAS1_DTL0_EPS0_GRVW1_LPB1_NLCA1_PBD0_PGR0_PLR0_TT4_6_USFGRO1_VW1_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 2
+    LSPB: 32
+    LVCA: 128
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3592
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 719
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS1_DTL0_EPS1_GRVW1_LPB1_NLCA1_PBD1_PGR1_PLR0_TT4_8_USFGRO0_VW1_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 2
+    LSPB: 32
+    LVCA: 128
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3592
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 720
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS1_DTL0_EPS1_GRVW1_LPB1_NLCA1_PBD1_PGR1_PLR0_TT4_8_USFGRO0_VW1_WG32_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 721
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
 - [2, 3, 0, 1]
 - - - [704, 1024, 1, 128]
     - [102, 3019.46]
@@ -111651,8 +116402,6 @@
     - [82, 5894.7]
   - - [4, 1408, 1, 3328]
     - [73, 552.574]
-  - - [196, 256, 64, 1024]
-    - [171, 5218.24]
   - - [6784, 2944, 1, 256]
     - [136, 8271.08]
   - - [64, 1856, 1, 1280]
@@ -112039,8 +116788,6 @@
     - [108, 5059.86]
   - - [256, 1856, 1, 128]
     - [101, 1858.72]
-  - - [49, 512, 64, 2048]
-    - [172, 3053.57]
   - - [704, 64, 1, 1280]
     - [51, 2849.39]
   - - [5888, 5056, 1, 256]
@@ -112443,8 +117190,6 @@
     - [121, 7892.46]
   - - [4, 448, 1, 256]
     - [43, 70.7951]
-  - - [196, 1024, 64, 256]
-    - [169, 6630.76]
   - - [5888, 128, 1, 256]
     - [119, 5714.99]
   - - [4096, 16, 1, 4096]
@@ -113503,8 +118248,6 @@
     - [125, 7447.08]
   - - [2944, 128, 1, 1280]
     - [130, 5417.17]
-  - - [49, 2048, 64, 512]
-    - [173, 5916.81]
   - - [2560, 32, 1, 2560]
     - [67, 4076.89]
   - - [64, 256, 1, 256]
@@ -113839,14 +118582,10 @@
     - [237, 8892.52]
   - - [4096, 192, 1, 2048]
     - [231, 8024.18]
-  - - [289, 160, 64, 768]
-    - [233, 6783.63]
   - - [1225, 192, 64, 384]
     - [220, 9373.83]
   - - [5329, 64, 64, 160]
     - [224, 9186.69]
-  - - [1225, 64, 64, 288]
-    - [215, 8492.41]
   - - [1225, 64, 64, 384]
     - [219, 8735.76]
   - - [289, 128, 64, 1024]
@@ -113857,40 +118596,22 @@
     - [221, 9052.45]
   - - [4096, 192, 1, 1280]
     - [236, 7561.85]
-  - - [289, 192, 64, 768]
-    - [232, 7882.5]
-  - - [1225, 48, 64, 256]
-    - [223, 6620.25]
   - - [289, 192, 64, 1024]
     - [230, 7346.99]
-  - - [1225, 64, 64, 192]
-    - [216, 8098.35]
   - - [1225, 96, 64, 384]
     - [217, 8303.08]
-  - - [1225, 48, 64, 288]
-    - [225, 6746.77]
   - - [4096, 320, 1, 2048]
     - [226, 8384.42]
   - - [4096, 256, 1, 1536]
     - [238, 8734.34]
-  - - [1225, 48, 64, 192]
-    - [225, 6516.36]
   - - [4096, 384, 1, 1280]
     - [235, 9023.24]
-  - - [1225, 64, 64, 256]
-    - [222, 8319.34]
   - - [4096, 448, 1, 1280]
     - [226, 8343.32]
-  - - [289, 128, 64, 768]
-    - [228, 7667.98]
   - - [289, 256, 64, 1024]
     - [229, 7535.46]
   - - [4096, 448, 1, 2048]
     - [226, 8572.31]
-  - - [5329, 80, 64, 64]
-    - [225, 6492.44]
-  - - [1225, 32, 64, 192]
-    - [218, 6278.54]
   - - [289, 384, 64, 1024]
     - [227, 7767.57]
   - - [1024, 3594, 1, 4096]
@@ -117533,8 +122254,6 @@
     - [663, 7772.99]
   - - [289, 256, 1, 1568]
     - [684, 3718.17]
-  - - [3136, 64, 64, 64]
-    - [623, 8201.15]
   - - [50176, 128, 1, 256]
     - [646, 8908.58]
   - - [5329, 64, 1, 448]
@@ -117611,8 +122330,6 @@
     - [639, 8622.65]
   - - [784, 96, 32, 192]
     - [654, 7092.36]
-  - - [3136, 64, 64, 256]
-    - [647, 9579.16]
   - - [289, 224, 1, 1344]
     - [684, 3180.01]
   - - [1001, 512, 1, 4096]
@@ -117681,8 +122398,6 @@
     - [684, 5904.14]
   - - [289, 384, 1, 2592]
     - [685, 5707.34]
-  - - [784, 128, 64, 512]
-    - [631, 8864.39]
   - - [12544, 1024, 1, 512]
     - [646, 10008.3]
   - - [12544, 256, 1, 512]
@@ -117703,8 +122418,6 @@
     - [667, 5718.69]
   - - [289, 128, 32, 768]
     - [625, 7289.25]
-  - - [3136, 256, 64, 64]
-    - [633, 9103.92]
   - - [196, 64, 1, 800]
     - [671, 915.62]
   - - [4096, 512, 1, 9216]
@@ -117727,8 +122440,6 @@
     - [621, 6990.51]
   - - [64, 384, 1, 1152]
     - [678, 1862.6]
-  - - [784, 512, 64, 128]
-    - [632, 9025.95]
   - - [3136, 512, 1, 2048]
     - [650, 7764.3]
   - - [6272, 144, 1, 512]
@@ -117759,4 +122470,66 @@
     - [688, 3580.87]
   - - [1001, 128, 1, 2048]
     - [689, 5587.87]
+  - - [3200, 1024, 1, 2048]
+    - [697, 9131.95]
+  - - [2048, 1024, 1, 256]
+    - [696, 8452.0]
+  - - [257, 1024, 1, 4096]
+    - [695, 4225.21]
+  - - [784, 128, 64, 512]
+    - [706, 9436.22]
+  - - [1225, 48, 64, 256]
+    - [710, 7670.22]
+  - - [289, 160, 64, 768]
+    - [717, 8253.88]
+  - - [3136, 64, 64, 64]
+    - [698, 8028.16]
+  - - [49, 2048, 64, 512]
+    - [719, 8608.21]
+  - - [1225, 32, 64, 192]
+    - [716, 6968.89]
+  - - [196, 1024, 64, 256]
+    - [708, 9669.3]
+  - - [784, 512, 64, 128]
+    - [706, 9635.3]
+  - - [196, 256, 64, 1024]
+    - [703, 8736.28]
+  - - [64, 448, 64, 2048]
+    - [709, 8841.76]
+  - - [64, 192, 64, 1280]
+    - [702, 9118.05]
+  - - [3136, 64, 64, 256]
+    - [705, 9678.4]
+  - - [49, 512, 64, 2048]
+    - [711, 7567.05]
+  - - [64, 320, 64, 1280]
+    - [700, 8738.13]
+  - - [3136, 256, 64, 64]
+    - [707, 8998.29]
+  - - [64, 384, 64, 1280]
+    - [704, 9903.91]
+  - - [1225, 48, 64, 192]
+    - [714, 7236.92]
+  - - [1225, 64, 64, 288]
+    - [715, 8893.83]
+  - - [289, 192, 64, 768]
+    - [720, 8850.42]
+  - - [289, 128, 64, 768]
+    - [712, 8442.75]
+  - - [64, 448, 64, 1280]
+    - [700, 8894.31]
+  - - [5329, 80, 64, 64]
+    - [718, 6687.37]
+  - - [64, 384, 64, 2048]
+    - [706, 10051.3]
+  - - [1225, 64, 64, 192]
+    - [713, 8339.5]
+  - - [64, 192, 64, 2048]
+    - [701, 9333.64]
+  - - [64, 320, 64, 2048]
+    - [699, 8473.34]
+  - - [1225, 48, 64, 288]
+    - [714, 7844.54]
+  - - [1225, 64, 64, 256]
+    - [721, 8721.52]
 - null
diff --git a/library/src/blas3/Tensile/Logic/archive/vega20_Cijk_Alik_Bljk_SB.yaml b/library/src/blas3/Tensile/Logic/archive/vega20_Cijk_Alik_Bljk_SB.yaml
index 09b032b57..7798ec51b 100644
--- a/library/src/blas3/Tensile/Logic/archive/vega20_Cijk_Alik_Bljk_SB.yaml
+++ b/library/src/blas3/Tensile/Logic/archive/vega20_Cijk_Alik_Bljk_SB.yaml
@@ -83906,6 +83906,5477 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 519
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 520
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 521
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 522
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 523
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 524
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 525
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 526
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 527
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 528
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 529
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 530
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 531
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR0_TT4_8_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 532
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA4_LPB0_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 533
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3200
+    LdsOffsetA: 0
+    LdsOffsetB: 2112
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 534
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW1_LPA4_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 535
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT8_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3200
+    LdsOffsetA: 0
+    LdsOffsetB: 2112
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 536
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 537
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_LPA4_LPB0_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 538
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 539
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT8_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 540
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA4_LPB4_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 541
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2176
+    LdsOffsetA: 0
+    LdsOffsetB: 1088
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 542
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS0_FL0_GRVW2_LPA2_LPB2_PGR0_PLR0_TT2_4_USFGRO1_VW2_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2176
+    LdsOffsetA: 0
+    LdsOffsetB: 1088
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 543
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS0_FL0_GRVW4_LPA2_LPB2_PGR0_PLR1_TT2_4_USFGRO1_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 544
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 545
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 546
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 547
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG8_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 548
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 549
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
 - [2, 3, 0, 1]
 - - - [1024, 128, 1, 128]
     - [12, 896.219]
@@ -89949,28 +95420,100 @@
     - [474, 959.247]
   - - [512, 1024, 1, 196]
     - [417, 4978.7]
-  - - [96, 64, 36, 10368]
-    - [511, 5000.95]
-  - - [384, 448, 36, 512]
-    - [516, 8903.0]
   - - [2048, 64, 1, 1001]
     - [509, 4385.13]
-  - - [224, 192, 36, 5184]
-    - [515, 7487.81]
   - - [2048, 128, 1, 1001]
     - [508, 5764.63]
-  - - [96, 96, 36, 10368]
-    - [517, 5275.21]
-  - - [192, 80, 36, 20736]
-    - [513, 5409.4]
-  - - [96, 64, 36, 5184]
-    - [511, 4911.83]
   - - [1536, 64, 1, 1001]
     - [510, 3162.03]
-  - - [96, 64, 36, 20736]
-    - [512, 5034.33]
+  - - [32, 32, 64, 40000]
+    - [544, 2449.4]
+  - - [224, 192, 36, 5184]
+    - [539, 7500.12]
+  - - [32, 32, 49, 115200]
+    - [545, 1878.28]
+  - - [384, 448, 49, 512]
+    - [535, 8945.32]
+  - - [192, 80, 36, 20736]
+    - [533, 5412.26]
+  - - [384, 448, 64, 256]
+    - [536, 9230.33]
+  - - [96, 64, 64, 18432]
+    - [520, 5008.4]
+  - - [224, 192, 64, 4608]
+    - [539, 8684.53]
+  - - [96, 96, 49, 3136]
+    - [543, 5183.63]
+  - - [224, 192, 64, 2304]
+    - [535, 8722.76]
+  - - [64, 32, 49, 57600]
+    - [525, 3565.26]
   - - [384, 448, 36, 256]
-    - [514, 8815.87]
+    - [534, 8843.41]
+  - - [96, 64, 36, 10368]
+    - [527, 4997.46]
+  - - [96, 64, 36, 20736]
+    - [529, 5034.77]
+  - - [192, 80, 49, 14400]
+    - [525, 4892.22]
+  - - [96, 64, 49, 6272]
+    - [546, 5617.04]
+  - - [64, 32, 49, 115200]
+    - [524, 3572.57]
+  - - [384, 448, 49, 256]
+    - [537, 8858.66]
+  - - [96, 96, 64, 2304]
+    - [533, 5379.02]
+  - - [96, 96, 49, 6272]
+    - [542, 5235.76]
+  - - [224, 192, 49, 6272]
+    - [538, 7629.28]
+  - - [96, 96, 36, 10368]
+    - [541, 5281.04]
+  - - [96, 64, 36, 5184]
+    - [526, 4945.73]
+  - - [384, 448, 64, 512]
+    - [534, 9294.86]
+  - - [224, 192, 49, 3136]
+    - [538, 7513.4]
+  - - [384, 448, 36, 512]
+    - [540, 8961.38]
+  - - [32, 32, 36, 175232]
+    - [548, 1385.5]
+  - - [224, 192, 36, 10368]
+    - [539, 7565.73]
+  - - [64, 32, 64, 40000]
+    - [524, 4658.85]
+  - - [96, 64, 64, 4608]
+    - [523, 5461.6]
+  - - [32, 32, 49, 57600]
+    - [545, 1877.01]
+  - - [192, 80, 36, 41472]
+    - [531, 5123.59]
+  - - [32, 32, 36, 87616]
+    - [544, 1382.32]
+  - - [192, 80, 49, 28800]
+    - [524, 4901.95]
+  - - [96, 64, 49, 28800]
+    - [521, 4862.5]
+  - - [96, 64, 36, 41472]
+    - [528, 5002.26]
+  - - [192, 80, 64, 9216]
+    - [519, 5300.55]
   - - [96, 96, 36, 5184]
-    - [518, 5236.02]
+    - [541, 5246.24]
+  - - [32, 32, 64, 80000]
+    - [549, 2457.11]
+  - - [96, 64, 64, 2304]
+    - [547, 6225.74]
+  - - [96, 64, 49, 3136]
+    - [546, 5489.02]
+  - - [64, 32, 36, 87616]
+    - [524, 2636.29]
+  - - [64, 32, 64, 80000]
+    - [524, 4677.64]
+  - - [96, 96, 64, 4608]
+    - [530, 5119.63]
+  - - [64, 32, 36, 175232]
+    - [525, 2639.83]
 - null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Ailk_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Ailk_BjlkC_CB.yaml
new file mode 100644
index 000000000..a18db1e4e
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Ailk_BjlkC_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 95.3262]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 95.4262]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Ailk_BjlkC_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Ailk_BjlkC_ZB.yaml
new file mode 100644
index 000000000..e0bd43b74
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Ailk_BjlkC_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 74.2624]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 74.3624]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Ailk_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Ailk_Bjlk_CB.yaml
new file mode 100644
index 000000000..45ba1e705
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Ailk_Bjlk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 98.1813]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 98.28129999999999]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Ailk_Bjlk_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Ailk_Bjlk_ZB.yaml
new file mode 100644
index 000000000..3e8e40558
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Ailk_Bjlk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 55.1309]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 55.2309]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Ailk_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Ailk_Bljk_CB.yaml
new file mode 100644
index 000000000..fea9d7cb1
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Ailk_Bljk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 86.661]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 86.761]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Ailk_Bljk_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Ailk_Bljk_ZB.yaml
new file mode 100644
index 000000000..ca8209d1c
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Ailk_Bljk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 73.8434]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 73.9434]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_AlikC_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_AlikC_BjlkC_CB.yaml
new file mode 100644
index 000000000..2a713ef20
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_AlikC_BjlkC_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 98.5504]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 98.65039999999999]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_AlikC_BjlkC_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_AlikC_BjlkC_ZB.yaml
new file mode 100644
index 000000000..fd7d3c6b5
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_AlikC_BjlkC_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: true
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 63.1677]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 63.267700000000005]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_AlikC_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_AlikC_Bjlk_CB.yaml
new file mode 100644
index 000000000..8076baf2b
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_AlikC_Bjlk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 87.091]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 87.19099999999999]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_AlikC_Bjlk_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_AlikC_Bjlk_ZB.yaml
new file mode 100644
index 000000000..eaa83de6f
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_AlikC_Bjlk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 67.477]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 67.577]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_AlikC_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_AlikC_Bljk_CB.yaml
new file mode 100644
index 000000000..edfeff8e1
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_AlikC_Bljk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 100.055]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 100.155]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_AlikC_Bljk_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_AlikC_Bljk_ZB.yaml
new file mode 100644
index 000000000..c7193004b
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_AlikC_Bljk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 54.614]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 54.714]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Alik_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Alik_BjlkC_CB.yaml
new file mode 100644
index 000000000..58f790973
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Alik_BjlkC_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 95.3251]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 95.4251]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Alik_BjlkC_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Alik_BjlkC_ZB.yaml
new file mode 100644
index 000000000..c3cc687af
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Alik_BjlkC_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 68.8053]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 68.9053]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Alik_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Alik_Bjlk_CB.yaml
new file mode 100644
index 000000000..021645d68
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Alik_Bjlk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 95.4998]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 95.59979999999999]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Alik_Bjlk_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Alik_Bjlk_ZB.yaml
new file mode 100644
index 000000000..3d4595e89
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Alik_Bjlk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 54.1627]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 54.2627]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Alik_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Alik_Bljk_CB.yaml
new file mode 100644
index 000000000..beeaa8416
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Alik_Bljk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 83.8878]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 83.9878]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Alik_Bljk_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Alik_Bljk_ZB.yaml
new file mode 100644
index 000000000..d532fa4ad
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/hip_Cijk_Alik_Bljk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 72.1173]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 72.2173]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Ailk_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Ailk_BjlkC_CB.yaml
new file mode 100644
index 000000000..5f6cc9c50
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Ailk_BjlkC_CB.yaml
@@ -0,0 +1,493 @@
+- MinimumRequiredVersion: 4.10.0
+- vega20
+- gfx906
+- - Device 66a0
+  - Device 66a1
+  - Device 66a7
+  - Vega 20
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA:
+  - 0
+  - 3
+  - 2
+  IndexAssignmentsB:
+  - 1
+  - 3
+  - 2
+  IndexAssignmentsLD:
+  - 4
+  - 5
+  - 6
+  - 7
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch:
+  - 2
+  IndicesFree:
+  - 0
+  - 1
+  IndicesSummation:
+  - 3
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 0
+      - 3
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_BjlkC_CB_MT64x64x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 0
+      - 3
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_BjlkC_CB_MT64x64x4_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+- - 2
+  - 3
+  - 0
+  - 1
+- - - - 64
+      - 64
+      - 1
+      - 256
+      - 64
+      - 64
+      - 64
+      - 64
+    - - 0
+      - 101.902
+  - - - 1
+      - 1
+      - 1
+      - 256
+      - 1
+      - 1
+      - 1
+      - 1
+    - - 1
+      - 0.0264736
+  - - - 1
+      - 64
+      - 1
+      - 256
+      - 1
+      - 1
+      - 1
+      - 64
+    - - 1
+      - 1.83883
+  - - - 64
+      - 1
+      - 1
+      - 256
+      - 64
+      - 64
+      - 64
+      - 1
+    - - 1
+      - 1.69782
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Ailk_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Ailk_Bjlk_CB.yaml
new file mode 100644
index 000000000..1daf7c48e
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Ailk_Bjlk_CB.yaml
@@ -0,0 +1,493 @@
+- MinimumRequiredVersion: 4.10.0
+- vega20
+- gfx906
+- - Device 66a0
+  - Device 66a1
+  - Device 66a7
+  - Vega 20
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA:
+  - 0
+  - 3
+  - 2
+  IndexAssignmentsB:
+  - 1
+  - 3
+  - 2
+  IndexAssignmentsLD:
+  - 4
+  - 5
+  - 6
+  - 7
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch:
+  - 2
+  IndicesFree:
+  - 0
+  - 1
+  IndicesSummation:
+  - 3
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 0
+      - 3
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bjlk_CB_MT64x64x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 0
+      - 3
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bjlk_CB_MT64x64x4_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+- - 2
+  - 3
+  - 0
+  - 1
+- - - - 64
+      - 64
+      - 1
+      - 256
+      - 64
+      - 64
+      - 64
+      - 64
+    - - 0
+      - 118.888
+  - - - 1
+      - 1
+      - 1
+      - 256
+      - 1
+      - 1
+      - 1
+      - 1
+    - - 1
+      - 0.0263646
+  - - - 1
+      - 64
+      - 1
+      - 256
+      - 1
+      - 1
+      - 1
+      - 64
+    - - 1
+      - 1.8576
+  - - - 64
+      - 1
+      - 1
+      - 256
+      - 64
+      - 64
+      - 64
+      - 1
+    - - 1
+      - 1.83678
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Ailk_Bjlk_SB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Ailk_Bjlk_SB.yaml
index 520f17834..e04f05ccb 100644
--- a/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Ailk_Bjlk_SB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Ailk_Bjlk_SB.yaml
@@ -172,7 +172,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: &id001 [2, 2]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -183,7 +183,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id007 [16, 4, 1]
+    WorkGroup: [16, 4, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -320,7 +320,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -331,7 +331,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id002 [8, 8, 1]
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -468,7 +468,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id003 [4, 2]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -479,7 +479,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -616,7 +616,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id005 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -627,7 +627,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -764,7 +764,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -775,7 +775,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id004 [16, 8, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -912,7 +912,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -923,7 +923,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1060,7 +1060,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -1071,7 +1071,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1208,7 +1208,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -1219,7 +1219,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1356,7 +1356,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -1367,7 +1367,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1504,7 +1504,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -1515,7 +1515,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1652,7 +1652,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -1663,7 +1663,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1800,7 +1800,7 @@
     SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -1811,7 +1811,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id006 [32, 4, 1]
+    WorkGroup: [32, 4, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1948,7 +1948,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -1959,7 +1959,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2096,7 +2096,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -2107,7 +2107,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2244,7 +2244,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -2255,7 +2255,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2392,7 +2392,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -2403,7 +2403,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2540,7 +2540,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -2551,7 +2551,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id004
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2688,7 +2688,7 @@
     SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -2699,7 +2699,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006
+    WorkGroup: [32, 4, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2836,7 +2836,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -2847,7 +2847,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id007
+    WorkGroup: [16, 4, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2984,7 +2984,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -2995,7 +2995,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3132,7 +3132,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -3143,7 +3143,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3280,7 +3280,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id009 [2, 2]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -3291,7 +3291,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id008 [8, 8, 2]
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3428,7 +3428,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id010 [4, 2]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -3439,7 +3439,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3576,7 +3576,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -3587,7 +3587,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3724,7 +3724,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -3735,7 +3735,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3872,7 +3872,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -3883,7 +3883,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4020,7 +4020,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -4031,7 +4031,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4168,7 +4168,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id013 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -4179,7 +4179,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4316,7 +4316,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id015 [8, 4]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -4327,7 +4327,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4464,7 +4464,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -4475,7 +4475,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id011 [8, 8, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4612,7 +4612,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -4623,7 +4623,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4760,7 +4760,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -4771,7 +4771,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id012 [16, 8, 2]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4908,7 +4908,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -4919,7 +4919,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id012
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5056,7 +5056,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -5067,7 +5067,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id014 [16, 4, 4]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5204,7 +5204,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -5215,7 +5215,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5352,7 +5352,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -5363,7 +5363,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5500,7 +5500,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -5511,7 +5511,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5648,7 +5648,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -5659,7 +5659,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5796,7 +5796,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -5807,7 +5807,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5944,7 +5944,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -5955,7 +5955,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id012
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6092,7 +6092,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -6103,7 +6103,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6240,7 +6240,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -6251,7 +6251,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6388,7 +6388,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -6399,7 +6399,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6536,7 +6536,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -6547,7 +6547,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6684,7 +6684,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -6695,7 +6695,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6832,7 +6832,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -6843,7 +6843,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6980,7 +6980,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -6991,7 +6991,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7128,7 +7128,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -7139,7 +7139,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7276,7 +7276,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -7287,7 +7287,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7424,7 +7424,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -7435,7 +7435,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7572,7 +7572,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -7583,7 +7583,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id012
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7731,7 +7731,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7868,7 +7868,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -7879,7 +7879,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8016,7 +8016,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -8027,7 +8027,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8164,7 +8164,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -8175,7 +8175,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8312,7 +8312,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -8323,7 +8323,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8460,7 +8460,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -8471,7 +8471,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8608,7 +8608,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -8619,7 +8619,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8756,7 +8756,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -8767,7 +8767,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8904,7 +8904,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -8915,7 +8915,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9052,7 +9052,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -9063,7 +9063,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9200,7 +9200,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -9211,7 +9211,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9348,7 +9348,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -9359,7 +9359,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9496,7 +9496,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -9507,7 +9507,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9644,7 +9644,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -9655,7 +9655,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9803,7 +9803,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id016 [16, 16, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9940,7 +9940,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id017 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -9951,7 +9951,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10088,7 +10088,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id018 [4, 8]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -10099,7 +10099,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10236,7 +10236,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id019 [8, 4]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -10247,7 +10247,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10384,7 +10384,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id017
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -10395,7 +10395,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10532,7 +10532,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -10543,7 +10543,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10680,7 +10680,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -10691,7 +10691,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10828,7 +10828,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: &id020 [8, 8]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -10839,7 +10839,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id021 [16, 16, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10976,7 +10976,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id020
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -10987,7 +10987,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11124,7 +11124,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: &id022 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -11135,7 +11135,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11272,7 +11272,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: &id023 [4, 8]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -11283,7 +11283,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11420,7 +11420,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: &id024 [6, 8]
+    ThreadTile: [6, 8]
     ThreadTile0: 6
     ThreadTile1: 8
     ThreadTileA: 6
@@ -11431,7 +11431,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11568,7 +11568,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: &id025 [8, 4]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -11579,7 +11579,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11716,7 +11716,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: &id026 [8, 6]
+    ThreadTile: [8, 6]
     ThreadTile0: 8
     ThreadTile1: 6
     ThreadTileA: 8
@@ -11727,7 +11727,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11864,7 +11864,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id020
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -11875,7 +11875,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12012,7 +12012,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id022
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -12023,7 +12023,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12160,7 +12160,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id023
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -12171,7 +12171,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12308,7 +12308,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id024
+    ThreadTile: [6, 8]
     ThreadTile0: 6
     ThreadTile1: 8
     ThreadTileA: 6
@@ -12319,7 +12319,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12456,7 +12456,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id025
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -12467,7 +12467,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12604,7 +12604,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id026
+    ThreadTile: [8, 6]
     ThreadTile0: 8
     ThreadTile1: 6
     ThreadTileA: 8
@@ -12615,7 +12615,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12752,7 +12752,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id020
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -12763,7 +12763,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12911,7 +12911,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id027 [8, 8, 1]
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13059,7 +13059,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id027
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13196,7 +13196,7 @@
     SubGroupA: 4
     SubGroupB: 4
     SuppresssNoLoadLoop: true
-    ThreadTile: &id028 [2, 2]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -13207,7 +13207,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id029 [4, 4, 4]
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13344,7 +13344,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: true
-    ThreadTile: *id028
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -13355,7 +13355,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id031 [8, 8, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13492,7 +13492,7 @@
     SubGroupA: 4
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id028
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -13503,7 +13503,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id029
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13640,7 +13640,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id028
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -13651,7 +13651,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id030 [8, 8, 1]
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13788,7 +13788,7 @@
     SubGroupA: 4
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id028
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -13799,7 +13799,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id029
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13936,7 +13936,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id028
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -13947,7 +13947,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id030
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14084,7 +14084,7 @@
     SubGroupA: 4
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id028
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -14095,7 +14095,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id029
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14232,7 +14232,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id028
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -14380,7 +14380,7 @@
     SubGroupA: 4
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id028
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -14391,7 +14391,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id029
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14528,7 +14528,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id028
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -14539,7 +14539,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id031
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: false
@@ -14671,7 +14671,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: &id032 [4, 8]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -14682,7 +14682,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id035 [16, 16, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -14816,7 +14816,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    ThreadTile: *id032
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -14827,7 +14827,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id034 [16, 8, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -14957,7 +14957,7 @@
     SubGroup1: 32
     SubGroupA: 8
     SubGroupB: 32
-    ThreadTile: *id032
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -14968,7 +14968,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id033 [8, 32, 1]
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -15098,7 +15098,7 @@
     SubGroup1: 32
     SubGroupA: 8
     SubGroupB: 32
-    ThreadTile: *id032
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -15109,7 +15109,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -15239,7 +15239,7 @@
     SubGroup1: 32
     SubGroupA: 8
     SubGroupB: 32
-    ThreadTile: *id032
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -15250,7 +15250,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -15380,7 +15380,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    ThreadTile: *id032
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -15391,7 +15391,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -15525,7 +15525,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: &id036 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -15536,7 +15536,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -15670,7 +15670,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    ThreadTile: *id032
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -15681,7 +15681,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -15815,7 +15815,7 @@
     SubGroup1: 32
     SubGroupA: 8
     SubGroupB: 32
-    ThreadTile: *id036
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -15826,7 +15826,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -15967,7 +15967,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -16101,7 +16101,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id036
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -16112,7 +16112,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -16242,7 +16242,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id032
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -16253,7 +16253,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -16387,7 +16387,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id036
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -16398,7 +16398,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -16528,7 +16528,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id032
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -16539,7 +16539,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -64202,11 +64202,11 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -64216,10 +64216,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -64232,25 +64232,27 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 8
-    LSPA: 4
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
     LSPB: 8
-    LVCA: 16
-    LVCB: 8
-    LVPA: 2
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 832
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 64
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -64264,30 +64266,41 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -64295,6 +64308,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -64304,6 +64318,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -64313,49 +64328,62 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 395
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT4_4_USFGRO0_VW2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id007 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -64365,8 +64393,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -64382,24 +64410,26 @@
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 96
+    LSCB: 64
+    LSPA: 5
     LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
     LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -64413,30 +64443,39 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -64444,6 +64483,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -64453,6 +64493,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -64462,49 +64503,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 396
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT6_4_USFGRO0_VW2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -64514,8 +64570,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -64531,24 +64587,26 @@
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 16
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
     LSPA: 4
     LSPB: 8
-    LVCA: 16
-    LVCB: 8
+    LVCA: 64
+    LVCB: 32
     LVPA: 2
     LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -64562,30 +64620,41 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -64593,6 +64662,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -64602,6 +64672,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -64611,49 +64682,62 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 397
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id003 
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -64663,41 +64747,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
     LSPB: 8
-    LVCA: 8
-    LVCB: 8
+    LVCA: 64
+    LVCB: 32
     LVPA: 2
-    LVPB: 2
-    LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -64711,37 +64797,47 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -64751,6 +64847,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -64760,93 +64857,110 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 398
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005 
-    ThreadTile0: 4
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_NLCA1_NLCB1_PGR1_PLR0_TT8_4_USFGRO0_VW2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id002
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 16
-    LSPA: 8
-    LSPB: 8
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
     LVCB: 16
     LVPA: 4
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LVPB: 4
+    LdcEqualsLdd: 1
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -64859,31 +64973,39 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -64891,6 +65013,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -64900,6 +65023,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -64909,49 +65033,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 399
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id004 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -64961,10 +65100,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -64976,26 +65115,28 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 96
+    LSCB: 64
+    LSPA: 5
     LSPB: 8
-    LVCA: 32
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
+    LVPB: 4
+    LdcEqualsLdd: 1
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -65009,30 +65150,38 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -65040,6 +65189,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -65049,6 +65199,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -65058,49 +65209,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 400
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_AMAS3_DTL0_EPS1_GRVW2_GSU1_NLCA1_NLCB1_PBD1_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id003
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -65110,41 +65276,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
     LSPA: 8
     LSPB: 8
-    LVCA: 8
-    LVCB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -65158,30 +65326,38 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -65189,6 +65365,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -65198,6 +65375,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -65207,49 +65385,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 401
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id002
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -65259,41 +65452,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 16
-    LSPA: 4
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
     LSPB: 8
-    LVCA: 16
-    LVCB: 8
-    LVPA: 2
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -65307,25 +65502,4782 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 402
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD1_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 403
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 404
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD1_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 405
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: 1
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 406
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: 1
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 407
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: 1
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 408
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_DTL0_EPS0_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 409
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS1_DTL0_EPS1_GRVW1_GSU1_NLCA1_NLCB1_PBD1_PGR1_PLR0_TT4_8_USFGRO0_VW1_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: 1
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 2
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 410
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_AMAS1_DTL0_EPS1_GRVW1_GSU1_NLCA1_NLCB3_PBD1_PGR1_PLR1_TT4_6_USFGRO0_VW1_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: true
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 1
+    LSPB: 4
+    LVCA: 128
+    LVCB: 32
+    LVPA: 1
+    LVPB: 4
+    LdcEqualsLdd: 1
+    LdsNumElements: 1280
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: true
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 411
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x8_SE_AMAS3_DTL1_EPS0_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: true
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 1
+    LSPB: 2
+    LVCA: 128
+    LVCB: 64
+    LVPA: 1
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: true
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 64
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 412
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS1_DTL1_EPS1_GRVW1_GSU1_NLCA1_NLCB1_PBD1_PGR1_PLR0_TT8_8_USFGRO0_VW1_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 832
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 413
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 414
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 415
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 416
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 417
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 418
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 419
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 420
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 421
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 422
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 423
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 424
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [32, 4, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 425
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 426
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 427
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 428
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 429
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 430
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [32, 4, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 431
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -65370,17 +70322,17 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 402
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SolutionIndex: 432
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 0
@@ -65388,7 +70340,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -65402,7 +70354,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -65410,39 +70362,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Source
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 8
     LSPB: 8
     LVCA: 8
     LVCB: 8
-    LVPA: 2
-    LVPB: 2
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 384
+    LdsNumElementsAlignedB: 384
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 384
+    LdsOffsetB_Blk: 1408
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -65455,11 +70407,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 24
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -65467,14 +70419,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 3
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 3
     NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -65519,35 +70471,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 403
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SolutionIndex: 433
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x24_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id002
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -65557,9 +70509,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -65568,46 +70520,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 16
     LSCB: 16
     LSPA: 8
     LSPB: 8
     LVCA: 16
     LVCB: 16
-    LVPA: 4
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
     LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -65616,8 +70568,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -65668,35 +70620,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 404
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 434
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -65706,8 +70658,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -65717,46 +70669,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 32
     LSCB: 16
-    LSPA: 4
+    LSPA: 8
     LSPB: 8
-    LVCA: 32
+    LVCA: 16
     LVCB: 16
-    LVPA: 2
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -65765,13 +70717,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -65817,47 +70769,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 405
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 435
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -65866,47 +70818,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 8
-    LSPA: 4
-    LSPB: 16
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 16
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3200
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
     LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -65914,13 +70866,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -65966,48 +70918,48 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 406
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
+    SolutionIndex: 436
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006 
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -66015,43 +70967,43 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 8
     LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 16
     MacroTile1: 16
     MacroTileA: 16
@@ -66063,15 +71015,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -66115,35 +71067,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 407
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SolutionIndex: 437
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -66153,8 +71105,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -66164,46 +71116,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 16
     LSCB: 16
-    LSPA: 4
-    LSPB: 8
-    LVCA: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
     LVCB: 8
-    LVPA: 2
-    LVPB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -66212,15 +71164,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -66264,35 +71216,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 408
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SolutionIndex: 438
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -66302,37 +71254,37 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
+    LSCB: 16
     LSPA: 8
-    LSPB: 8
-    LVCA: 8
+    LSPB: 16
+    LVCA: 16
     LVCB: 8
-    LVPA: 2
-    LVPB: 2
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -66342,18 +71294,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -66361,15 +71313,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -66413,35 +71365,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 409
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SolutionIndex: 439
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id002
+    VectorWidth: 2
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -66451,58 +71403,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -66511,12 +71463,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -66562,35 +71514,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 410
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 440
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id004
+    VectorWidth: 4
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -66600,8 +71552,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -66611,14 +71563,14 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
     LSPA: 8
@@ -66628,7 +71580,7 @@
     LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
@@ -66640,14 +71592,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -66711,35 +71663,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 411
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 441
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x16_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id004
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -66749,9 +71701,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -66760,47 +71712,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 8
-    LSPA: 4
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3200
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -66808,15 +71760,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -66860,35 +71812,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 412
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
+    SolutionIndex: 442
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -66898,10 +71850,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -66909,26 +71861,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 8
-    LSPA: 4
+    LSCB: 16
+    LSPA: 16
     LSPB: 16
     LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1664
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -66938,18 +71890,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 8
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 8
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -66957,15 +71909,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -67009,35 +71961,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 413
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 443
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id007
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -67047,10 +71999,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -67058,46 +72010,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
+    KernelLanguage: Assembly
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -67106,15 +72058,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -67158,48 +72110,48 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 414
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 444
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -67207,46 +72159,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
+    KernelLanguage: Assembly
+    LSCA: 64
     LSCB: 16
     LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
     LVPA: 4
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 384
-    LdsNumElementsAlignedB: 384
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 384
-    LdsOffsetB_Blk: 1408
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -67257,13 +72209,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 3
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -67307,26 +72259,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 415
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x24_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 445
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -67339,7 +72291,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -67347,7 +72299,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -67355,37 +72307,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -67393,9 +72345,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 16
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -67404,7 +72356,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -67412,7 +72364,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -67456,26 +72408,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 416
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 446
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id008 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -67488,7 +72440,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -67497,7 +72449,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -67510,21 +72462,21 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 1024
     LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 512
     LdsOffsetB: 256
@@ -67541,10 +72493,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -67553,8 +72505,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -67605,17 +72557,17 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 417
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SolutionIndex: 447
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010 
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -67623,8 +72575,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -67637,7 +72589,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -67645,8 +72597,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -67654,30 +72606,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 16
     LSPA: 8
-    LSPB: 8
+    LSPB: 16
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LVCB: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -67690,10 +72642,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -67702,13 +72654,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -67754,26 +72706,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 418
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_02
+    SolutionIndex: 448
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -67786,7 +72738,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -67794,39 +72746,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -67839,11 +72791,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -67851,8 +72803,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -67903,26 +72855,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 419
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_02
+    SolutionIndex: 449
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -67943,8 +72895,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -67955,19 +72907,19 @@
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 16
     LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 1024
     LdsNumElementsAlignedA: 256
@@ -67981,14 +72933,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 16
     MacroTile1: 16
     MacroTileA: 16
@@ -68000,7 +72952,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -68008,7 +72960,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -68052,26 +73004,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 420
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_02
+    SolutionIndex: 450
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -68093,7 +73045,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -68106,19 +73058,19 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
@@ -68130,14 +73082,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -68149,15 +73101,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -68201,14 +73153,14 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 421
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SolutionIndex: 451
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -68219,8 +73171,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -68241,35 +73193,35 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
     LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -68288,9 +73240,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -68298,164 +73250,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
-    PerformanceSyncLocation: -1
-    PerformanceWaitCount: -1
-    PerformanceWaitLocation: -1
-    PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
-    ProblemType:
-      AssignedDerivedParameters: true
-      Batched: true
-      ComplexConjugateA: false
-      ComplexConjugateB: false
-      DataType: 0
-      DestDataType: 0
-      HighPrecisionAccumulate: false
-      Index0: 0
-      Index01A: 0
-      Index01B: 1
-      Index1: 1
-      IndexAssignmentsA: [0, 3, 2]
-      IndexAssignmentsB: [1, 3, 2]
-      IndexUnroll: 3
-      IndexUnrollA: 1
-      IndexUnrollB: 1
-      IndicesBatch: [2]
-      IndicesFree: [0, 1]
-      IndicesSummation: [3]
-      NumIndicesBatch: 1
-      NumIndicesC: 3
-      NumIndicesFree: 2
-      NumIndicesSummation: 1
-      OperationType: GEMM
-      SilentHighPrecisionAccumulate: false
-      TLUA: true
-      TLUB: true
-      Tensor0: 0
-      Tensor1: 1
-      TileA: 0
-      TileB: 1
-      TotalIndices: 4
-      TransposeA: false
-      TransposeB: true
-      UseBeta: true
-      UseInitialStrides: false
-    SolutionIndex: 422
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id013 
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
-    UnrollMemFence: false
-    UseSgprForGRO: false
-    Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id008
-    WorkGroupMapping: 1
-    WorkGroupMappingType: B
-  - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
-    AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
-    AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
-    AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
-    BufferStore: true
-    CheckDimOverflow: 0
-    CheckTensorDimAsserts: false
-    DepthU: 16
-    DirectToLds: false
-    DirectToLdsA: false
-    DirectToLdsB: false
-    DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
-    GlobalRead2A: true
-    GlobalRead2B: true
-    GlobalReadCoalesceGroupA: true
-    GlobalReadCoalesceGroupB: true
-    GlobalReadCoalesceVectorA: true
-    GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
-    GlobalSplitUSummationAssignmentRoundRobin: true
-    GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
-    InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 16
-    LVCB: 8
-    LVPA: 2
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
-    LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
-    LocalDotLayout: 1
-    LocalRead2A: true
-    LocalRead2B: true
-    LocalSplitU: 2
-    LocalWrite2A: true
-    LocalWrite2B: true
-    LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
-    MacroTileShapeMax: 64
-    MacroTileShapeMin: 1
-    MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
-    NonTemporalA: 0
-    NonTemporalB: 0
-    NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -68499,26 +73302,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 423
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x16_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_02
-    SubGroup0: 8
+    SolutionIndex: 452
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015 
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -68548,7 +73351,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -68648,14 +73451,14 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 424
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    SolutionIndex: 453
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -68666,7 +73469,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011 
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -68688,35 +73491,35 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
     LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -68726,18 +73529,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -68745,15 +73548,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -68797,26 +73600,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 425
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SolutionIndex: 454
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -68837,7 +73640,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -68846,46 +73649,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 16
     LSPA: 16
     LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -68894,7 +73697,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -68946,26 +73749,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 426
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 455
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id012 
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -68986,7 +73789,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -68995,46 +73798,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
+    LVCA: 16
     LVCB: 16
-    LVPA: 4
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -69043,13 +73846,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -69095,25 +73898,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 427
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 456
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id012
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -69127,7 +73930,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -69135,7 +73938,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -69143,25 +73946,25 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 32
+    LSCB: 8
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
@@ -69180,11 +73983,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -69192,13 +73995,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -69244,26 +74047,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 428
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG16_04_04
+    SolutionIndex: 457
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x32_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_04_04
     SubGroup0: 16
     SubGroup1: 4
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id014 
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -69276,7 +74079,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -69301,22 +74104,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
-    LVPA: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -69329,10 +74132,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -69341,14 +74144,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -69393,17 +74196,17 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 429
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_02
+    SolutionIndex: 458
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -69411,8 +74214,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -69425,7 +74228,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -69445,23 +74248,23 @@
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -69471,7 +74274,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -69479,9 +74282,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -69490,15 +74293,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -69542,17 +74345,17 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 430
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SolutionIndex: 459
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -69560,8 +74363,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -69574,7 +74377,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -69582,45 +74385,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 16
-    LVCA: 8
+    LSPB: 32
+    LVCA: 16
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -69629,9 +74432,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -69639,15 +74442,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -69691,26 +74494,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 431
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    SolutionIndex: 460
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -69723,7 +74526,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -69731,39 +74534,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -69776,11 +74579,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -69788,7 +74591,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -69840,26 +74643,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 432
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    SolutionIndex: 461
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -69872,7 +74675,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -69880,39 +74683,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -69925,11 +74728,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -69937,13 +74740,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -69989,26 +74792,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 433
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SolutionIndex: 462
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -70021,7 +74824,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -70029,39 +74832,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -70074,11 +74877,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70086,13 +74889,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -70138,26 +74941,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 434
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
+    SolutionIndex: 463
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG16_08_02
     SubGroup0: 16
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id012
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -70170,7 +74973,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -70178,39 +74981,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -70223,11 +75026,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70235,13 +75038,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -70287,26 +75090,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 435
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 464
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x032x32_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -70319,7 +75122,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -70327,39 +75130,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
-    LSPA: 16
+    LSCB: 16
+    LSPA: 8
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -70372,11 +75175,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70384,14 +75187,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -70436,25 +75239,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 436
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_02
+    SolutionIndex: 465
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id008
+    VectorWidth: 2
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -70468,7 +75271,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -70476,56 +75279,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
     LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70533,15 +75336,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -70585,25 +75388,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 437
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
+    SolutionIndex: 466
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
+    VectorWidth: 4
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -70617,7 +75420,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -70625,8 +75428,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -70634,30 +75437,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -70670,7 +75473,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 16
     MacroTile1: 16
     MacroTileA: 16
@@ -70734,26 +75537,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 438
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
+    SolutionIndex: 467
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -70775,7 +75578,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -70786,23 +75589,23 @@
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 8
+    LSCB: 16
     LSPA: 16
     LSPB: 32
     LVCA: 16
     LVCB: 8
     LVPA: 8
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -70821,9 +75624,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 8
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 8
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70831,7 +75634,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 2
     NumLoadsB: 1
@@ -70883,17 +75686,17 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 439
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x32_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_04_04
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 468
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -70901,8 +75704,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -70923,35 +75726,35 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -70961,18 +75764,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70981,14 +75784,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -71032,26 +75835,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 440
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SolutionIndex: 469
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -71072,39 +75875,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
     LSPB: 32
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -71118,10 +75921,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -71129,13 +75932,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -71181,26 +75984,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 441
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    SolutionIndex: 470
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -71222,7 +76025,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -71230,30 +76033,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 16
+    LVCA: 32
     LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -71267,10 +76070,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -71280,11 +76083,11 @@
     NonTemporalC: 0
     NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -71330,14 +76133,14 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 442
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 471
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x008x32_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -71348,7 +76151,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -71370,39 +76173,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -71416,10 +76219,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -71427,7 +76230,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -71479,25 +76282,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 443
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
+    SolutionIndex: 472
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id011
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -71519,39 +76322,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 32
+    LSCB: 16
     LSPA: 16
     LSPB: 32
     LVCA: 16
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -71565,10 +76368,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -71576,8 +76379,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -71628,25 +76431,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 444
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
+    SolutionIndex: 473
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id011
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -71677,7 +76480,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -71685,38 +76488,38 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 32
-    LVCA: 16
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -71725,13 +76528,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -71777,14 +76580,14 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 445
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 474
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -71795,7 +76598,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id012
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -71826,7 +76629,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -71834,22 +76637,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 32
     LSCB: 32
-    LSPA: 8
+    LSPA: 32
     LSPB: 32
-    LVCA: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 2
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -71863,9 +76666,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -71874,13 +76677,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -71926,25 +76729,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 446
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x032x32_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG16_04_04
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 475
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -71967,7 +76770,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -71975,26 +76778,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
-    LSPA: 8
-    LSPB: 16
+    LSCB: 8
+    LSPA: 16
+    LSPB: 32
     LVCA: 16
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -72004,18 +76807,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 8
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72023,15 +76826,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -72075,17 +76878,17 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 447
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 476
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x32_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -72093,8 +76896,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -72115,56 +76918,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72172,15 +76975,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -72224,85 +77027,85 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 448
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    SolutionIndex: 477
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    KernelLanguage: Source
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -72310,10 +77113,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72321,8 +77124,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -72373,75 +77176,75 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 449
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 478
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x08_GRVW04_GSU01_SNLL0_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 64
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -72451,18 +77254,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72470,13 +77273,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -72522,46 +77325,46 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 450
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 479
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -72571,47 +77374,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72619,14 +77422,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -72671,46 +77474,46 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 451
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 480
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -72720,24 +77523,24 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    KernelLanguage: Source
+    LSCA: 128
+    LSCB: 64
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
@@ -72749,18 +77552,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72768,8 +77571,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -72820,96 +77623,96 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 452
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 481
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 32
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72917,13 +77720,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -72969,96 +77772,96 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 453
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x008x32_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG16_04_04
+    SolutionIndex: 482
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id014
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -73066,14 +77869,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -73118,96 +77921,96 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 454
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 483
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    KernelLanguage: Source
+    LSCA: 128
+    LSCB: 64
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -73215,8 +78018,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -73267,26 +78070,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 455
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 484
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -73299,7 +78102,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -73316,7 +78119,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -73324,14 +78127,14 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
@@ -73345,7 +78148,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -73353,10 +78156,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -73364,8 +78167,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -73416,25 +78219,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 456
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id013
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SolutionIndex: 485
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -73448,7 +78251,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -73465,7 +78268,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -73473,14 +78276,14 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
@@ -73494,7 +78297,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -73502,10 +78305,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -73513,8 +78316,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -73565,25 +78368,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 457
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id013
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SolutionIndex: 486
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -73597,7 +78400,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -73605,35 +78408,35 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
+    LSCA: 64
+    LSCB: 64
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -73643,18 +78446,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -73662,13 +78465,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -73714,25 +78517,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 458
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x32_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG16_04_04
+    SolutionIndex: 487
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id014
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -73746,7 +78549,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -73754,56 +78557,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -73811,14 +78614,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -73863,79 +78666,79 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 459
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 488
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 128
+    KernelLanguage: Assembly
+    LSCA: 32
     LSCB: 128
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 2
+    LSPA: 16
+    LSPB: 4
+    LVCA: 16
+    LVCB: 64
+    LVPA: 8
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -73948,10 +78751,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 96
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 96
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -73960,14 +78763,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -74012,35 +78815,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 460
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x08_GRVW04_GSU01_SNLL0_TT08_08_VW04_WG16_16_01
+    SolutionIndex: 489
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [6, 8]
+    ThreadTile0: 6
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 6
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id016 
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -74050,8 +78853,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -74068,23 +78871,23 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 128
     LSCB: 64
-    LSPA: 16
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
+    LVCA: 32
     LVCB: 16
-    LVPA: 4
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -74098,9 +78901,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -74109,13 +78912,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -74161,35 +78964,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 461
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SolutionIndex: 490
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id017 
-    ThreadTile0: 4
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -74199,41 +79002,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 4
-    LVPB: 2
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -74247,10 +79050,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 96
+    MacroTileA: 128
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -74258,14 +79061,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -74310,35 +79113,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 462
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
+    SolutionIndex: 491
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018 
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 6]
+    ThreadTile0: 8
+    ThreadTile1: 6
+    ThreadTileA: 8
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id016
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -74348,8 +79151,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -74366,19 +79169,19 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 16
+    LSPB: 8
     LVCA: 32
-    LVCB: 16
+    LVCB: 32
     LVPA: 2
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -74397,9 +79200,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -74407,14 +79210,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -74459,35 +79262,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 463
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
+    SolutionIndex: 492
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019 
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -74497,8 +79300,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -74515,7 +79318,7 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
     LSPA: 16
@@ -74608,35 +79411,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 464
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SolutionIndex: 493
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id017
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -74646,8 +79449,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -74664,7 +79467,7 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
     LSCB: 128
     LSPA: 16
@@ -74757,35 +79560,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 465
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
+    SolutionIndex: 494
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -74795,41 +79598,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 128
-    LSCB: 64
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 2
-    LVPB: 4
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 128
+    LSPA: 16
+    LSPB: 4
+    LVCA: 16
+    LVCB: 64
+    LVPA: 8
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -74843,10 +79646,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -74854,14 +79657,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -74906,25 +79709,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 466
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
+    SolutionIndex: 495
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppresssNoLoadLoop: true
+    ThreadTile: [6, 8]
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id016
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -74938,7 +79741,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -74964,21 +79767,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 128
+    LSCB: 64
     LSPA: 8
-    LSPB: 8
+    LSPB: 16
     LVCA: 32
-    LVCB: 32
+    LVCB: 16
     LVPA: 2
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -74991,11 +79794,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75003,13 +79806,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -75055,26 +79858,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 467
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SolutionIndex: 496
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id020 
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -75087,7 +79890,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -75095,39 +79898,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 128
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSCB: 32
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
     LVPA: 2
-    LVPB: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -75140,11 +79943,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 96
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75152,13 +79955,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -75204,25 +80007,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 468
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SolutionIndex: 497
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id020
+    ThreadTile: [8, 6]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 6
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -75261,22 +80064,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -75290,10 +80093,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75301,14 +80104,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -75353,79 +80156,79 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 469
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    SolutionIndex: 498
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id022 
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 4
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 16
-    LSPB: 8
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 4
+    LSPB: 4
     LVCA: 16
-    LVCB: 32
+    LVCB: 16
     LVPA: 4
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -75438,11 +80241,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75450,15 +80253,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -75502,79 +80305,79 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 470
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id023 
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SolutionIndex: 499
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x04_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 2
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 32
-    LSCB: 128
-    LSPA: 16
-    LSPB: 4
-    LVCA: 16
-    LVCB: 64
-    LVPA: 8
+    LSCB: 32
+    LSPA: 2
+    LSPB: 2
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -75587,11 +80390,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75599,15 +80402,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -75651,25 +80454,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 471
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id024 
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    SolutionIndex: 500
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x02_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id021
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -75683,7 +80486,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -75691,56 +80494,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
+    LSCA: 8
+    LSCB: 8
     LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 2
-    LVPB: 4
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75748,15 +80551,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -75800,25 +80603,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 472
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 501
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU01_SNLL1_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: true
-    ThreadTile: *id025 
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
+    VectorWidth: 2
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -75840,8 +80643,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -75852,44 +80655,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 4
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
     LSPB: 16
-    LVCA: 64
+    LVCA: 16
     LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 96
-    MacroTileA: 128
-    MacroTileB: 96
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75897,13 +80700,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 4
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -75949,25 +80752,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 473
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 502
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU01_SNLL1_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: true
-    ThreadTile: *id026 
-    ThreadTile0: 8
-    ThreadTile1: 6
-    ThreadTileA: 8
-    ThreadTileB: 6
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id021
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -75981,7 +80784,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -75989,56 +80792,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
+    LSCA: 8
+    LSCB: 8
     LSPA: 8
     LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 2
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -76046,15 +80849,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -76098,25 +80901,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 474
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id020
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SolutionIndex: 503
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
+    VectorWidth: 2
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -76130,7 +80933,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 4
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -76138,39 +80941,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 4
+    LSPB: 4
     LVCA: 16
     LVCB: 16
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -76183,11 +80986,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -76195,15 +80998,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -76247,26 +81050,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 475
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id022
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SolutionIndex: 504
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x04_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -76279,7 +81082,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -76287,56 +81090,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
     LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 4
-    LVPB: 2
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -76344,15 +81147,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -76396,26 +81199,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 476
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id023
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SolutionIndex: 505
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -76428,7 +81231,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 4
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -76436,8 +81239,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -76445,30 +81248,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 128
-    LSPA: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 4
     LSPB: 4
     LVCA: 16
-    LVCB: 64
-    LVPA: 8
-    LVPB: 2
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -76481,11 +81284,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -76493,15 +81296,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -76545,26 +81348,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 477
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id024
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    SolutionIndex: 506
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x04_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -76577,7 +81380,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -76585,56 +81388,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
+    LSCA: 8
+    LSCB: 8
     LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 2
-    LVPB: 4
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -76642,15 +81445,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -76694,26 +81497,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 478
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SolutionIndex: 507
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -76726,7 +81529,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -76734,8 +81537,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -76743,47 +81546,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 2
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 96
-    MacroTileA: 128
-    MacroTileB: 96
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -76791,15 +81594,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 4
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -76843,26 +81646,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 479
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id026
-    ThreadTile0: 8
-    ThreadTile1: 6
-    ThreadTileA: 8
-    ThreadTileB: 6
+    SolutionIndex: 508
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -76875,7 +81678,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -76883,56 +81686,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
+    LSCA: 8
+    LSCB: 8
     LSPA: 8
     LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 2
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -76940,15 +81743,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -76992,46 +81795,46 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 480
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id020
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SolutionIndex: 509
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -77041,36 +81844,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 4
-    LSPB: 4
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -77089,15 +81892,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -77141,8 +81944,8 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 481
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x04_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SolutionIndex: 510
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
@@ -77154,33 +81957,31 @@
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id027 
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 2
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -77189,31 +81990,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 32
-    LSPA: 2
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
     LSPB: 2
-    LVCA: 32
-    LVCB: 32
-    LVPA: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -77226,11 +82027,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -77238,15 +82039,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -77290,31 +82089,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 482
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x02_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SolutionIndex: 511
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x08_DTL0_GRVW01_GSU01_PGR1_PLR1_TT04_08_USFGRO01_VW02_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id027
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -77328,8 +82127,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -77338,48 +82136,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 2
+    LSPB: 2
+    LVCA: 64
+    LVCB: 64
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -77387,15 +82185,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -77439,31 +82235,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 483
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU01_SNLL1_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id028 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 512
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x08_DTL0_GRVW01_GSU01_PGR1_PLR1_TT04_08_USFGRO01_VW04_WG16_08_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id029 
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -77471,14 +82267,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
-    DirectToLds: false
+    DepthU: 8
+    DirectToLds: true
     DirectToLdsA: false
-    DirectToLdsB: false
+    DirectToLdsB: true
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -77487,48 +82282,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 256
+    LSPA: 8
+    LSPB: 1
+    LVCA: 32
+    LVCB: 256
+    LVPA: 8
+    LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2304
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
     LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
+    LocalWriteUseSgprB: true
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 256
+    MacroTileA: 32
+    MacroTileB: 256
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -77536,20 +82327,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 8
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -77588,31 +82377,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 484
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU01_SNLL1_TT02_02_VW02_WG08_08_04
+    SolutionIndex: 513
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x256x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG08_32_01_WGM01
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 32
     SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 32
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id031 
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -77621,13 +82410,12 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
+    DirectToLds: true
     DirectToLdsA: false
-    DirectToLdsB: false
+    DirectToLdsB: true
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -77636,48 +82424,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 32
+    LSCB: 256
     LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
+    LSPB: 1
+    LVCA: 32
+    LVCB: 256
     LVPA: 8
-    LVPB: 8
+    LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2304
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
+    LocalWriteUseSgprB: true
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 256
+    MacroTileA: 32
+    MacroTileB: 256
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -77685,20 +82469,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularB: 8
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -77737,31 +82519,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 485
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 514
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x256x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG08_32_01_WGM08
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id029
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -77769,14 +82551,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
-    DirectToLds: false
+    DepthU: 8
+    DirectToLds: true
     DirectToLdsA: false
-    DirectToLdsB: false
+    DirectToLdsB: true
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -77785,31 +82566,27 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 4
-    LSPB: 4
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 32
+    LSCB: 256
+    LSPA: 8
+    LSPB: 1
+    LVCA: 32
+    LVCB: 256
+    LVPA: 8
+    LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2304
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -77819,14 +82596,14 @@
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
+    LocalWriteUseSgprB: true
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 256
+    MacroTileA: 32
+    MacroTileB: 256
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -77834,20 +82611,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularB: 8
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -77886,31 +82661,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 486
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x04_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_01
+    SolutionIndex: 515
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x256x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG08_32_01_WGM64
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 32
     SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 32
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id030 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -77918,14 +82693,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -77934,48 +82708,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 2
+    LSPB: 2
+    LVCA: 64
+    LVCB: 64
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -77983,20 +82753,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 8
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -78035,31 +82803,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 487
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 516
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG16_08_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id029
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -78067,14 +82835,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -78083,31 +82850,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 64
+    LSCB: 64
     LSPA: 4
     LSPB: 4
-    LVCA: 16
-    LVCB: 16
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -78120,11 +82887,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -78132,15 +82899,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -78184,31 +82949,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 488
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x04_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 517
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW01_GSU01_PGR1_PLR1_TT04_04_USFGRO01_VW04_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id030
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -78222,58 +82987,57 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 64
+    LSCB: 64
     LSPA: 8
     LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -78281,15 +83045,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -78333,31 +83095,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 489
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 518
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG16_08_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id029
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -78371,58 +83133,57 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 128
     LSPA: 8
     LSPB: 8
-    LVCA: 16
-    LVCB: 16
+    LVCA: 32
+    LVCB: 32
     LVPA: 8
-    LVPB: 8
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -78430,15 +83191,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -78482,31 +83241,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 490
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG08_08_02
+    SolutionIndex: 519
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x128x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG08_32_01_WGM01
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 32
     SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 32
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 2]
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -78514,64 +83273,59 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
     LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -78579,20 +83333,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -78631,31 +83383,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 491
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 520
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT08_04_USFGRO0_VW04_WG08_32_01_WGM01
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id029
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -78669,58 +83421,57 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 64
+    LSCB: 64
     LSPA: 16
     LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -78728,10 +83479,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -78780,27 +83529,28 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 492
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 521
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id031
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -78811,46 +83561,42 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 128
-    LSPA: 4
-    LSPB: 2
-    LVCA: 64
-    LVCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
     LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -78863,7 +83609,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 128
     MacroTileA: 64
@@ -78876,17 +83622,17 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -78925,24 +83671,24 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 493
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x08_DTL0_GRVW01_GSU01_PGR1_PLR1_TT04_08_USFGRO01_VW02_WG16_16_01_WGM01
+    SolutionIndex: 522
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT04_08_USFGRO0_VW04_WG16_16_01_WGM01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id032 
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id035 
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -78957,46 +83703,46 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 2
-    LSPB: 2
-    LVCA: 64
-    LVCB: 64
-    LVPA: 2
-    LVPB: 2
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -79009,7 +83755,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -79021,13 +83767,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -79071,25 +83817,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 494
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x08_DTL0_GRVW01_GSU01_PGR1_PLR1_TT04_08_USFGRO01_VW04_WG16_08_01_WGM01
+    SolutionIndex: 523
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG16_16_01_WGM08
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    ThreadTile: *id032
+    SubGroupB: 16
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
@@ -79103,42 +83849,42 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
-    DirectToLds: true
+    DepthU: 16
+    DirectToLds: false
     DirectToLdsA: false
-    DirectToLdsB: true
+    DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 256
-    LSPA: 8
-    LSPB: 1
-    LVCA: 32
-    LVCB: 256
-    LVPA: 8
-    LVPB: 1
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2304
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -79148,14 +83894,14 @@
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: true
+    LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 256
-    MacroTileA: 32
-    MacroTileB: 256
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -79168,7 +83914,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 8
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -79213,74 +83959,76 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 495
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x256x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG08_32_01_WGM01
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    ThreadTile: *id032
+    SolutionIndex: 524
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT04_08_USFGRO0_VW04_WG16_16_01_WGM08
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: true
+    DirectToLds: false
     DirectToLdsA: false
-    DirectToLdsB: true
+    DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 256
-    LSPA: 8
-    LSPB: 1
-    LVCA: 32
-    LVCB: 256
-    LVPA: 8
-    LVPB: 1
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 1
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2304
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -79290,14 +84038,14 @@
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: true
+    LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 256
-    MacroTileA: 32
-    MacroTileB: 256
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -79309,9 +84057,14 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 8
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -79332,6 +84085,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -79341,6 +84095,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -79355,74 +84110,89 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 496
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x256x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG08_32_01_WGM08
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 525
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG8_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 32
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 32
-    ThreadTile: *id032
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: true
+    DirectToLds: false
     DirectToLdsA: false
-    DirectToLdsB: true
+    DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 256
-    LSPA: 8
-    LSPB: 1
-    LVCA: 32
-    LVCB: 256
-    LVPA: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 16
+    LVCB: 16
+    LVPA: 1
     LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 2304
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -79432,14 +84202,14 @@
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: true
+    LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 256
-    MacroTileA: 32
-    MacroTileB: 256
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -79447,18 +84217,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 8
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -79474,6 +84249,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -79483,6 +84259,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -79497,74 +84274,85 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 497
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x256x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG08_32_01_WGM64
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 526
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT8_8_VW4_WG8_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 32
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 32
-    ThreadTile: *id032
-    ThreadTile0: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
-    WorkGroupMapping: 64
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 2
-    LSPB: 2
-    LVCA: 64
-    LVCB: 64
-    LVPA: 2
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 1
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -79577,11 +84365,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -79593,9 +84381,14 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 8
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -79616,6 +84409,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -79625,6 +84419,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -79639,78 +84434,89 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 498
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG16_08_01_WGM01
-    SubGroup0: 16
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 527
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG8_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
-    ThreadTile: *id032
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
     LSPA: 4
     LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LVCA: 16
+    LVCB: 16
+    LVPA: 1
+    LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -79723,7 +84529,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -79735,13 +84541,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -79762,6 +84573,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -79771,6 +84583,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -79785,44 +84598,55 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 499
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW01_GSU01_PGR1_PLR1_TT04_04_USFGRO01_VW04_WG16_16_01_WGM01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    ThreadTile: *id036 
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 528
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT8_8_VW4_WG8_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -79841,22 +84665,18 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
-    LVPB: 2
+    LSCA: 128
+    LSCB: 32
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 1
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2560
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -79869,11 +84689,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -79885,14 +84705,19 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -79908,6 +84733,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -79917,6 +84743,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -79931,46 +84758,57 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 500
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG16_08_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 529
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    ThreadTile: *id032
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -79983,26 +84821,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 128
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 2
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -80015,11 +84853,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -80034,6 +84872,11 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -80054,6 +84897,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -80063,6 +84907,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -80077,13 +84922,21 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 501
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x128x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG08_32_01_WGM01
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    ThreadTile: *id036
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 530
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -80094,16 +84947,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -80115,6 +84970,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -80133,18 +84989,18 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 4
-    LVPB: 2
+    LSCA: 128
+    LSCB: 32
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 1
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 2560
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -80158,10 +85014,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -80173,9 +85029,14 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -80196,6 +85057,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -80205,6 +85067,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -80219,12 +85082,20 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 502
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT08_04_USFGRO0_VW04_WG08_32_01_WGM01
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 531
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
@@ -80236,16 +85107,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -80257,6 +85130,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -80284,13 +85158,9 @@
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -80322,12 +85192,17 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -80342,6 +85217,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -80351,6 +85227,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -80365,13 +85242,21 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 503
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 532
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id036
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -80382,16 +85267,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -80403,6 +85290,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -80422,15 +85310,15 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
+    LSCB: 64
     LSPA: 16
-    LSPB: 8
+    LSPB: 16
     LVCA: 16
-    LVCB: 32
+    LVCB: 16
     LVPA: 4
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 2048
     LdsOffsetA: 0
     LdsOffsetB: 1024
     LdsPadA: 0
@@ -80447,9 +85335,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -80457,13 +85345,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -80484,6 +85377,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -80493,6 +85387,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -80507,33 +85402,43 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 504
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT04_08_USFGRO0_VW04_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 533
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id032
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -80545,6 +85450,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -80610,6 +85516,11 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -80630,6 +85541,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -80639,6 +85551,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -80653,13 +85566,21 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 505
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG16_16_01_WGM08
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 534
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id036
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -80670,16 +85591,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -80691,6 +85614,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -80709,18 +85633,18 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 4
-    LVPB: 2
+    LSCA: 128
+    LSCB: 32
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 1
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 2560
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -80734,10 +85658,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -80749,9 +85673,14 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -80772,6 +85701,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -80781,6 +85711,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -80795,26 +85726,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 506
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT04_08_USFGRO0_VW04_WG16_16_01_WGM08
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 535
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG16_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    ThreadTile: *id032
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -80828,7 +85768,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -80854,17 +85794,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 1
-    LVPB: 2
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -80877,11 +85817,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -80889,13 +85829,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -80906,7 +85846,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -80950,20 +85890,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 507
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG8_8_1_WGM1
+    SolutionIndex: 536
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -80971,10 +85911,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -80988,13 +85928,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -81015,20 +85955,16 @@
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 1
-    LVPB: 1
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -81041,7 +85977,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -81053,13 +85989,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -81069,7 +86005,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -81114,31 +86050,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 508
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT8_8_VW4_WG8_8_1_WGM8
+    SolutionIndex: 537
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -81152,13 +86088,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -81178,17 +86114,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 1
-    LVPB: 2
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -81201,11 +86141,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -81213,13 +86153,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -81229,7 +86169,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -81274,20 +86214,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 509
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG8_8_1_WGM64
+    SolutionIndex: 538
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -81295,10 +86235,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -81319,32 +86259,32 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
     LSPA: 4
     LSPB: 4
-    LVCA: 16
-    LVCB: 16
-    LVPA: 1
-    LVPB: 1
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
@@ -81377,13 +86317,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -81394,12 +86336,13 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -81438,33 +86381,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 510
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT8_8_VW4_WG8_8_1_WGM64
+    SolutionIndex: 539
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_4_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -81476,43 +86417,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
+    LSCA: 64
+    LSCB: 64
     LSPA: 4
-    LSPB: 16
-    LVCA: 32
-    LVCB: 8
-    LVPA: 1
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2560
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -81525,11 +86466,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -81537,13 +86478,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -81560,6 +86503,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -81598,33 +86542,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 511
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG16_8_1_WGM1
+    SolutionIndex: 540
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -81636,47 +86578,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -81689,11 +86627,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -81701,11 +86639,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -81717,13 +86657,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -81762,8 +86703,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 512
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 541
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -81771,24 +86712,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -81800,43 +86739,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
+    LSCA: 64
+    LSCB: 128
     LSPA: 4
-    LSPB: 16
-    LVCA: 32
-    LVCB: 8
-    LVPA: 1
-    LVPB: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2560
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -81849,11 +86792,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -81862,12 +86805,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -81877,13 +86822,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -81922,33 +86868,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 513
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG16_8_1_WGM8
+    SolutionIndex: 542
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_8_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -81960,43 +86904,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LSCB: 32
+    LSPA: 2
+    LSPB: 4
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -82009,11 +86953,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -82022,12 +86966,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -82044,6 +86990,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -82082,15 +87029,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 514
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 543
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -82098,17 +87045,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -82120,43 +87065,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LSCB: 32
+    LSPA: 2
+    LSPB: 4
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -82169,11 +87114,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -82182,12 +87127,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -82204,6 +87151,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -82242,15 +87190,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 515
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 544
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -82258,17 +87206,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -82280,47 +87226,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
     LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -82333,11 +87275,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -82345,13 +87287,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -82361,13 +87305,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -82406,33 +87351,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 516
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 545
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -82444,43 +87387,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 4
-    LSPB: 16
-    LVCA: 32
-    LVCB: 8
-    LVPA: 1
-    LVPB: 4
+    LSCA: 64
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2560
+    LdsNumElements: 640
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -82493,11 +87436,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -82505,8 +87448,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
@@ -82528,6 +87473,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -82566,8 +87512,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 517
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG16_8_1_WGM64
+    SolutionIndex: 546
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -82576,23 +87522,21 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -82604,43 +87548,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -82653,7 +87601,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -82666,11 +87614,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -82681,13 +87631,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -82726,8 +87677,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 518
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 547
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_4_USFGRO1_VW1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -82735,24 +87686,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -82764,43 +87713,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -82813,11 +87766,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -82825,12 +87778,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -82841,13 +87796,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -82886,8 +87842,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 519
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 548
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_8_USFGRO1_VW1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -82895,24 +87851,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -82924,47 +87878,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LSCB: 32
+    LSPA: 2
+    LSPB: 4
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -82977,11 +87927,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -82990,12 +87940,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -83005,13 +87957,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -83050,33 +88003,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 520
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 549
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -83094,7 +88045,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -83114,21 +88065,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
+    LSCB: 32
+    LSPA: 2
     LSPB: 4
     LVCA: 64
-    LVCB: 64
-    LVPA: 4
+    LVCB: 32
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -83143,9 +88090,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -83155,13 +88102,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
+    NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -83171,8 +88118,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -83217,16 +88164,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 521
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_4_USFGRO1_VW1_WGM1
+    SolutionIndex: 550
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -83238,8 +88185,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -83279,15 +88226,15 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
-    LSPB: 4
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
     LVCA: 64
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 640
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
@@ -83304,9 +88251,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -83314,15 +88261,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -83378,29 +88325,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 522
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WGM1
+    SolutionIndex: 551
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -83414,7 +88361,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -83440,17 +88387,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 64
     LSPA: 4
-    LSPB: 8
+    LSPB: 4
     LVCA: 64
-    LVCB: 32
+    LVCB: 64
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -83463,11 +88410,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -83475,14 +88422,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -83494,7 +88441,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -83539,8 +88486,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 523
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    SolutionIndex: 552
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -83549,11 +88496,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -83563,7 +88510,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -83575,13 +88522,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -83601,21 +88548,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 4
-    LSPB: 2
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
     LVCA: 64
-    LVCB: 128
-    LVPA: 4
-    LVPB: 2
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -83628,11 +88571,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -83640,15 +88583,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -83658,7 +88601,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -83704,31 +88647,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 524
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_8_USFGRO1_VW1_WGM1
+    SolutionIndex: 553
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -83740,7 +88683,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -83766,17 +88709,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 2
-    LSPB: 4
+    LSPB: 8
     LVCA: 64
-    LVCB: 32
+    LVCB: 16
     LVPA: 2
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -83789,11 +88732,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -83801,13 +88744,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 8
     NumLoadsPerpendicularB: 2
     NumThreads: 128
     PackBatchDims: 0
@@ -83820,7 +88763,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -83865,8 +88808,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 525
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WGM1
+    SolutionIndex: 554
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -83875,11 +88818,11 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -83889,7 +88832,7 @@
     WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -83901,7 +88844,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -83928,16 +88871,16 @@
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 2
-    LSPB: 4
+    LSPA: 4
+    LSPB: 8
     LVCA: 64
     LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -83950,7 +88893,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 32
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -83962,15 +88905,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -84026,31 +88969,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 526
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WGM1
+    SolutionIndex: 555
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -84082,21 +89025,21 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 32
     LSPA: 2
-    LSPB: 8
+    LSPB: 4
     LVCA: 64
-    LVCB: 16
+    LVCB: 32
     LVPA: 2
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 640
+    LdsNumElements: 768
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
@@ -84113,9 +89056,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -84123,14 +89066,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -84187,8 +89130,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 527
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    SolutionIndex: 556
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -84197,17 +89140,17 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -84243,21 +89186,21 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 32
     LSPA: 2
-    LSPB: 8
+    LSPB: 4
     LVCA: 64
-    LVCB: 16
+    LVCB: 32
     LVPA: 2
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 640
+    LdsNumElements: 768
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
@@ -84274,9 +89217,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -84284,14 +89227,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -84348,8 +89291,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 528
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    SolutionIndex: 557
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -84358,17 +89301,17 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -84390,7 +89333,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -84404,27 +89347,23 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
+    LSCB: 32
+    LSPA: 2
     LSPB: 4
     LVCA: 64
-    LVCB: 64
-    LVPA: 4
+    LVCB: 32
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -84439,9 +89378,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -84450,14 +89389,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -84467,7 +89406,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -84513,16 +89452,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 529
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_4_USFGRO1_VW1_WGM8
+    SolutionIndex: 558
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -84533,8 +89472,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -84555,7 +89494,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -84569,27 +89508,23 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 4
-    LSPB: 2
+    LSCB: 32
+    LSPA: 2
+    LSPB: 4
     LVCA: 64
-    LVCB: 128
-    LVPA: 4
-    LVPB: 2
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -84604,9 +89539,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -84614,15 +89549,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -84632,8 +89567,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -84678,28 +89613,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 530
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_8_USFGRO1_VW1_WGM8
+    SolutionIndex: 559
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -84720,37 +89655,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 2
-    LSPB: 4
-    LVCA: 64
-    LVCB: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
     LVPA: 2
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -84765,9 +89704,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -84775,14 +89714,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -84793,8 +89732,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -84839,29 +89778,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 531
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WGM8
+    SolutionIndex: 560
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -84875,43 +89814,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 2
-    LSPB: 4
-    LVCA: 64
-    LVCB: 32
-    LVPA: 2
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -84924,11 +89867,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -84937,14 +89880,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -84954,7 +89897,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -85000,31 +89943,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 532
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WGM8
+    SolutionIndex: 561
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -85036,43 +89979,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 640
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -85085,11 +90032,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85097,15 +90044,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -85115,7 +90060,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -85161,31 +90106,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 533
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM8
+    SolutionIndex: 562
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -85203,37 +90150,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -85248,9 +90199,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85258,14 +90209,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -85276,8 +90227,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -85322,8 +90273,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 534
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WGM1
+    SolutionIndex: 563
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -85331,18 +90282,18 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -85364,37 +90315,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
+    LSCA: 128
+    LSCB: 64
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
     LVCB: 16
     LVPA: 2
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -85408,10 +90363,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85419,15 +90374,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -85437,8 +90392,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -85483,28 +90438,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 535
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    SolutionIndex: 564
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -85525,37 +90480,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
+    LSCA: 128
+    LSCB: 64
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
     LVCB: 16
     LVPA: 2
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -85569,10 +90528,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85580,15 +90539,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -85598,7 +90555,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -85644,31 +90601,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 536
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    SolutionIndex: 565
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -85680,43 +90639,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 4
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
     LSPB: 8
-    LVCA: 64
+    LVCA: 32
     LVCB: 32
-    LVPA: 4
-    LVPB: 8
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -85729,11 +90692,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85741,14 +90704,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -85759,7 +90722,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -85805,8 +90768,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 537
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM8
+    SolutionIndex: 566
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -85814,22 +90777,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -85841,43 +90804,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 2
-    LSPB: 4
-    LVCA: 64
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
     LVCB: 32
     LVPA: 2
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -85890,11 +90857,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85902,15 +90869,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -85920,8 +90885,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -85966,31 +90931,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 538
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW4_WGM1
+    SolutionIndex: 567
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -86002,43 +90969,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 2
-    LSPB: 4
-    LVCA: 64
-    LVCB: 32
-    LVPA: 2
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -86051,11 +91022,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -86065,13 +91036,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -86081,7 +91052,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -86127,31 +91098,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 539
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WGM1
+    SolutionIndex: 568
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -86163,43 +91134,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 2
-    LSPB: 4
-    LVCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
     LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -86212,11 +91187,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -86224,15 +91199,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -86242,8 +91217,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -86288,31 +91263,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 540
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW4_WGM8
+    SolutionIndex: 569
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -86324,43 +91299,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 2
-    LSPB: 4
-    LVCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
     LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -86373,11 +91352,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -86385,15 +91364,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -86403,7 +91380,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -86449,31 +91426,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 541
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WGM8
+    SolutionIndex: 570
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -86485,7 +91464,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -86510,22 +91489,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 64
     LSPA: 8
-    LSPB: 8
-    LVCA: 16
+    LSPB: 16
+    LVCA: 32
     LVCB: 16
     LVPA: 2
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -86538,10 +91517,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -86552,13 +91531,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -86614,14 +91593,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 542
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 571
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [8, 4]
@@ -86635,10 +91614,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -86657,7 +91636,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -86675,22 +91654,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 64
-    LSPA: 16
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
+    LVCA: 32
     LVCB: 16
-    LVPA: 4
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -86704,9 +91683,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -86715,13 +91694,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -86779,8 +91756,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 543
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 572
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -86789,10 +91766,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -86801,9 +91778,11 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -86822,7 +91801,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -86840,22 +91819,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -86869,10 +91848,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -86880,12 +91859,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -86942,8 +91923,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 544
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 573
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -86952,11 +91933,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -86964,11 +91945,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -86987,7 +91966,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -87005,22 +91984,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 128
-    LSPA: 16
+    LSPA: 8
     LSPB: 8
-    LVCA: 16
+    LVCA: 32
     LVCB: 32
-    LVPA: 4
+    LVPA: 2
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -87034,9 +92013,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -87045,13 +92024,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -87109,8 +92086,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 545
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WGM1
+    SolutionIndex: 574
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -87119,10 +92096,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -87131,13 +92108,15 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -87152,7 +92131,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -87169,23 +92148,24 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 64
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
+    LVCA: 16
     LVCB: 16
-    LVPA: 2
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -87199,9 +92179,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -87210,13 +92190,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -87228,8 +92206,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -87274,8 +92253,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 546
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 575
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR0_TT4_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -87283,11 +92262,11 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -87296,13 +92275,15 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -87310,47 +92291,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
+    LSCA: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 16
+    LSPB: 4
     LVCA: 32
-    LVCB: 16
-    LVPA: 2
-    LVPB: 4
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -87363,11 +92345,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -87376,11 +92358,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -87391,6 +92375,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -87437,8 +92422,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 547
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 576
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -87446,28 +92431,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -87475,7 +92458,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -87483,39 +92466,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 128
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
     LVPA: 2
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -87528,11 +92512,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -87540,13 +92524,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -87558,8 +92542,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -87604,8 +92589,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 548
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM1
+    SolutionIndex: 577
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_TT8_4_USFGRO1_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -87613,26 +92598,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -87640,7 +92625,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -87648,39 +92633,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 128
-    LSPA: 8
+    LSCB: 64
+    LSPA: 4
     LSPB: 8
-    LVCA: 32
+    LVCA: 64
     LVCB: 32
     LVPA: 2
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -87693,11 +92679,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -87705,12 +92691,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -87721,6 +92707,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -87767,8 +92754,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 549
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM1
+    SolutionIndex: 578
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -87776,28 +92763,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -87805,47 +92792,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -87858,7 +92842,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -87871,14 +92855,15 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -87888,7 +92873,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -87934,8 +92920,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 550
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 579
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -87943,26 +92929,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -87970,47 +92956,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -88023,11 +93006,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88035,15 +93018,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -88053,7 +93037,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -88099,8 +93084,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 551
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WGM8
+    SolutionIndex: 580
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -88108,26 +93093,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -88135,47 +93120,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -88188,11 +93174,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88200,13 +93186,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -88216,6 +93205,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -88262,8 +93252,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 552
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WGM8
+    SolutionIndex: 581
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -88271,28 +93261,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -88308,39 +93296,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 2
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -88354,9 +93343,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -88365,15 +93354,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -88383,6 +93373,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -88429,8 +93420,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 553
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 582
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -88438,26 +93429,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -88472,7 +93463,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -88489,23 +93480,24 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 64
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
+    LVCA: 16
     LVCB: 16
-    LVPA: 2
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -88519,9 +93511,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -88530,13 +93522,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -88546,6 +93541,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -88592,8 +93588,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 554
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 583
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -88601,11 +93597,11 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -88614,15 +93610,13 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -88630,7 +93624,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -88638,56 +93632,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
+    LSCA: 32
+    LSCB: 8
     LSPA: 8
-    LSPB: 8
+    LSPB: 32
     LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 2
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88695,15 +93690,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -88713,8 +93709,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -88759,35 +93756,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 555
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM8
+    SolutionIndex: 584
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x32_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -88795,64 +93792,61 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
+    LSCA: 32
+    LSCB: 8
     LSPA: 8
-    LSPB: 8
+    LSPB: 32
     LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 2
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88860,13 +93854,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -88876,7 +93873,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -88922,33 +93920,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 556
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM8
+    SolutionIndex: 585
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x32_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -88968,57 +93964,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
+    LSCA: 32
+    LSCB: 8
     LSPA: 16
     LSPB: 16
     LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89026,13 +94022,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -89089,29 +94086,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 557
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR0_TT4_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 586
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x16_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR0_TT2_2_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -89127,14 +94124,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -89144,7 +94141,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -89154,27 +94151,27 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
+    LSCB: 8
     LSPA: 8
-    LSPB: 4
+    LSPB: 32
     LVCA: 32
-    LVCB: 64
+    LVCB: 4
     LVPA: 4
-    LVPB: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -89183,9 +94180,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 8
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89193,15 +94190,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -89258,31 +94254,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 558
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WGM8
+    SolutionIndex: 587
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x8x32_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -89301,41 +94299,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 96
     LSCB: 64
-    LSPA: 2
-    LSPB: 4
-    LVCA: 128
-    LVCB: 64
-    LVPA: 2
+    LSPA: 5
+    LSPB: 8
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -89349,9 +94347,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -89360,15 +94358,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -89380,7 +94377,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -89425,8 +94422,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 559
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_TT8_4_USFGRO1_VW4_WGM8
+    SolutionIndex: 588
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -89435,21 +94432,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -89487,22 +94486,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 96
     LSCB: 64
-    LSPA: 4
+    LSPA: 5
     LSPB: 8
-    LVCA: 64
+    LVCA: 48
     LVCB: 32
-    LVPA: 2
+    LVPA: 3
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -89516,9 +94515,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -89527,13 +94526,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -89590,8 +94590,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 560
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WGM8
+    SolutionIndex: 589
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -89600,10 +94600,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -89615,7 +94615,7 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -89634,38 +94634,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
     LVPA: 4
-    LVPB: 4
+    LVPB: 3
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -89680,9 +94684,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89690,13 +94694,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -89710,7 +94712,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -89756,8 +94758,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 561
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 590
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -89766,13 +94768,13 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -89781,6 +94783,8 @@
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -89798,7 +94802,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -89819,17 +94823,21 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 128
     LSPA: 4
-    LSPB: 4
+    LSPB: 2
     LVCA: 64
-    LVCB: 64
+    LVCB: 128
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -89844,9 +94852,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89854,14 +94862,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -89874,8 +94882,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -89920,8 +94928,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 562
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 591
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -89930,11 +94938,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -89964,40 +94972,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
+    LSCB: 128
+    LSPA: 8
     LSPB: 4
-    LVCA: 64
+    LVCA: 32
     LVCB: 64
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -90012,9 +95020,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90022,13 +95030,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -90088,8 +95096,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 563
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 592
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -90098,17 +95106,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -90124,44 +95132,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 64
     LSPA: 4
-    LSPB: 4
+    LSPB: 8
     LVCA: 64
-    LVCB: 64
-    LVPA: 4
+    LVCB: 32
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -90178,10 +95186,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -90190,14 +95198,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -90256,8 +95262,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 564
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 593
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -90266,21 +95272,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -90292,7 +95300,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90300,8 +95308,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -90312,7 +95320,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
@@ -90320,20 +95328,20 @@
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -90346,7 +95354,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -90359,7 +95367,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -90424,8 +95432,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 565
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 594
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -90444,11 +95452,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -90460,7 +95468,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90468,36 +95476,36 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -90507,18 +95515,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90526,13 +95534,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -90547,7 +95555,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -90592,31 +95600,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 566
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x32_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
+    SolutionIndex: 595
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -90628,15 +95636,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -90644,45 +95652,49 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
+    LSCA: 64
+    LSCB: 32
     LSPA: 8
-    LSPB: 32
+    LSPB: 8
     LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90690,13 +95702,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -90710,7 +95722,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -90756,31 +95768,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 567
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x32_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM8
+    SolutionIndex: 596
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -90792,48 +95804,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 4
-    LVPA: 8
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -90846,11 +95858,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90860,10 +95872,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -90877,7 +95891,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -90922,15 +95936,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 568
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x16_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR0_TT2_2_USFGRO0_VW2_WG16_4_4_WGM1
+    SolutionIndex: 597
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT8x32x32_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -90938,21 +95952,19 @@
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -90967,41 +95979,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -91015,10 +96027,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91027,11 +96039,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -91090,15 +96104,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 569
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x8x32_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG16_4_4_WGM1
+    SolutionIndex: 598
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT4_2_USFGRO1_VW1_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 2]
     ThreadTile0: 4
@@ -91106,17 +96120,15 @@
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -91128,54 +96140,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
-    LSCB: 64
-    LSPA: 5
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
     LSPB: 8
-    LVCA: 48
+    LVCA: 16
     LVCB: 32
-    LVPA: 3
-    LVPB: 4
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -91183,10 +96195,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91194,12 +96206,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -91258,37 +96272,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 570
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 599
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -91296,54 +96308,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
-    LSCB: 64
-    LSPA: 5
-    LSPB: 8
-    LVCA: 48
-    LVCB: 32
-    LVPA: 3
-    LVPB: 4
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -91351,10 +96363,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91362,11 +96374,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -91426,33 +96440,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 571
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 600
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x32_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT2_2_USFGRO1_VW1_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -91464,65 +96476,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 96
-    LSPA: 8
-    LSPB: 5
-    LVCA: 32
-    LVCB: 48
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 3
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 96
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 96
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91530,12 +96542,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -91549,7 +96563,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -91594,33 +96608,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 572
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 601
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_AMAS3_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 6
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -91658,22 +96670,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 4
-    LSPB: 2
-    LVCA: 64
-    LVCB: 128
-    LVPA: 4
-    LVPB: 2
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -91687,10 +96699,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91700,12 +96712,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -91719,7 +96731,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -91764,8 +96776,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 573
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 602
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -91774,11 +96786,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -91786,7 +96798,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -91826,22 +96838,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
-    LVPA: 4
-    LVPB: 2
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -91855,10 +96867,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91868,12 +96880,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -91932,8 +96944,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 574
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 603
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS3_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -91942,11 +96954,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -91954,7 +96966,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -92053,7 +97065,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -92098,8 +97110,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 575
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 604
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS3_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -92120,7 +97132,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -92136,7 +97148,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -92144,8 +97156,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -92156,7 +97168,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
@@ -92164,20 +97176,20 @@
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -92190,7 +97202,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -92198,12 +97210,14 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -92223,7 +97237,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -92252,6 +97266,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -92268,8 +97283,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 576
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 605
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -92288,11 +97303,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -92366,7 +97381,9 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -92420,6 +97437,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -92436,8 +97454,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 577
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 606
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -92458,7 +97476,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -92472,76 +97490,247 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 607
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -92588,6 +97777,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -92604,15 +97794,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 578
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_8_2_WGM8
+    SolutionIndex: 608
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -92624,11 +97814,13 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -92640,54 +97832,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 32
-    LSPA: 32
-    LSPB: 8
-    LVCA: 8
-    LVCB: 32
-    LVPA: 32
-    LVPB: 8
+    LSCA: 64
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
+    LVPA: 4
+    LVPB: 3
     LdcEqualsLdd: false
     LdsNumElements: 3328
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -92695,25 +97887,25 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -92727,7 +97919,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -92756,6 +97948,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -92772,35 +97965,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 579
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT8x32x32_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    SolutionIndex: 609
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -92808,44 +98003,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
+    LVPA: 4
+    LVPB: 3
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
@@ -92855,7 +98050,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -92863,25 +98058,25 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -92924,6 +98119,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -92940,31 +98136,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 580
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT4_2_USFGRO1_VW1_WG4_16_4_WGM8
+    SolutionIndex: 610
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -92976,44 +98174,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
+    LVPA: 4
+    LVPB: 3
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
@@ -93023,7 +98221,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -93031,25 +98229,25 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -93092,6 +98290,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -93108,35 +98307,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 581
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG4_16_4_WGM8
+    SolutionIndex: 611
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -93144,7 +98345,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -93152,46 +98353,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
+    LSCA: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 32
+    LSPB: 4
     LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -93199,25 +98400,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -93260,6 +98463,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -93276,31 +98480,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 582
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x32_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT2_2_USFGRO1_VW1_WG16_4_4_WGM8
+    SolutionIndex: 612
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -93312,80 +98516,80 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
     LVPA: 4
-    LVPB: 16
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -93399,7 +98603,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -93428,6 +98632,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -93444,31 +98649,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 583
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_AMAS3_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    SolutionIndex: 613
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -93487,41 +98694,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
-    LSPA: 2
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
     LSPB: 4
-    LVCA: 128
+    LVCA: 32
     LVCB: 64
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -93535,24 +98742,24 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -93596,6 +98803,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -93612,8 +98820,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 584
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 614
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -93622,21 +98830,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -93710,7 +98920,9 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -93764,6 +98976,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -93780,8 +98993,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 585
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS3_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 615
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -93802,7 +99015,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -93823,7 +99036,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -93878,12 +99091,16 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -93901,7 +99118,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -93930,6 +99147,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -93946,8 +99164,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 586
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS3_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 616
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -93971,8 +99189,6 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -93984,44 +99200,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -94038,10 +99254,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -94052,13 +99268,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -94073,7 +99287,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -94119,8 +99333,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 587
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 617
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -94129,21 +99343,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -94155,7 +99371,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -94163,32 +99379,32 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
@@ -94209,11 +99425,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94223,14 +99439,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -94290,8 +99506,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 588
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 618
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -94300,21 +99516,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -94326,40 +99542,40 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
@@ -94380,11 +99596,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94394,12 +99610,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -94413,7 +99631,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -94459,8 +99677,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 589
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 619
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_PGR1_PLR0_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -94469,23 +99687,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -94497,14 +99713,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -94523,28 +99739,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 64
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 4
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -94552,9 +99768,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -94565,12 +99781,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -94630,14 +99848,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 590
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 620
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -94651,12 +99869,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -94668,65 +99884,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 96
-    LSPA: 8
-    LSPB: 5
-    LVCA: 32
-    LVCB: 48
-    LVPA: 4
-    LVPB: 3
+    LSCA: 32
+    LSCB: 64
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94736,8 +99952,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -94755,7 +99973,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -94801,33 +100019,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 591
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 621
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 6
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -94839,7 +100055,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -94847,57 +100063,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 96
-    LSPA: 8
-    LSPB: 5
-    LVCA: 32
-    LVCB: 48
-    LVPA: 4
-    LVPB: 3
+    LSCA: 32
+    LSCB: 64
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94907,8 +100123,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -94972,33 +100188,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 592
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 622
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 6
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -95010,7 +100226,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -95018,57 +100234,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 96
-    LSPA: 8
-    LSPB: 5
-    LVCA: 32
-    LVCB: 48
-    LVPA: 4
-    LVPB: 3
+    LSCA: 32
+    LSCB: 64
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95078,8 +100294,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -95143,33 +100359,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 593
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 623
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 6
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -95181,7 +100397,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -95189,57 +100405,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
-    LVPB: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95249,14 +100465,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -95316,31 +100532,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 594
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 624
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -95352,7 +100568,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -95360,57 +100576,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
-    LVPB: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95420,12 +100636,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -95485,37 +100701,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 595
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 625
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -95523,54 +100739,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
     LVPA: 4
-    LVPB: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -95579,23 +100795,23 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -95639,7 +100855,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -95656,33 +100871,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 596
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 626
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS1_GRVW1_TT4_4_USFGRO1_VW1_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -95694,7 +100907,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -95720,14 +100933,14 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
@@ -95741,7 +100954,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -95749,21 +100962,19 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -95812,7 +101023,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -95829,31 +101039,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 597
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 627
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -95865,7 +101075,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -95873,40 +101083,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 64
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
     LVPA: 2
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -95919,28 +101129,26 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsA: 8
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 8
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -95983,7 +101191,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -96000,8 +101207,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 598
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 628
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -96010,25 +101217,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -96043,41 +101250,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
+    LSCA: 64
+    LSCB: 32
     LSPA: 4
     LSPB: 8
     LVCA: 64
     LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -96091,21 +101298,21 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -96152,7 +101359,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -96169,8 +101375,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 599
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 629
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -96179,23 +101385,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -96207,7 +101411,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -96233,56 +101437,54 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 2
-    LSPB: 2
-    LVCA: 128
-    LVCB: 128
-    LVPA: 2
-    LVPB: 2
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -96325,7 +101527,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -96342,31 +101543,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 600
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 630
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x16_SE_AMAS3_GRVW1_TT2_4_USFGRO1_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -96378,40 +101579,40 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 2
-    LSPB: 2
-    LVCA: 128
-    LVCB: 128
-    LVPA: 2
-    LVPB: 2
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
@@ -96425,7 +101626,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -96433,27 +101634,23 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -96467,7 +101664,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -96496,7 +101693,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -96513,31 +101709,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 601
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_PGR1_PLR0_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 631
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -96549,27 +101747,27 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
@@ -96577,20 +101775,20 @@
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 64
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
     LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -96603,7 +101801,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 64
     MacroTileA: 32
@@ -96611,16 +101809,12 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -96667,7 +101861,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -96684,8 +101877,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 602
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
+    SolutionIndex: 632
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -96704,11 +101897,13 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -96720,7 +101915,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -96728,40 +101923,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -96774,27 +101969,25 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -96838,7 +102031,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -96855,15 +102047,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 603
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM8
+    SolutionIndex: 633
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -96871,15 +102063,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -96891,14 +102083,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -96917,28 +102109,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 64
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 8
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -96946,25 +102138,25 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -97007,7 +102199,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -97024,14 +102215,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 604
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
+    SolutionIndex: 634
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -97045,16 +102236,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -97062,54 +102251,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 64
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 8
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -97117,25 +102306,25 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -97178,7 +102367,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -97195,14 +102383,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 605
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM8
+    SolutionIndex: 635
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS1_GRVW1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -97211,17 +102399,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -97233,7 +102419,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -97241,40 +102427,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
     LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -97287,7 +102473,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -97295,20 +102481,18 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -97351,7 +102535,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -97368,8 +102551,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 606
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    SolutionIndex: 636
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -97384,7 +102567,7 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -97392,7 +102575,7 @@
     WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -97404,7 +102587,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -97412,40 +102595,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 32
+    LSCB: 64
     LSPA: 16
-    LSPB: 32
+    LSPB: 8
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVCB: 32
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -97458,26 +102641,24 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -97520,7 +102701,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -97537,15 +102717,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 607
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    SolutionIndex: 637
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -97557,17 +102737,17 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -97575,7 +102755,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -97583,34 +102763,34 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
@@ -97622,7 +102802,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -97630,10 +102810,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97641,14 +102821,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -97707,31 +102887,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 608
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS1_GRVW1_TT4_4_USFGRO1_VW1_WG16_8_2_WGM8
+    SolutionIndex: 638
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -97743,44 +102923,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 64
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -97790,18 +102970,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97809,13 +102989,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -97875,31 +103053,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 609
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG8_8_4_WGM8
+    SolutionIndex: 639
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -97911,7 +103091,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -97931,45 +103111,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 2
-    LSPB: 2
-    LVCA: 128
-    LVCB: 128
-    LVPA: 2
-    LVPB: 2
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97977,14 +103157,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 8
-    NumLoadsB: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 8
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -98043,35 +103223,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 610
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 640
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -98079,7 +103259,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -98099,28 +103279,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 64
     LSPA: 4
-    LSPB: 8
+    LSPB: 4
     LVCA: 64
-    LVCB: 32
+    LVCB: 64
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -98133,11 +103313,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -98145,14 +103325,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -98211,8 +103391,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 611
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 641
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -98221,21 +103401,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -98247,65 +103427,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 16
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
     LSPB: 8
-    LVCA: 16
+    LVCA: 32
     LVCB: 32
-    LVPA: 16
-    LVPB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -98313,14 +103493,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -98379,31 +103557,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 612
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x16_SE_AMAS3_GRVW1_TT2_4_USFGRO1_VW2_WG8_8_4_WGM1
+    SolutionIndex: 642
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -98422,20 +103602,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
@@ -98443,10 +103623,10 @@
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
@@ -98482,11 +103662,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -98545,8 +103727,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 613
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM1
+    SolutionIndex: 643
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -98565,13 +103747,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -98583,14 +103763,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -98609,28 +103789,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 64
-    LSPA: 16
+    LSPA: 8
     LSPB: 8
-    LVCA: 16
+    LVCA: 32
     LVCB: 32
-    LVPA: 8
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -98638,9 +103818,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -98649,12 +103829,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -98713,14 +103895,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 614
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM1
+    SolutionIndex: 644
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -98734,12 +103916,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -98758,37 +103938,37 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -98798,18 +103978,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -98817,14 +103997,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -98883,15 +104061,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 615
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_8_2_WGM8
+    SolutionIndex: 645
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -98899,15 +104077,17 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -98927,30 +104107,30 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
@@ -98986,13 +104166,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -99051,8 +104231,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 616
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 646
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -99067,19 +104247,19 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -99087,7 +104267,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -99095,46 +104275,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -99143,9 +104323,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99153,14 +104333,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -99219,15 +104399,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 617
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS1_GRVW1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 647
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -99235,15 +104415,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -99263,30 +104443,30 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
     LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
@@ -99322,13 +104502,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -99387,8 +104567,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 618
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM8
+    SolutionIndex: 648
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -99403,13 +104583,13 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -99430,7 +104610,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -99449,39 +104629,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 4
+    LSCA: 128
+    LSCB: 128
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99489,12 +104669,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -99553,33 +104735,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 619
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM8
+    SolutionIndex: 649
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_AMAS3_GRVW2_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -99591,7 +104771,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -99599,57 +104779,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99657,13 +104837,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -99723,15 +104903,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 620
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG8_8_4_WGM1
+    SolutionIndex: 650
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x8_SE_AMAS3_GRVW4_TT4_2_USFGRO1_VW2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 2]
     ThreadTile0: 4
@@ -99739,15 +104919,15 @@
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -99766,37 +104946,37 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -99806,18 +104986,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99825,12 +105005,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -99889,15 +105071,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 621
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 651
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -99905,17 +105087,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -99927,7 +105107,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -99935,46 +105115,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 64
+    LSCB: 64
     LSPA: 8
     LSPB: 8
     LVCA: 32
     LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -99982,10 +105162,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99993,14 +105173,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -100059,15 +105239,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 622
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG8_8_4_WGM1
+    SolutionIndex: 652
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -100075,15 +105255,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -100095,54 +105275,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -100150,9 +105330,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -100161,14 +105341,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -100227,14 +105405,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 623
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 653
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -100243,15 +105421,17 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -100270,31 +105450,31 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
@@ -100330,11 +105510,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -100393,8 +105575,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 624
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 654
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -100409,17 +105591,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -100438,7 +105618,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -100457,38 +105637,38 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 32
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
-    LVPA: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -100497,13 +105677,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -100563,14 +105741,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 625
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM1
+    SolutionIndex: 655
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -100584,10 +105762,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 4]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -100599,7 +105779,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -100607,46 +105787,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 8
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
     LSPB: 8
-    LVCA: 32
+    LVCA: 16
     LVCB: 32
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -100654,10 +105834,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100665,14 +105845,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -100731,35 +105911,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 626
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 656
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW1_TT2_4_USFGRO1_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -100767,44 +105947,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
+    LVCA: 32
     LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -100814,18 +105994,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100833,12 +106013,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -100897,33 +106079,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 627
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 657
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -100935,7 +106115,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -100943,57 +106123,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101001,14 +106181,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -101067,31 +106247,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 628
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 658
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -101103,7 +106283,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -101111,56 +106291,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
+    LVCB: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -101169,13 +106349,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -101235,14 +106415,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 629
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
+    SolutionIndex: 659
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -101255,11 +106435,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -101279,57 +106459,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101337,14 +106517,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 8
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 8
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -101403,29 +106583,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 630
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM1
+    SolutionIndex: 660
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -101439,7 +106619,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -101447,40 +106627,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
+    LSCA: 64
+    LSCB: 64
     LSPA: 4
     LSPB: 4
     LVCA: 64
     LVCB: 64
-    LVPA: 2
-    LVPB: 2
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -101493,11 +106673,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101505,14 +106685,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -101571,8 +106751,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 631
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_AMAS3_GRVW2_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 661
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -101581,21 +106761,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -101607,61 +106787,61 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 32
     MacroTileA: 32
@@ -101675,12 +106855,10 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -101739,31 +106917,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 632
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x8_SE_AMAS3_GRVW4_TT4_2_USFGRO1_VW2_WG8_16_2_WGM8
+    SolutionIndex: 662
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -101775,54 +106955,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 4
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -101830,9 +107010,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -101841,13 +107021,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -101907,31 +107085,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 633
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
+    SolutionIndex: 663
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -101943,7 +107123,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -101951,46 +107131,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 64
     LSPA: 8
-    LSPB: 8
+    LSPB: 4
     LVCA: 32
-    LVCB: 32
-    LVPA: 4
+    LVCB: 64
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -101998,9 +107178,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -102009,14 +107189,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -102075,14 +107255,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 634
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 664
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -102091,15 +107271,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -102111,27 +107291,27 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
@@ -102139,20 +107319,20 @@
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 64
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
     LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -102165,7 +107345,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 64
     MacroTileA: 32
@@ -102178,7 +107358,9 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -102241,8 +107423,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 635
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
+    SolutionIndex: 665
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -102261,13 +107443,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -102279,7 +107459,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -102287,40 +107467,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -102333,7 +107513,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -102346,7 +107526,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -102411,8 +107591,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 636
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 666
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -102427,15 +107607,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -102447,65 +107627,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -102513,12 +107693,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -102577,33 +107759,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 637
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
+    SolutionIndex: 667
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -102615,7 +107795,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -102635,44 +107815,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 32
-    LSPA: 16
+    LSPA: 4
     LSPB: 8
-    LVCA: 16
+    LVCA: 64
     LVCB: 32
-    LVPA: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
+    LoopUnroll: 4
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -102681,14 +107861,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 2
-    NumLoadsB: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -102747,35 +107927,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 638
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW1_TT2_4_USFGRO1_VW2_WG8_8_4_WGM8
+    SolutionIndex: 668
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -102803,24 +107983,24 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 32
     LSPA: 8
-    LSPB: 16
+    LSPB: 8
     LVCA: 32
-    LVCB: 16
+    LVCB: 32
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -102839,9 +108019,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -102849,14 +108029,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -102915,8 +108095,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 639
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG8_8_4_WGM8
+    SolutionIndex: 669
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -102925,17 +108105,17 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 2
     WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -102951,7 +108131,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -102959,46 +108139,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -103006,10 +108186,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103017,14 +108197,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -103083,31 +108263,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 640
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_8_4_WGM1
+    SolutionIndex: 670
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -103119,7 +108299,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -103127,57 +108307,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103185,14 +108365,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -103251,35 +108431,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 641
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM1
+    SolutionIndex: 671
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -103287,7 +108467,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -103307,28 +108487,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 2
-    LSPB: 2
-    LVCA: 128
-    LVCB: 128
-    LVPA: 2
-    LVPB: 2
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -103341,11 +108521,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103353,14 +108533,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 8
-    NumLoadsB: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 8
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -103419,8 +108599,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 642
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 672
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -103429,21 +108609,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -103455,7 +108635,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -103463,46 +108643,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -103510,10 +108690,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103521,14 +108701,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -103587,15 +108767,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 643
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 673
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -103603,19 +108783,19 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -103630,41 +108810,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 8
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LVCB: 32
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -103678,9 +108858,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -103689,12 +108869,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -103753,8 +108935,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 644
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM8
+    SolutionIndex: 674
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS1_GRVW1_TT2_4_USFGRO1_VW1_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -103763,23 +108945,21 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 1
     WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -103791,54 +108971,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -103846,9 +109026,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -103857,12 +109037,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -103921,33 +109103,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 645
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_8_4_WGM8
+    SolutionIndex: 675
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_GRVW1_TT4_2_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -103959,7 +109139,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -103979,28 +109159,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
-    LVPA: 8
-    LVPB: 4
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -104013,11 +109193,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -104025,14 +109205,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -104091,31 +109271,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 646
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG8_16_2_WGM8
+    SolutionIndex: 676
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x32_SE_AMAS3_GRVW1_TT4_2_USFGRO1_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -104127,14 +109307,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -104153,28 +109333,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 64
-    LSPA: 16
+    LSPA: 8
     LSPB: 8
-    LVCA: 16
+    LVCA: 32
     LVCB: 32
-    LVPA: 8
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -104182,9 +109362,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -104193,14 +109373,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -104259,14 +109437,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 647
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM1
+    SolutionIndex: 677
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -104280,10 +109458,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -104302,7 +109482,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -104322,17 +109502,17 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 32
     LSPA: 8
-    LSPB: 8
+    LSPB: 16
     LVCA: 32
-    LVCB: 32
+    LVCB: 16
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -104342,18 +109522,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -104361,14 +109541,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -104427,15 +109605,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 648
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 678
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -104448,14 +109626,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -104463,7 +109643,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -104483,24 +109663,24 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 2
-    LSPB: 2
-    LVCA: 128
-    LVCB: 128
-    LVPA: 2
-    LVPB: 2
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -104510,7 +109690,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -104518,10 +109698,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -104529,14 +109709,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -104595,31 +109775,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 649
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 679
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -104651,45 +109831,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -104697,14 +109877,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -104763,35 +109943,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 650
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
+    SolutionIndex: 680
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -104819,28 +109999,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 8
+    LSPA: 16
     LSPB: 8
-    LVCA: 32
+    LVCA: 16
     LVCB: 32
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -104854,9 +110034,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -104865,13 +110045,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumLoadsA: 2
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -104931,8 +110111,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 651
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG8_8_4_WGM8
+    SolutionIndex: 681
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS1_GRVW1_TT2_4_USFGRO1_VW1_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -104941,19 +110121,19 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 1
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
   - AggressivePerfMode: 1
@@ -104975,7 +110155,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -104983,32 +110163,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 2
-    LSPB: 2
-    LVCA: 128
-    LVCB: 128
-    LVPA: 2
-    LVPB: 2
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -105022,10 +110202,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105033,14 +110213,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -105099,8 +110279,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 652
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 682
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_GRVW4_TT4_2_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -105109,19 +110289,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -105155,28 +110335,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 2
-    LSPB: 2
-    LVCA: 128
-    LVCB: 128
-    LVPA: 2
-    LVPB: 2
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -105190,10 +110370,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105201,14 +110381,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -105267,8 +110447,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 653
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 683
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -105277,25 +110457,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -105310,37 +110490,37 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 4
+    LSCB: 64
+    LSPA: 8
     LSPB: 8
-    LVCA: 64
+    LVCA: 32
     LVCB: 32
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1792
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -105359,9 +110539,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105369,13 +110549,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -105435,8 +110613,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 654
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 684
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -105445,21 +110623,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -105471,7 +110651,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -105479,8 +110659,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -105491,34 +110671,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -105526,10 +110706,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105537,8 +110717,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -105603,15 +110783,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 655
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM8
+    SolutionIndex: 685
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -105623,15 +110803,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -105647,57 +110827,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 32
-    LSPA: 16
+    LSCB: 64
+    LSPA: 32
     LSPB: 8
-    LVCA: 16
+    LVCA: 8
     LVCB: 32
     LVPA: 16
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 6656
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 4608
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 16
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 16
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105705,13 +110885,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -105771,15 +110951,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 656
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS1_GRVW1_TT2_4_USFGRO1_VW1_WG8_8_4_WGM8
+    SolutionIndex: 686
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x64x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [2, 4]
     ThreadTile0: 2
@@ -105787,13 +110967,13 @@
     ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
   - AggressivePerfMode: 1
@@ -105807,7 +110987,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -105815,46 +110995,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 4
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -105862,9 +111042,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -105873,14 +111053,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -105939,31 +111119,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 657
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_GRVW1_TT4_2_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 687
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -105975,7 +111155,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -105983,57 +111163,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -106041,14 +111221,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -106107,31 +111287,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 658
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x32_SE_AMAS3_GRVW1_TT4_2_USFGRO1_VW2_WG16_8_2_WGM8
+    SolutionIndex: 688
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW4_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -106143,14 +111323,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -106169,28 +111349,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 64
-    LSPA: 8
+    LSPA: 16
     LSPB: 8
-    LVCA: 32
+    LVCA: 16
     LVCB: 32
-    LVPA: 4
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -106198,9 +111378,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -106209,12 +111389,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -106273,14 +111455,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 659
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 689
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -106294,12 +111476,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -106318,37 +111498,37 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
+    LSCB: 16
+    LSPA: 4
     LSPB: 16
-    LVCA: 32
+    LVCA: 64
     LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -106367,9 +111547,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -106377,11 +111557,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -106441,8 +111623,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 660
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM1
+    SolutionIndex: 690
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_AMAS3_GRVW1_TT4_2_USFGRO1_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -106451,13 +111633,13 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -106466,12 +111648,10 @@
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -106486,58 +111666,58 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -106545,14 +111725,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -106611,31 +111789,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 661
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG8_8_4_WGM1
+    SolutionIndex: 691
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -106647,7 +111827,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -106655,57 +111835,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 2
-    LSPB: 2
-    LVCA: 128
-    LVCB: 128
-    LVPA: 2
-    LVPB: 2
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -106713,14 +111893,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -106779,35 +111959,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 662
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 692
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -106822,41 +112002,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -106870,9 +112050,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -106881,14 +112061,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -106947,8 +112125,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 663
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS1_GRVW1_TT2_4_USFGRO1_VW1_WG8_8_4_WGM1
+    SolutionIndex: 693
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -106957,21 +112135,23 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -106983,42 +112163,42 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 4
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
@@ -107030,18 +112210,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107049,10 +112229,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -107115,15 +112293,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 664
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_GRVW4_TT4_2_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 694
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x16_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 2]
     ThreadTile0: 4
@@ -107136,10 +112314,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -107151,7 +112331,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107159,57 +112339,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107217,14 +112397,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -107283,15 +112463,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 665
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 695
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -107299,15 +112479,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -107319,14 +112499,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -107335,7 +112515,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -107345,28 +112525,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 4
-    LVPB: 4
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -107374,10 +112554,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107385,12 +112565,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -107449,15 +112631,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 666
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 696
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -107470,12 +112652,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -107487,7 +112667,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107495,46 +112675,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
+    LSCA: 32
+    LSCB: 32
     LSPA: 8
     LSPB: 8
     LVCA: 32
     LVCB: 32
-    LVPA: 4
-    LVPB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -107542,10 +112722,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107553,14 +112733,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -107619,15 +112799,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 667
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 697
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -107635,19 +112815,19 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -107655,7 +112835,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107663,56 +112843,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 64
-    LSPA: 32
-    LSPB: 8
-    LVCA: 8
-    LVCB: 32
-    LVPA: 16
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 6656
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 4608
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -107721,14 +112901,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -107787,31 +112967,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 668
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x64x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_16_2_WGM1
+    SolutionIndex: 698
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS1_GRVW1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -107823,7 +113003,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107849,39 +113029,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107889,13 +113069,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -107955,20 +113135,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 669
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_8_4_WGM8
+    SolutionIndex: 699
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -107976,10 +113156,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -107991,7 +113171,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107999,36 +113179,36 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
+    LSCA: 64
+    LSCB: 16
     LSPA: 8
-    LSPB: 8
+    LSPB: 16
     LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 2
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -108038,7 +113218,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -108046,10 +113226,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108057,13 +113237,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -108123,31 +113303,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 670
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW4_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 700
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -108185,22 +113365,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 4
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -108214,10 +113394,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108227,12 +113407,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -108291,15 +113471,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 671
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM8
+    SolutionIndex: 701
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -108312,7 +113492,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -108327,7 +113507,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -108354,27 +113534,27 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 64
     LSPA: 4
-    LSPB: 16
+    LSPB: 4
     LVCA: 64
-    LVCB: 16
+    LVCB: 64
     LVPA: 4
-    LVPB: 16
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -108383,9 +113563,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108393,14 +113573,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -108459,31 +113639,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 672
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_AMAS3_GRVW1_TT4_2_USFGRO1_VW2_WG16_8_2_WGM1
+    SolutionIndex: 702
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -108502,57 +113682,57 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
+    LVCB: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -108561,12 +113741,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -108625,14 +113807,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 673
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    SolutionIndex: 703
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -108645,13 +113827,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -108663,14 +113843,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -108698,13 +113878,13 @@
     LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -108717,7 +113897,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -108731,12 +113911,10 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -108795,8 +113973,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 674
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM1
+    SolutionIndex: 704
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -108817,9 +113995,11 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -108831,14 +114011,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -108857,14 +114037,14 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
@@ -108878,18 +114058,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108897,8 +114077,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -108961,15 +114143,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 675
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM1
+    SolutionIndex: 705
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -108982,12 +114164,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -108999,7 +114179,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -109007,40 +114187,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
     LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -109053,11 +114233,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109065,7 +114245,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -109129,8 +114309,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 676
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x16_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG8_8_4_WGM1
+    SolutionIndex: 706
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -109139,21 +114319,21 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -109174,41 +114354,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 32
+    LSCB: 64
     LSPA: 16
-    LSPB: 32
+    LSPB: 8
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVCB: 32
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -109222,10 +114402,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109234,13 +114414,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -109299,15 +114477,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 677
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    SolutionIndex: 707
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -109319,11 +114497,13 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -109343,57 +114523,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
-    LSPA: 16
+    LSCB: 64
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109401,13 +114581,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -109467,15 +114647,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 678
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM1
+    SolutionIndex: 708
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -109487,8 +114667,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -109511,40 +114691,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
-    LSPA: 8
+    LSCB: 64
+    LSPA: 16
     LSPB: 8
-    LVCA: 32
+    LVCA: 16
     LVCB: 32
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -109559,9 +114739,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109569,13 +114749,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -109635,8 +114815,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 679
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG8_8_4_WGM1
+    SolutionIndex: 709
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW2_TT4_8_USFGRO0_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -109645,17 +114825,17 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -109663,7 +114843,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -109671,7 +114851,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -109679,46 +114859,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -109727,9 +114907,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109737,13 +114917,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -109803,31 +114983,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 680
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS1_GRVW1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 710
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW2_TT8_4_USFGRO0_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -109839,7 +115019,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -109874,19 +115054,19 @@
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -109907,12 +115087,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -109971,20 +115151,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 681
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 711
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x32_SE_AMAS3_GRVW2_TT8_4_USFGRO0_VW2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -109992,10 +115172,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -110007,7 +115187,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -110016,7 +115196,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -110029,32 +115209,32 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 32
     LSPA: 8
     LSPB: 16
     LVCA: 32
     LVCB: 16
     LVPA: 4
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -110063,9 +115243,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -110073,14 +115253,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -110139,31 +115319,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 682
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG16_8_2_WGM8
+    SolutionIndex: 712
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW2_TT8_4_USFGRO0_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -110175,7 +115355,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -110183,46 +115363,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -110231,24 +115411,26 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -110262,7 +115444,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -110291,12 +115473,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -110307,15 +115491,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 683
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM8
+    SolutionIndex: 713
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -110323,15 +115507,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -110349,7 +115533,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -110378,13 +115562,9 @@
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -110405,7 +115585,9 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -110429,7 +115611,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -110459,12 +115641,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -110475,8 +115659,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 684
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 714
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -110497,7 +115681,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -110511,7 +115695,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -110519,46 +115703,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -110566,19 +115750,21 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -110627,12 +115813,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -110643,15 +115831,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 685
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM8
+    SolutionIndex: 715
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -110659,15 +115847,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -110679,54 +115867,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -110735,22 +115923,26 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -110793,12 +115985,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -110809,15 +116003,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 686
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM8
+    SolutionIndex: 716
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -110825,17 +116019,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -110853,42 +116045,38 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -110909,18 +116097,20 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -110933,7 +116123,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -110963,12 +116153,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -110979,8 +116171,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 687
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 717
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -110995,11 +116187,11 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -111015,78 +116207,78 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -111099,7 +116291,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -111129,12 +116321,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -111145,15 +116339,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 688
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM8
+    SolutionIndex: 718
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -111161,17 +116355,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 4]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -111183,78 +116375,82 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -111268,7 +116464,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -111297,12 +116493,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -111313,14 +116511,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 689
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM1
+    SolutionIndex: 719
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -111329,17 +116527,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -111351,79 +116547,77 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 64
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 8
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -111437,8 +116631,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -111467,12 +116661,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -111483,14 +116679,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 690
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
+    SolutionIndex: 720
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -111499,15 +116695,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -111519,7 +116715,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -111527,46 +116723,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -111574,25 +116770,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -111606,7 +116804,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -111635,12 +116833,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -111651,31 +116851,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 691
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW2_TT4_8_USFGRO0_VW2_WG8_8_4_WGM1
+    SolutionIndex: 721
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -111687,54 +116887,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -111743,23 +116939,25 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -111773,7 +116971,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -111803,12 +117001,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -111819,31 +117019,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 692
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW2_TT8_4_USFGRO0_VW2_WG8_8_4_WGM1
+    SolutionIndex: 722
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -111855,7 +117055,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -111863,53 +117063,53 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -111917,18 +117117,20 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -111971,12 +117173,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -111987,31 +117191,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 693
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x32_SE_AMAS3_GRVW2_TT8_4_USFGRO0_VW2_WG8_16_2_WGM8
+    SolutionIndex: 723
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -112023,80 +117227,78 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -112109,7 +117311,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -112139,12 +117341,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -112155,31 +117359,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 694
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW2_TT8_4_USFGRO0_VW2_WG8_8_4_WGM8
+    SolutionIndex: 724
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -112191,7 +117395,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -112211,7 +117415,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -112226,13 +117430,13 @@
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -112245,7 +117449,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -112260,13 +117464,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -112280,7 +117484,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -112327,8 +117531,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 695
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 725
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -112347,11 +117551,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -112363,7 +117567,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -112383,7 +117587,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -112398,9 +117602,9 @@
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -112413,7 +117617,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -112428,13 +117632,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -112495,8 +117699,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 696
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 726
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -112515,11 +117719,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -112539,30 +117743,30 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
@@ -112601,12 +117805,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -112667,8 +117871,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 697
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 727
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -112683,7 +117887,7 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -112711,30 +117915,30 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
@@ -112773,12 +117977,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -112839,8 +118043,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 698
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 728
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -112855,7 +118059,7 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -112875,44 +118079,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -112925,7 +118133,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -112941,12 +118149,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -112959,7 +118167,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -113007,8 +118215,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 699
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 729
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -113023,7 +118231,7 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -113031,7 +118239,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -113043,44 +118251,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -113093,7 +118305,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -113109,12 +118321,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -113127,7 +118339,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -113175,8 +118387,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 700
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 730
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -113191,7 +118403,7 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -113199,7 +118411,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -113211,7 +118423,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -113219,40 +118431,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -113265,7 +118477,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -113281,12 +118493,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -113300,7 +118512,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -113347,8 +118559,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 701
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 731
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -113363,7 +118575,7 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -113371,7 +118583,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -113383,44 +118595,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -113433,7 +118649,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -113449,12 +118665,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -113467,8 +118683,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -113515,8 +118731,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 702
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 732
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -113531,7 +118747,7 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -113539,7 +118755,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -113558,31 +118774,31 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
@@ -113620,13 +118836,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -113640,7 +118854,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -113687,8 +118901,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 703
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 733
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -113703,15 +118917,17 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -113723,44 +118939,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -113773,7 +118993,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -113789,12 +119009,10 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -113807,7 +119025,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -113855,8 +119073,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 704
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 734
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -113871,15 +119089,17 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -113911,28 +119131,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 64
-    LSPA: 4
+    LSPA: 8
     LSPB: 4
-    LVCA: 64
+    LVCA: 32
     LVCB: 64
-    LVPA: 4
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -113946,9 +119166,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -113959,13 +119179,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
     NumLoadsB: 2
-    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -114027,8 +119247,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 705
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 735
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT6_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114037,19 +119257,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -114063,13 +119283,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -114083,24 +119303,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 64
-    LSPA: 4
+    LSPA: 8
     LSPB: 4
-    LVCA: 64
+    LVCA: 32
     LVCB: 64
-    LVPA: 4
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114113,10 +119337,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -114127,14 +119351,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -114147,7 +119371,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -114195,8 +119419,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 706
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 736
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT6_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114205,21 +119429,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -114231,48 +119455,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 96
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
+    LSPA: 5
+    LSPB: 8
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114285,10 +119509,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -114299,14 +119523,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -114367,8 +119589,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 707
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 737
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114377,21 +119599,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -114403,44 +119627,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 96
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
+    LSPA: 5
+    LSPB: 8
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114453,10 +119681,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -114467,14 +119695,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -114487,7 +119713,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -114535,8 +119761,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 708
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 738
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114545,21 +119771,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -114579,40 +119807,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 8
+    LSCB: 32
+    LSPA: 4
     LSPB: 8
-    LVCA: 32
+    LVCA: 64
     LVCB: 32
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114627,9 +119855,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114639,13 +119867,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 2
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -114707,8 +119935,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 709
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 739
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_6_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114717,19 +119945,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -114750,7 +119978,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -114770,21 +119998,21 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 96
     LSPA: 8
-    LSPB: 8
+    LSPB: 5
     LVCA: 32
-    LVCB: 32
+    LVCB: 48
     LVPA: 4
-    LVPB: 4
+    LVPB: 3
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114799,9 +120027,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114811,14 +120039,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -114879,8 +120105,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 710
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 740
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114889,11 +120115,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -114901,9 +120127,11 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -114922,7 +120150,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -114931,7 +120159,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -114942,21 +120170,21 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 96
     LSPA: 8
-    LSPB: 8
+    LSPB: 5
     LVCA: 32
-    LVCB: 32
+    LVCB: 48
     LVPA: 4
-    LVPB: 4
+    LVPB: 3
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114971,9 +120199,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114983,14 +120211,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -115051,8 +120277,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 711
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 741
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -115061,11 +120287,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -115073,9 +120299,11 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -115095,40 +120323,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -115143,9 +120371,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115155,14 +120383,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -115176,7 +120404,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -115223,8 +120451,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 712
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 742
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -115233,19 +120461,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -115259,7 +120487,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -115267,40 +120495,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -115313,11 +120541,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115327,14 +120555,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -115348,7 +120576,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -115395,8 +120623,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 713
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 743
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -115405,21 +120633,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -115431,7 +120659,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -115439,40 +120667,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -115485,11 +120713,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115499,14 +120727,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -115520,7 +120748,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -115567,8 +120795,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 714
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 744
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -115577,21 +120805,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -115610,7 +120838,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -115630,21 +120858,21 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 8
+    LSPB: 4
     LVCA: 32
-    LVCB: 32
+    LVCB: 64
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -115659,9 +120887,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115671,12 +120899,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -115690,7 +120920,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -115737,8 +120967,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 715
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 745
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -115747,11 +120977,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -115762,8 +120992,6 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -115775,48 +121003,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -115829,11 +121057,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115843,12 +121071,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -115909,8 +121139,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 716
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 746
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -115919,23 +121149,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -115955,40 +121183,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
+    LSCA: 64
+    LSCB: 128
     LSPA: 8
     LSPB: 4
     LVCA: 32
     LVCB: 64
-    LVPA: 8
-    LVPB: 4
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -116002,10 +121230,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116015,11 +121243,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 3
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
     NumLoadsB: 2
-    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
@@ -116083,8 +121311,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 717
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT6_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 747
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116093,19 +121321,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -116119,48 +121347,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
-    LVPA: 8
-    LVPB: 4
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -116173,11 +121397,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116187,11 +121411,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 3
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 2
-    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
@@ -116207,8 +121431,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -116255,8 +121479,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 718
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT6_4_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 748
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_DTL0_EPS0_FL0_GRVW4_PGR0_PLR0_TT4_8_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116265,21 +121489,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -116317,22 +121541,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
-    LSCB: 64
-    LSPA: 5
-    LSPB: 8
-    LVCA: 48
-    LVCB: 32
-    LVPA: 3
-    LVPB: 4
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -116346,10 +121570,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116359,12 +121583,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -116425,8 +121649,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 719
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 749
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116435,11 +121659,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -116450,7 +121674,7 @@
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -116489,22 +121713,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
-    LSCB: 64
-    LSPA: 5
-    LSPB: 8
-    LVCA: 48
-    LVCB: 32
-    LVPA: 3
-    LVPB: 4
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -116518,10 +121742,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116531,12 +121755,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -116597,8 +121821,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 720
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 750
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116607,11 +121831,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -116622,7 +121846,7 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -116655,28 +121879,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -116690,10 +121914,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116703,14 +121927,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 2
-    NumLoadsB: 3
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -116724,7 +121948,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -116771,8 +121995,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 721
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_6_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 751
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116781,19 +122005,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -116814,41 +122038,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 96
-    LSPA: 8
-    LSPB: 5
-    LVCA: 32
-    LVCB: 48
-    LVPA: 4
-    LVPB: 3
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -116862,10 +122086,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116875,11 +122099,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -116894,7 +122120,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -116941,8 +122167,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 722
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 752
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116951,23 +122177,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -116986,41 +122210,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 96
-    LSPA: 8
-    LSPB: 5
-    LVCA: 32
-    LVCB: 48
-    LVPA: 4
-    LVPB: 3
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -117034,10 +122258,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117047,11 +122271,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -117113,8 +122339,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 723
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 753
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -117123,23 +122349,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -117159,40 +122383,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
+    LSCA: 128
+    LSCB: 64
     LSPA: 4
-    LSPB: 2
+    LSPB: 8
     LVCA: 64
-    LVCB: 128
-    LVPA: 4
-    LVPB: 2
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -117206,10 +122430,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117220,13 +122444,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
-    NumLoadsB: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -117287,8 +122511,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 724
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 754
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR0_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -117297,17 +122521,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -117330,41 +122554,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
+    LSCA: 128
+    LSCB: 64
     LSPA: 4
-    LSPB: 2
+    LSPB: 8
     LVCA: 64
-    LVCB: 128
-    LVPA: 4
-    LVPB: 2
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -117378,10 +122602,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117392,13 +122616,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -117412,7 +122634,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -117459,8 +122681,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 725
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 755
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -117469,21 +122691,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -117495,48 +122719,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
+    LSCA: 32
+    LSCB: 64
     LSPA: 8
     LSPB: 4
     LVCA: 32
     LVCB: 64
-    LVPA: 4
-    LVPB: 2
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -117549,11 +122769,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117563,14 +122783,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -117583,8 +122803,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -117631,8 +122851,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 726
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 756
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -117641,13 +122861,13 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -117655,7 +122875,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -117667,48 +122887,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
+    LSCA: 32
+    LSCB: 64
     LSPA: 8
     LSPB: 4
     LVCA: 32
     LVCB: 64
-    LVPA: 4
-    LVPB: 2
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -117721,11 +122937,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117735,14 +122951,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -117755,8 +122971,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -117803,8 +123019,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 727
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 757
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -117813,13 +123029,13 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -117827,7 +123043,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -117847,7 +123063,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -117855,32 +123071,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
+    LSCA: 32
+    LSCB: 64
     LSPA: 8
-    LSPB: 4
+    LSPB: 8
     LVCA: 32
-    LVCB: 64
-    LVPA: 4
-    LVPB: 2
+    LVCB: 32
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -117894,10 +123110,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117907,14 +123123,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -117975,8 +123191,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 728
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 758
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -117985,11 +123201,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -117997,7 +123213,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -118011,7 +123227,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118019,34 +123235,34 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
+    LSCA: 32
+    LSCB: 64
     LSPA: 8
     LSPB: 4
     LVCA: 32
     LVCB: 64
-    LVPA: 4
-    LVPB: 2
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
@@ -118058,7 +123274,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -118066,10 +123282,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118079,14 +123295,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -118147,31 +123363,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 729
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 759
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -118189,55 +123405,59 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 4
-    LVPB: 2
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118247,14 +123467,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -118267,8 +123487,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -118315,29 +123535,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 730
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_DTL0_EPS0_FL0_GRVW4_PGR0_PLR0_TT4_8_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 760
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -118358,58 +123578,58 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
+    LSCA: 32
+    LSCB: 32
     LSPA: 8
-    LSPB: 4
+    LSPB: 8
     LVCA: 32
-    LVCB: 64
-    LVPA: 4
-    LVPB: 2
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118419,12 +123639,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -118485,33 +123707,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 731
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 761
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -118523,7 +123743,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118539,7 +123759,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -118549,28 +123769,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
-    LVPA: 4
-    LVPB: 2
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -118578,10 +123798,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118591,12 +123811,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -118657,31 +123877,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 732
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 762
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x16_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -118695,7 +123915,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118721,16 +123941,16 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
-    LSPA: 2
-    LSPB: 4
-    LVCA: 128
-    LVCB: 64
-    LVPA: 2
-    LVPB: 4
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
@@ -118742,7 +123962,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -118750,10 +123970,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118763,8 +123983,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -118784,7 +124004,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -118831,20 +124051,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 733
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 763
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -118852,10 +124072,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -118867,7 +124087,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118887,34 +124107,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
-    LSPA: 2
-    LSPB: 4
-    LVCA: 128
-    LVCB: 64
-    LVPA: 2
-    LVPB: 4
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -118922,10 +124142,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118935,14 +124155,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -118956,7 +124176,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -119003,31 +124223,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 734
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 764
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT8x32x32_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -119039,54 +124259,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
-    LSPA: 2
-    LSPB: 4
-    LVCA: 128
-    LVCB: 64
-    LVPA: 2
-    LVPB: 4
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -119094,10 +124314,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119107,13 +124327,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -119175,31 +124393,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 735
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 765
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -119211,7 +124431,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -119219,56 +124439,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 16
     LSCB: 64
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 2
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -119279,13 +124499,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -119300,7 +124520,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -119347,31 +124567,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 736
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR0_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 766
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -119383,40 +124603,40 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
@@ -119430,7 +124650,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -119438,10 +124658,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119451,12 +124671,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -119517,33 +124739,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 737
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 767
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -119561,9 +124781,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -119571,45 +124791,49 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 64
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 8
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119619,14 +124843,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -119639,7 +124863,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -119687,15 +124911,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 738
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 768
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x16_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [2, 4]
     ThreadTile0: 2
@@ -119703,12 +124927,12 @@
     ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -119729,9 +124953,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -119739,45 +124963,49 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
-    LVPA: 8
-    LVPB: 4
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119787,14 +125015,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -119807,7 +125035,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -119855,29 +125083,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 739
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 769
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -119891,7 +125119,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -119899,8 +125127,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -119911,45 +125139,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 4
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119959,8 +125187,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -120027,31 +125255,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 740
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 770
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -120063,54 +125291,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
+    LSCA: 64
+    LSCB: 16
     LSPA: 8
-    LSPB: 4
+    LSPB: 32
     LVCA: 32
-    LVCB: 64
-    LVPA: 8
-    LVPB: 4
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120118,10 +125346,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120131,14 +125359,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -120199,15 +125425,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 741
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG8_16_2_WGM1
+    SolutionIndex: 771
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x32_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -120215,15 +125441,17 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -120235,13 +125463,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -120261,28 +125489,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 8
+    LSCA: 64
+    LSCB: 32
+    LSPA: 2
     LSPB: 4
-    LVCA: 32
-    LVCB: 64
-    LVPA: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120290,10 +125514,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120303,15 +125527,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -120323,7 +125547,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -120371,15 +125595,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 742
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG8_16_2_WGM1
+    SolutionIndex: 772
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -120392,10 +125616,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -120413,7 +125637,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -120423,48 +125647,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
+    LSPA: 2
+    LSPB: 4
+    LVCA: 64
     LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -120475,15 +125695,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -120495,7 +125715,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -120543,8 +125763,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 743
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_2_WGM1
+    SolutionIndex: 773
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -120553,19 +125773,19 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -120585,8 +125805,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -120595,7 +125815,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -120605,38 +125825,34 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 32
     LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -120647,13 +125863,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -120665,7 +125883,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -120713,8 +125931,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 744
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x16_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_8_2_WGM1
+    SolutionIndex: 774
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW2_PGR0_PLR1_TT4_4_USFGRO0_VW2_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -120723,10 +125941,10 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -120734,12 +125952,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -120751,7 +125967,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120771,34 +125987,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
+    LSCB: 64
+    LSPA: 2
+    LSPB: 2
     LVCA: 64
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
+    LVCB: 64
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120807,9 +126023,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120819,15 +126035,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -120840,7 +126056,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -120887,8 +126103,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 745
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
+    SolutionIndex: 775
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW2_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -120897,21 +126113,21 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -120923,7 +126139,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120943,34 +126159,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 32
-    LSPA: 32
-    LSPB: 8
-    LVCA: 8
-    LVCB: 32
-    LVPA: 32
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 2
+    LSPB: 2
+    LVCA: 64
+    LVCB: 64
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120978,10 +126194,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120991,15 +126207,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -121012,7 +126228,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -121059,31 +126275,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 746
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT8x32x32_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    SolutionIndex: 776
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -121095,54 +126311,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 2
+    LSPB: 2
+    LVCA: 64
+    LVCB: 64
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -121150,10 +126366,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121163,13 +126379,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -121182,7 +126400,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -121229,33 +126447,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 747
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG4_16_4_WGM1
+    SolutionIndex: 777
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -121267,7 +126483,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121275,7 +126491,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -121288,43 +126504,43 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
+    LSPA: 8
+    LSPB: 8
     LVCA: 16
     LVCB: 16
-    LVPA: 16
-    LVPB: 4
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -121335,15 +126551,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -121356,7 +126572,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -121403,31 +126619,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 748
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG4_16_4_WGM8
+    SolutionIndex: 778
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -121439,7 +126655,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121447,46 +126663,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 64
     LSPA: 8
-    LSPB: 16
-    LVCA: 32
+    LSPB: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -121494,10 +126710,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121507,15 +126723,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -121528,7 +126744,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -121575,31 +126791,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 749
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_4_4_WGM1
+    SolutionIndex: 779
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -121611,44 +126827,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
     LVCA: 16
     LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -121658,18 +126874,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121679,15 +126895,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -121700,7 +126914,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -121747,31 +126961,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 750
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x16_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
+    SolutionIndex: 780
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -121783,16 +126999,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -121805,43 +127021,43 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
     LVCA: 16
     LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121851,15 +127067,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -121919,31 +127133,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 751
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    SolutionIndex: 781
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -121955,15 +127171,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
-    DirectToLds: false
-    DirectToLdsA: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -121971,49 +127187,45 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 1
+    LSPB: 4
+    LVCA: 128
+    LVCB: 32
+    LVPA: 1
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122023,15 +127235,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -122043,7 +127255,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -122091,31 +127303,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 752
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
+    SolutionIndex: 782
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x8_SE_DTL1_EPS0_FL0_GRVW1_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -122127,14 +127339,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -122153,39 +127365,35 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 32
+    LSCB: 64
     LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
+    LSPB: 4
+    LVCA: 16
+    LVCB: 32
     LVPA: 4
-    LVPB: 16
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122195,13 +127403,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -122213,7 +127423,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -122261,15 +127471,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 753
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x32_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_4_4_WGM1
+    SolutionIndex: 783
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL0_GRVW2_PGR0_PLR1_TT4_4_USFGRO0_VW2_WG8_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -122282,12 +127492,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -122305,38 +127513,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 2
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
     LSPB: 4
-    LVCA: 64
+    LVCA: 16
     LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -122350,10 +127562,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122364,12 +127576,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 128
     OptNoLoadLoop: 1
@@ -122383,7 +127593,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -122431,15 +127641,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 754
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 784
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -122447,15 +127657,17 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -122467,42 +127679,42 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 2
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
     LSPB: 4
-    LVCA: 64
+    LVCA: 16
     LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 1536
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
@@ -122517,11 +127729,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122532,13 +127744,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -122599,15 +127809,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 755
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 785
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL1_GRVW2_PGR0_PLR1_TT4_4_USFGRO0_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -122615,15 +127825,17 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -122635,44 +127847,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
-    DirectToLds: false
+    DepthU: 8
+    DirectToLds: true
     DirectToLdsA: false
-    DirectToLdsB: false
+    DirectToLdsB: true
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 32
+    LSCB: 128
     LSPA: 4
-    LSPB: 8
+    LSPB: 1
     LVCA: 32
-    LVCB: 16
-    LVPA: 2
-    LVPB: 4
+    LVCB: 128
+    LVPA: 4
+    LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -122682,14 +127894,14 @@
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
+    LocalWriteUseSgprB: true
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122699,14 +127911,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsA: 2
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 8
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -122767,31 +127979,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 756
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW2_PGR0_PLR1_TT4_4_USFGRO0_VW2_WG16_8_1_WGM8
+    SolutionIndex: 786
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x128x8_SE_DTL1_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_8_USFGRO1_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -122811,30 +128023,30 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 2
-    LSPB: 2
-    LVCA: 64
-    LVCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
     LVPA: 2
     LVPB: 2
     LdcEqualsLdd: false
@@ -122872,13 +128084,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -122939,28 +128151,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 757
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW2_WG16_8_1_WGM1
+    SolutionIndex: 787
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -122983,30 +128195,30 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 2
-    LSPB: 2
-    LVCA: 64
-    LVCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
     LVPA: 2
     LVPB: 2
     LdcEqualsLdd: false
@@ -123045,12 +128257,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -123111,29 +128323,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 758
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 788
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -123154,31 +128366,31 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 2
-    LSPB: 2
-    LVCA: 64
-    LVCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
     LVPA: 2
     LVPB: 2
     LdcEqualsLdd: false
@@ -123217,12 +128429,10 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -123283,31 +128493,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 759
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 789
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -123326,41 +128538,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 32
+    LVCB: 64
     LVPA: 2
-    LVPB: 2
+    LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -123375,9 +128587,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123387,14 +128599,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -123408,7 +128618,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -123455,31 +128665,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 760
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
+    SolutionIndex: 790
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT8_8_USFGRO0_VW2_WG8_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -123498,7 +128710,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -123518,21 +128730,21 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 8
+    LSPB: 4
     LVCA: 16
-    LVCB: 16
+    LVCB: 32
     LVPA: 2
-    LVPB: 2
+    LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -123547,9 +128759,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123559,14 +128771,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -123627,20 +128837,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 761
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 791
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT8_8_USFGRO0_VW4_WG8_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -123648,10 +128858,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -123670,33 +128882,33 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
-    LVPB: 2
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
@@ -123731,13 +128943,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -123793,37 +129007,37 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 762
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 792
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -123842,33 +129056,33 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
-    LVPB: 2
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
@@ -123903,13 +129117,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -123922,7 +129138,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -123965,37 +129181,37 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 763
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 793
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -124007,9 +129223,9 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
-    DirectToLds: true
-    DirectToLdsA: true
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
@@ -124033,16 +129249,16 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 1
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
     LSPB: 4
-    LVCA: 128
-    LVCB: 32
-    LVPA: 1
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 2048
     LdsOffsetA: 0
     LdsOffsetB: 1024
     LdsPadA: 0
@@ -124053,15 +129269,15 @@
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: true
+    LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124071,15 +129287,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -124135,24 +129351,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 764
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x8_SE_DTL1_EPS0_FL0_GRVW1_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 794
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -124160,10 +129378,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -124181,38 +129399,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 64
-    LSPA: 8
+    LSPA: 4
     LSPB: 4
-    LVCA: 16
-    LVCB: 32
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -124226,9 +129448,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -124240,14 +129462,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -124259,7 +129481,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -124303,18 +129525,20 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 765
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL0_GRVW2_PGR0_PLR1_TT4_4_USFGRO0_VW2_WG8_16_1_WGM8
+    SolutionIndex: 795
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -124323,12 +129547,12 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -124350,41 +129574,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 8
-    LSPB: 4
-    LVCA: 16
-    LVCB: 32
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
     LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -124398,10 +129622,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124411,13 +129635,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -124473,37 +129699,37 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 766
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG8_16_1_WGM1
+    SolutionIndex: 796
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -124515,44 +129741,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 8
-    LSPB: 4
-    LVCA: 16
-    LVCB: 32
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
     LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -124565,11 +129795,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124579,13 +129809,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -124597,8 +129829,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -124641,37 +129873,37 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 767
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL1_GRVW2_PGR0_PLR1_TT4_4_USFGRO0_VW2_WG8_16_1_WGM1
+    SolutionIndex: 797
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -124684,12 +129916,12 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: true
+    DirectToLds: false
     DirectToLdsA: false
-    DirectToLdsB: true
+    DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -124709,18 +129941,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 128
     LSPA: 4
-    LSPB: 1
-    LVCA: 32
+    LSPB: 2
+    LVCA: 64
     LVCB: 128
     LVPA: 4
-    LVPB: 1
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -124730,13 +129966,13 @@
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: true
+    LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -124750,12 +129986,12 @@
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
-    NumLoadsB: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 8
-    NumThreads: 128
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -124767,8 +130003,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -124811,18 +130047,20 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 768
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x128x8_SE_DTL1_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_8_USFGRO1_VW4_WG8_16_1_WGM1
+    SolutionIndex: 798
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 8]
@@ -124836,8 +130074,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -124858,41 +130096,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -124907,9 +130145,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124920,14 +130158,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -124983,35 +130219,39 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 769
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
+    SolutionIndex: 799
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -125030,41 +130270,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -125079,9 +130319,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125092,14 +130332,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -125112,7 +130350,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -125155,35 +130393,39 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 770
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM8
+    SolutionIndex: 800
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -125203,40 +130445,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -125251,9 +130493,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125264,12 +130506,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -125282,7 +130524,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -125325,33 +130567,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 771
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
+    SolutionIndex: 801
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -125367,48 +130611,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 4
-    LSPB: 2
-    LVCA: 32
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
     LVCB: 64
     LVPA: 2
-    LVPB: 1
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -125421,11 +130661,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125435,13 +130675,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 8
     NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -125453,7 +130695,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -125497,37 +130739,37 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 772
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT8_8_USFGRO0_VW2_WG8_16_1_WGM8
+    SolutionIndex: 802
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -125546,7 +130788,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -125566,21 +130808,21 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
+    LSCB: 64
     LSPA: 8
-    LSPB: 4
+    LSPB: 8
     LVCA: 16
-    LVCB: 32
+    LVCB: 16
     LVPA: 2
-    LVPB: 1
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -125595,9 +130837,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125607,12 +130849,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -125669,24 +130913,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 773
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT8_8_USFGRO0_VW4_WG8_16_1_WGM8
+    SolutionIndex: 803
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -125694,12 +130940,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -125719,32 +130963,32 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
@@ -125779,15 +131023,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -125849,29 +131093,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 774
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 804
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -125886,12 +131130,12 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -125911,22 +131155,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 4
+    LSCA: 128
+    LSCB: 32
+    LSPA: 1
     LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
+    LVCA: 128
+    LVCB: 32
+    LVPA: 1
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -125935,15 +131175,15 @@
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125953,15 +131193,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 8
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -125973,8 +131213,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -126023,20 +131263,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 775
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 805
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x8_SE_DTL1_EPS0_FL0_GRVW1_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -126044,7 +131284,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -126059,44 +131299,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126109,7 +131353,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -126123,15 +131367,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -126143,8 +131387,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -126193,31 +131437,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 776
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 806
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -126229,48 +131473,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126283,7 +131527,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -126297,15 +131541,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -126318,7 +131560,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -126367,31 +131609,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 777
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 807
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -126411,40 +131655,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 4
-    LSPB: 2
-    LVCA: 64
-    LVCB: 128
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126459,9 +131704,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126471,21 +131716,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -126541,8 +131788,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 778
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 808
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT4_4_USFGRO0_VW2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -126551,13 +131798,13 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -126584,41 +131831,42 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 4
-    LSPB: 2
-    LVCA: 64
-    LVCB: 128
-    LVPA: 4
-    LVPB: 2
+    LSCA: 96
+    LSCB: 64
+    LSPA: 5
+    LSPB: 8
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126632,10 +131880,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126645,28 +131893,28 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -126715,8 +131963,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 779
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 809
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT6_4_USFGRO0_VW2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -126725,21 +131973,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -126759,40 +132009,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
+    LSCA: 128
+    LSCB: 64
     LSPA: 4
-    LSPB: 2
+    LSPB: 8
     LVCA: 64
-    LVCB: 128
-    LVPA: 4
-    LVPB: 2
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126806,10 +132057,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126820,27 +132071,29 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
-    NumLoadsB: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -126889,8 +132142,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 780
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 810
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -126899,17 +132152,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -126948,25 +132201,26 @@
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
-    LVPA: 4
-    LVPB: 2
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126980,10 +132234,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126997,15 +132251,17 @@
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -127061,8 +132317,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 781
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 811
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_NLCA1_NLCB1_PGR1_PLR0_TT8_4_USFGRO0_VW2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -127071,11 +132327,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -127089,7 +132345,7 @@
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
@@ -127099,7 +132355,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -127107,40 +132363,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -127153,33 +132410,34 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -127235,8 +132493,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 782
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 812
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -127245,25 +132503,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
@@ -127282,29 +132540,30 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 128
     LSPA: 8
-    LSPB: 4
+    LSPB: 8
     LVCA: 32
-    LVCB: 64
+    LVCB: 32
     LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
@@ -127336,24 +132595,25 @@
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -127409,8 +132669,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 783
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 813
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -127429,15 +132689,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
@@ -127447,44 +132707,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
-    LSPA: 2
-    LSPB: 4
-    LVCA: 128
-    LVCB: 64
-    LVPA: 2
-    LVPB: 4
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -127497,41 +132762,40 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -127581,8 +132845,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 784
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 814
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -127591,23 +132855,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
@@ -127624,7 +132890,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -127638,8 +132904,9 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
@@ -127680,15 +132947,12 @@
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -127698,15 +132962,17 @@
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -127755,31 +133021,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 785
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
+    SolutionIndex: 815
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -127799,32 +133067,33 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
-    LVPB: 2
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
@@ -127854,26 +133123,27 @@
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -127929,29 +133199,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 786
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 816
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -127966,12 +133236,12 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: true
-    DirectToLdsA: true
+    DirectToLds: false
+    DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -127988,21 +133258,26 @@
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 1
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
     LSPB: 4
-    LVCA: 128
-    LVCB: 32
-    LVPA: 1
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128011,46 +133286,47 @@
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: true
+    LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -128099,20 +133375,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 787
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x8_SE_DTL1_EPS0_FL0_GRVW1_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 817
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -128120,7 +133396,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -128135,48 +133411,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
-    LVPB: 2
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128189,7 +133462,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -128198,33 +133471,34 @@
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -128273,31 +133547,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 788
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
+    SolutionIndex: 818
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_DTL0_EPS0_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -128310,47 +133584,44 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
-    LVPB: 2
+    LSCA: 128
+    LSCB: 32
+    LSPA: 1
+    LSPB: 4
+    LVCA: 128
+    LVCB: 32
+    LVPA: 1
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128359,44 +133630,47 @@
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -128445,15 +133719,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 789
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
+    SolutionIndex: 819
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x8_SE_AMAS3_DTL1_EPS0_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -128461,17 +133735,15 @@
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
 - [2, 3, 0, 1]
 - - - [1024, 128, 1, 128]
     - [4, 1028.02]
@@ -130547,8 +135819,6 @@
     - [98, 6963.26]
   - - [784, 128, 128, 512]
     - [107, 8983.53]
-  - - [196, 256, 64, 1024]
-    - [106, 7823.4]
   - - [3136, 256, 256, 64]
     - [103, 9051.28]
   - - [3136, 64, 128, 64]
@@ -130577,60 +135847,22 @@
     - [102, 8210.56]
   - - [5329, 160, 64, 64]
     - [118, 8156.79]
-  - - [1225, 288, 64, 48]
-    - [122, 6926.13]
-  - - [1225, 192, 64, 64]
-    - [124, 7840.0]
-  - - [64, 1280, 64, 384]
-    - [125, 9276.01]
   - - [1225, 384, 64, 192]
     - [115, 9162.25]
-  - - [1225, 288, 64, 64]
-    - [116, 7495.17]
-  - - [5329, 64, 64, 80]
-    - [117, 8480.03]
   - - [289, 1024, 64, 256]
     - [115, 8483.73]
-  - - [289, 768, 64, 192]
-    - [121, 8234.74]
-  - - [289, 768, 64, 128]
-    - [121, 7988.71]
   - - [64, 1536, 64, 384]
     - [125, 9323.55]
   - - [1225, 384, 64, 64]
     - [124, 8158.7]
-  - - [64, 2048, 64, 192]
-    - [121, 8818.51]
-  - - [64, 1280, 64, 320]
-    - [117, 9202.07]
   - - [1225, 384, 64, 96]
     - [115, 8540.6]
-  - - [64, 1280, 64, 448]
-    - [121, 9317.72]
-  - - [289, 768, 64, 160]
-    - [125, 8128.71]
-  - - [1225, 192, 64, 32]
-    - [124, 6495.27]
   - - [64, 1536, 64, 256]
     - [121, 9142.9]
-  - - [1225, 256, 64, 48]
-    - [119, 7545.26]
-  - - [1225, 256, 64, 64]
-    - [120, 7972.35]
-  - - [1225, 192, 64, 48]
-    - [123, 7348.8]
   - - [289, 1024, 64, 384]
     - [113, 8725.56]
   - - [289, 1024, 64, 192]
     - [115, 8313.06]
-  - - [64, 1280, 64, 192]
-    - [117, 8768.58]
-  - - [64, 2048, 64, 320]
-    - [114, 9147.88]
-  - - [64, 2048, 64, 448]
-    - [112, 9304.06]
-  - - [64, 2048, 64, 384]
-    - [114, 9235.18]
   - - [289, 1024, 64, 128]
     - [121, 7989.41]
   - - [4096, 1024, 1, 2984]
@@ -133451,8 +138683,6 @@
     - [357, 4362.6]
   - - [49, 832, 32, 256]
     - [320, 5618.63]
-  - - [3136, 64, 64, 64]
-    - [306, 8457.65]
   - - [196, 512, 32, 24]
     - [307, 3621.73]
   - - [289, 1120, 1, 160]
@@ -133465,8 +138695,6 @@
     - [305, 3575.67]
   - - [289, 1792, 1, 320]
     - [328, 5140.33]
-  - - [3136, 256, 64, 64]
-    - [329, 9310.12]
   - - [1001, 1024, 1, 32]
     - [300, 2733.4]
   - - [196, 480, 32, 64]
@@ -133475,8 +138703,6 @@
     - [358, 3205.57]
   - - [49, 832, 32, 160]
     - [362, 4988.82]
-  - - [49, 2048, 64, 512]
-    - [332, 7370.31]
   - - [49, 832, 32, 384]
     - [320, 5901.95]
   - - [289, 896, 1, 192]
@@ -133515,8 +138741,6 @@
     - [371, 5987.1]
   - - [64, 2048, 32, 448]
     - [334, 9669.87]
-  - - [196, 1024, 64, 256]
-    - [373, 7818.94]
   - - [5329, 448, 1, 64]
     - [306, 6201.02]
   - - [784, 256, 32, 64]
@@ -133579,8 +138803,6 @@
     - [312, 7067.63]
   - - [49, 832, 32, 48]
     - [345, 3316.72]
-  - - [3136, 64, 64, 256]
-    - [367, 9721.9]
   - - [5329, 160, 32, 64]
     - [369, 8159.84]
   - - [1225, 288, 32, 48]
@@ -133645,14 +138867,8 @@
     - [324, 4831.61]
   - - [196, 528, 32, 256]
     - [342, 6453.82]
-  - - [49, 512, 64, 2048]
-    - [377, 7548.98]
   - - [64, 2048, 32, 192]
     - [329, 8955.81]
-  - - [784, 512, 64, 128]
-    - [329, 9160.73]
-  - - [784, 128, 64, 512]
-    - [336, 9280.69]
   - - [196, 528, 32, 160]
     - [370, 6161.15]
   - - [1225, 192, 32, 48]
@@ -133697,5228 +138913,5286 @@
     - [393, 9642.08]
   - - [1001, 1536, 1, 64]
     - [383, 5146.56]
+  - - [2048, 2048, 1, 1024]
+    - [397, 9940.21]
+  - - [3200, 2048, 1, 1024]
+    - [396, 9899.24]
+  - - [4096, 4096, 1, 1024]
+    - [398, 10222.2]
+  - - [2048, 256, 1, 1024]
+    - [395, 8452.0]
+  - - [257, 4096, 1, 1024]
+    - [396, 8353.5]
+  - - [64, 2048, 64, 192]
+    - [403, 9434.24]
+  - - [1225, 192, 64, 48]
+    - [407, 7799.38]
+  - - [1225, 288, 64, 48]
+    - [411, 7030.37]
+  - - [289, 768, 64, 160]
+    - [409, 8784.74]
+  - - [3136, 64, 64, 64]
+    - [399, 7941.3]
+  - - [1225, 192, 64, 32]
+    - [408, 6772.91]
+  - - [1225, 256, 64, 48]
+    - [407, 8022.81]
+  - - [64, 2048, 64, 384]
+    - [401, 9859.28]
+  - - [64, 1280, 64, 384]
+    - [401, 9675.44]
+  - - [196, 1024, 64, 256]
+    - [404, 9583.63]
+  - - [64, 1280, 64, 192]
+    - [401, 9320.68]
+  - - [1225, 192, 64, 64]
+    - [407, 8180.87]
+  - - [3136, 256, 64, 64]
+    - [403, 8966.88]
+  - - [1225, 288, 64, 64]
+    - [411, 7567.39]
+  - - [5329, 64, 64, 80]
+    - [406, 8634.33]
+  - - [49, 2048, 64, 512]
+    - [410, 8822.54]
+  - - [784, 512, 64, 128]
+    - [404, 9519.26]
+  - - [289, 768, 64, 192]
+    - [409, 8929.24]
+  - - [64, 1280, 64, 448]
+    - [401, 9702.62]
+  - - [289, 768, 64, 128]
+    - [409, 8566.86]
+  - - [1225, 256, 64, 64]
+    - [407, 8306.43]
+  - - [3136, 64, 64, 256]
+    - [405, 9431.89]
+  - - [64, 1280, 64, 320]
+    - [401, 9754.2]
+  - - [64, 2048, 64, 320]
+    - [401, 9765.55]
+  - - [49, 512, 64, 2048]
+    - [412, 7606.26]
+  - - [64, 2048, 64, 448]
+    - [401, 9948.37]
+  - - [196, 256, 64, 1024]
+    - [400, 8824.43]
+  - - [784, 128, 64, 512]
+    - [402, 9393.09]
   - - [1024, 128, 1, 128]
-    - [399, 1028.12]
+    - [417, 1028.02]
   - - [4, 704, 1, 1280]
-    - [438, 363.455]
+    - [456, 363.355]
   - - [4, 1856, 1, 3328]
-    - [438, 579.534]
+    - [456, 579.434]
   - - [1856, 448, 1, 3328]
-    - [475, 6966.83]
+    - [493, 6966.73]
   - - [2944, 4288, 1, 1280]
-    - [470, 9057.98]
+    - [488, 9057.88]
   - - [2368, 64, 1, 3328]
-    - [431, 5837.66]
+    - [449, 5837.56]
   - - [2368, 5888, 1, 256]
-    - [475, 9111.16]
+    - [493, 9111.06]
   - - [128, 64, 1, 256]
-    - [437, 374.591]
+    - [455, 374.491]
   - - [5888, 1024, 1, 1280]
-    - [480, 8570.54]
+    - [498, 8570.44]
   - - [128, 6784, 1, 3328]
-    - [443, 7703.96]
+    - [461, 7703.86]
   - - [64, 4, 1, 256]
-    - [489, 11.3219]
+    - [507, 11.2219]
   - - [5888, 1856, 1, 3328]
-    - [475, 9394.4]
+    - [493, 9394.3]
   - - [5056, 704, 1, 256]
-    - [478, 8026.99]
+    - [496, 8026.89]
   - - [5888, 2944, 1, 3328]
-    - [468, 7608.21]
+    - [486, 7608.11]
   - - [1856, 4288, 1, 256]
-    - [469, 8986.42]
+    - [487, 8986.32]
   - - [1024, 5056, 1, 128]
-    - [461, 3898.34]
+    - [479, 3898.24]
   - - [5056, 5056, 1, 3328]
-    - [469, 9536.85]
+    - [487, 9536.75]
   - - [1408, 5888, 1, 1280]
-    - [470, 9279.19]
+    - [488, 9279.09]
   - - [2368, 448, 1, 128]
-    - [462, 2474.42]
+    - [480, 2474.32]
   - - [1024, 3584, 1, 3328]
-    - [472, 9258.58]
+    - [490, 9258.48]
   - - [4, 2944, 1, 1280]
-    - [424, 611.84]
+    - [442, 611.74]
   - - [1408, 64, 1, 128]
-    - [395, 858.31]
+    - [413, 858.21]
   - - [256, 4288, 1, 3328]
-    - [475, 7616.08]
+    - [493, 7615.98]
   - - [5888, 1408, 1, 1280]
-    - [468, 9620.39]
+    - [486, 9620.29]
   - - [704, 1856, 1, 3328]
-    - [469, 9033.75]
+    - [487, 9033.65]
   - - [4, 1408, 1, 128]
-    - [482, 24.455]
+    - [500, 24.355]
   - - [1024, 2368, 1, 256]
-    - [469, 7526.25]
+    - [487, 7526.15]
   - - [1408, 1856, 1, 1280]
-    - [472, 8324.19]
+    - [490, 8324.09]
   - - [1408, 64, 1, 1280]
-    - [443, 4681.24]
+    - [461, 4681.14]
   - - [448, 1024, 1, 1280]
-    - [469, 7112.53]
+    - [487, 7112.43]
   - - [256, 1408, 1, 3328]
-    - [475, 5825.51]
+    - [493, 5825.41]
   - - [5056, 5056, 1, 1280]
-    - [478, 9233.65]
+    - [496, 9233.55]
   - - [448, 5056, 1, 256]
-    - [470, 7003.27]
+    - [488, 7003.17]
   - - [704, 1856, 1, 1280]
-    - [469, 8877.38]
+    - [487, 8877.28]
   - - [128, 5056, 1, 128]
-    - [461, 2301.14]
+    - [479, 2301.04]
   - - [2368, 128, 1, 256]
-    - [469, 3849.04]
+    - [487, 3848.94]
   - - [1856, 1408, 1, 128]
-    - [464, 4202.31]
+    - [482, 4202.21]
   - - [64, 5056, 1, 256]
-    - [470, 3109.62]
+    - [488, 3109.52]
   - - [6784, 256, 1, 3328]
-    - [469, 6388.53]
+    - [487, 6388.43]
   - - [6784, 4288, 1, 3328]
-    - [480, 9114.67]
+    - [498, 9114.57]
   - - [4288, 448, 1, 256]
-    - [473, 5783.05]
+    - [491, 5782.95]
   - - [64, 704, 1, 128]
-    - [406, 379.519]
+    - [424, 379.419]
   - - [1856, 2368, 1, 3328]
-    - [469, 9128.46]
+    - [487, 9128.36]
   - - [4288, 2944, 1, 1280]
-    - [475, 9182.33]
+    - [493, 9182.23]
   - - [704, 5056, 1, 1280]
-    - [469, 9071.57]
+    - [487, 9071.47]
   - - [2368, 704, 1, 3328]
-    - [475, 7731.43]
+    - [493, 7731.33]
   - - [256, 5888, 1, 256]
-    - [469, 7920.38]
+    - [487, 7920.28]
   - - [1856, 4288, 1, 3328]
-    - [475, 9330.07]
+    - [493, 9329.97]
   - - [256, 2944, 1, 256]
-    - [476, 5312.27]
+    - [494, 5312.17]
   - - [5888, 1024, 1, 256]
-    - [467, 6710.97]
+    - [485, 6710.87]
   - - [448, 64, 1, 1280]
-    - [442, 2814.53]
+    - [460, 2814.43]
   - - [448, 5056, 1, 3328]
-    - [469, 8255.53]
+    - [487, 8255.43]
   - - [3584, 4, 1, 1280]
-    - [418, 640.815]
+    - [436, 640.715]
   - - [2944, 64, 1, 256]
-    - [417, 2621.54]
+    - [435, 2621.44]
   - - [128, 4, 1, 1280]
-    - [489, 86.3316]
+    - [507, 86.2316]
   - - [1408, 2944, 1, 256]
-    - [469, 8848.99]
+    - [487, 8848.89]
   - - [256, 1856, 1, 1280]
-    - [469, 7366.55]
+    - [487, 7366.45]
   - - [6784, 5056, 1, 3328]
-    - [480, 8332.16]
+    - [498, 8332.06]
   - - [5056, 5056, 1, 256]
-    - [475, 9171.74]
+    - [493, 9171.64]
   - - [1408, 6784, 1, 128]
-    - [461, 5079.19]
+    - [479, 5079.09]
   - - [64, 1024, 1, 1280]
-    - [433, 3679.31]
+    - [451, 3679.21]
   - - [2944, 4, 1, 256]
-    - [424, 369.543]
+    - [442, 369.443]
   - - [704, 5056, 1, 128]
-    - [461, 4509.27]
+    - [479, 4509.17]
   - - [4, 2368, 1, 1280]
-    - [418, 569.844]
+    - [436, 569.744]
   - - [2368, 2944, 1, 1280]
-    - [480, 7451.14]
+    - [498, 7451.04]
   - - [128, 3584, 1, 1280]
-    - [478, 6071.26]
+    - [496, 6071.16]
   - - [6784, 6784, 1, 1280]
-    - [475, 9535.74]
+    - [493, 9535.64]
   - - [1408, 4288, 1, 1280]
-    - [478, 8255.09]
+    - [496, 8254.99]
   - - [3584, 4288, 1, 1280]
-    - [480, 9651.19]
+    - [498, 9651.09]
   - - [2368, 704, 1, 1280]
-    - [475, 8291.4]
+    - [493, 8291.3]
   - - [5056, 4288, 1, 3328]
-    - [467, 9406.36]
+    - [485, 9406.26]
   - - [3584, 2368, 1, 3328]
-    - [475, 9350.32]
+    - [493, 9350.22]
   - - [64, 704, 1, 1280]
-    - [442, 3384.59]
+    - [460, 3384.49]
   - - [4288, 256, 1, 256]
-    - [475, 5593.62]
+    - [493, 5593.52]
   - - [2944, 128, 1, 128]
-    - [397, 2130.6]
+    - [415, 2130.5]
   - - [6784, 448, 1, 1280]
-    - [478, 8815.85]
+    - [496, 8815.75]
   - - [1408, 2944, 1, 128]
-    - [461, 4558.34]
+    - [479, 4558.24]
   - - [4288, 2944, 1, 256]
-    - [480, 7865.43]
+    - [498, 7865.33]
   - - [5888, 704, 1, 1280]
-    - [469, 9262.99]
+    - [487, 9262.89]
   - - [1856, 64, 1, 1280]
-    - [443, 4359.15]
+    - [461, 4359.05]
   - - [448, 5888, 1, 128]
-    - [464, 4000.59]
+    - [482, 4000.49]
   - - [5888, 64, 1, 3328]
-    - [444, 6603.39]
+    - [462, 6603.29]
   - - [2944, 256, 1, 3328]
-    - [469, 8423.63]
+    - [487, 8423.53]
   - - [1024, 64, 1, 128]
-    - [414, 582.642]
+    - [432, 582.542]
   - - [5056, 2368, 1, 1280]
-    - [469, 9419.91]
+    - [487, 9419.81]
   - - [448, 3584, 1, 1280]
-    - [469, 7985.82]
+    - [487, 7985.72]
   - - [6784, 5888, 1, 256]
-    - [467, 9494.36]
+    - [485, 9494.26]
   - - [704, 1024, 1, 128]
-    - [461, 2813.35]
+    - [479, 2813.25]
   - - [704, 128, 1, 1280]
-    - [443, 4477.71]
+    - [461, 4477.61]
   - - [5888, 2944, 1, 128]
-    - [464, 4745.96]
+    - [482, 4745.86]
   - - [4, 3584, 1, 128]
-    - [481, 96.479]
+    - [499, 96.379]
   - - [1408, 448, 1, 1280]
-    - [469, 6912.8]
+    - [487, 6912.7]
   - - [1024, 1408, 1, 256]
-    - [477, 5810.85]
+    - [495, 5810.75]
   - - [2368, 2368, 1, 3328]
-    - [478, 9088.71]
+    - [496, 9088.61]
   - - [1856, 6784, 1, 128]
-    - [464, 5168.32]
+    - [482, 5168.22]
   - - [5056, 704, 1, 3328]
-    - [470, 7464.9]
+    - [488, 7464.8]
   - - [1408, 1856, 1, 256]
-    - [475, 6727.69]
+    - [493, 6727.59]
   - - [1408, 704, 1, 3328]
-    - [475, 8379.53]
+    - [493, 8379.43]
   - - [2368, 5056, 1, 256]
-    - [475, 8664.11]
+    - [493, 8664.01]
   - - [5888, 1856, 1, 256]
-    - [480, 5810.02]
+    - [498, 5809.92]
   - - [4288, 64, 1, 3328]
-    - [457, 6583.94]
+    - [475, 6583.84]
   - - [2368, 4, 1, 1280]
-    - [490, 545.251]
+    - [508, 545.151]
   - - [704, 5888, 1, 256]
-    - [475, 8813.71]
+    - [493, 8813.61]
   - - [4288, 64, 1, 256]
-    - [433, 3059.97]
+    - [451, 3059.87]
   - - [6784, 64, 1, 256]
-    - [475, 3490.96]
+    - [493, 3490.86]
   - - [2944, 256, 1, 256]
-    - [469, 6970.4]
+    - [487, 6970.3]
   - - [2944, 6784, 1, 3328]
-    - [469, 9475.79]
+    - [487, 9475.69]
   - - [704, 1408, 1, 3328]
-    - [469, 8154.18]
+    - [487, 8154.08]
   - - [3584, 704, 1, 3328]
-    - [469, 8995.07]
+    - [487, 8994.97]
   - - [2944, 256, 1, 128]
-    - [461, 2824.13]
+    - [479, 2824.03]
   - - [6784, 4, 1, 1280]
-    - [418, 625.714]
+    - [436, 625.614]
   - - [1024, 64, 1, 1280]
-    - [430, 3307.91]
+    - [448, 3307.81]
   - - [448, 4288, 1, 256]
-    - [475, 6074.48]
+    - [493, 6074.38]
   - - [64, 3584, 1, 3328]
-    - [423, 6200.26]
+    - [441, 6200.16]
   - - [704, 2368, 1, 1280]
-    - [469, 8291.4]
+    - [487, 8291.3]
   - - [448, 2944, 1, 128]
-    - [461, 3221.87]
+    - [479, 3221.77]
   - - [1856, 2368, 1, 1280]
-    - [480, 6855.24]
+    - [498, 6855.14]
   - - [2368, 128, 1, 3328]
-    - [431, 6479.61]
+    - [449, 6479.51]
   - - [2944, 128, 1, 256]
-    - [469, 3828.23]
+    - [487, 3828.13]
   - - [448, 1408, 1, 256]
-    - [470, 4525.9]
+    - [488, 4525.8]
   - - [1856, 4288, 1, 1280]
-    - [468, 9160.32]
+    - [486, 9160.22]
   - - [64, 5056, 1, 3328]
-    - [451, 6819.3]
+    - [469, 6819.2]
   - - [4, 704, 1, 256]
-    - [435, 123.541]
+    - [453, 123.441]
   - - [1024, 448, 1, 128]
-    - [464, 1989.27]
+    - [482, 1989.17]
   - - [704, 4, 1, 1280]
-    - [438, 381.931]
+    - [456, 381.831]
   - - [704, 256, 1, 128]
-    - [461, 1109.17]
+    - [479, 1109.07]
   - - [704, 2944, 1, 128]
-    - [461, 4089.03]
+    - [479, 4088.93]
   - - [1408, 1024, 1, 1280]
-    - [475, 8192.08]
+    - [493, 8191.98]
   - - [704, 6784, 1, 256]
-    - [469, 6717.9]
+    - [487, 6717.8]
   - - [6784, 704, 1, 256]
-    - [475, 5429.22]
+    - [493, 5429.12]
   - - [5056, 1408, 1, 128]
-    - [461, 4954.5]
+    - [479, 4954.4]
   - - [256, 3584, 1, 3328]
-    - [469, 7890.96]
+    - [487, 7890.86]
   - - [4, 5888, 1, 3328]
-    - [486, 691.047]
+    - [504, 690.947]
   - - [128, 1408, 1, 128]
-    - [408, 1393.14]
+    - [426, 1393.04]
   - - [3584, 4288, 1, 3328]
-    - [471, 8900.87]
+    - [489, 8900.77]
   - - [5888, 1856, 1, 1280]
-    - [472, 9345.85]
+    - [490, 9345.75]
   - - [5056, 1024, 1, 3328]
-    - [473, 7834.84]
+    - [491, 7834.74]
   - - [5056, 64, 1, 1280]
-    - [451, 5890.14]
+    - [469, 5890.04]
   - - [1024, 704, 1, 256]
-    - [469, 6007.57]
+    - [487, 6007.47]
   - - [1024, 4288, 1, 128]
-    - [463, 3497.09]
+    - [481, 3496.99]
   - - [4288, 64, 1, 1280]
-    - [448, 4726.59]
+    - [466, 4726.49]
   - - [2368, 3584, 1, 1280]
-    - [467, 8128.82]
+    - [485, 8128.72]
   - - [2368, 6784, 1, 1280]
-    - [467, 9478.72]
+    - [485, 9478.62]
   - - [1024, 256, 1, 256]
-    - [475, 4092.1]
+    - [493, 4092.0]
   - - [1856, 4, 1, 1280]
-    - [490, 509.903]
+    - [508, 509.803]
   - - [448, 448, 1, 256]
-    - [475, 3001.28]
+    - [493, 3001.18]
   - - [2944, 3584, 1, 3328]
-    - [476, 9081.91]
+    - [494, 9081.81]
   - - [128, 4288, 1, 128]
-    - [396, 2323.33]
+    - [414, 2323.23]
   - - [64, 448, 1, 256]
-    - [439, 1066.97]
+    - [457, 1066.87]
   - - [128, 1024, 1, 3328]
-    - [452, 6392.36]
+    - [470, 6392.26]
   - - [4, 1408, 1, 3328]
-    - [435, 616.656]
+    - [453, 616.556]
   - - [6784, 2944, 1, 256]
-    - [478, 8547.73]
+    - [496, 8547.63]
   - - [64, 1856, 1, 1280]
-    - [451, 4409.71]
+    - [469, 4409.61]
   - - [64, 1024, 1, 128]
-    - [395, 554.902]
+    - [413, 554.802]
   - - [4288, 2368, 1, 3328]
-    - [471, 8780.08]
+    - [489, 8779.98]
   - - [1856, 2368, 1, 256]
-    - [478, 4976.74]
+    - [496, 4976.64]
   - - [3584, 256, 1, 128]
-    - [463, 2812.37]
+    - [481, 2812.27]
   - - [3584, 6784, 1, 3328]
-    - [473, 9278.22]
+    - [491, 9278.12]
   - - [256, 1024, 1, 256]
-    - [469, 4346.53]
+    - [487, 4346.43]
   - - [4, 6784, 1, 3328]
-    - [488, 681.366]
+    - [506, 681.266]
   - - [1024, 5888, 1, 3328]
-    - [469, 9187.61]
+    - [487, 9187.51]
   - - [1024, 128, 1, 1280]
-    - [421, 3660.05]
+    - [439, 3659.95]
   - - [4288, 128, 1, 1280]
-    - [475, 6019.17]
+    - [493, 6019.07]
   - - [5056, 4288, 1, 1280]
-    - [467, 9343.96]
+    - [485, 9343.86]
   - - [5888, 64, 1, 256]
-    - [469, 4692.17]
+    - [487, 4692.07]
   - - [1856, 256, 1, 1280]
-    - [475, 4790.38]
+    - [493, 4790.28]
   - - [64, 5888, 1, 3328]
-    - [443, 6702.2]
+    - [461, 6702.1]
   - - [2944, 5888, 1, 128]
-    - [464, 5202.65]
+    - [482, 5202.55]
   - - [704, 5888, 1, 1280]
-    - [469, 9264.29]
+    - [487, 9264.19]
   - - [2368, 3584, 1, 128]
-    - [461, 5053.71]
+    - [479, 5053.61]
   - - [6784, 5888, 1, 3328]
-    - [467, 7926.8]
+    - [485, 7926.7]
   - - [704, 1024, 1, 1280]
-    - [468, 5402.6]
+    - [486, 5402.5]
   - - [448, 256, 1, 3328]
-    - [451, 6124.65]
+    - [469, 6124.55]
   - - [448, 1856, 1, 128]
-    - [462, 2885.96]
+    - [480, 2885.86]
   - - [128, 1024, 1, 128]
-    - [396, 1013.22]
+    - [414, 1013.12]
   - - [2944, 4, 1, 128]
-    - [481, 77.6374]
+    - [499, 77.5374]
   - - [1024, 704, 1, 1280]
-    - [469, 7365.58]
+    - [487, 7365.48]
   - - [128, 5888, 1, 256]
-    - [469, 6990.61]
+    - [487, 6990.51]
   - - [1024, 5056, 1, 1280]
-    - [474, 9422.0]
+    - [492, 9421.9]
   - - [4288, 1024, 1, 256]
-    - [476, 6270.03]
+    - [494, 6269.93]
   - - [2944, 2368, 1, 128]
-    - [461, 4918.18]
+    - [479, 4918.08]
   - - [704, 704, 1, 3328]
-    - [469, 7963.65]
+    - [487, 7963.55]
   - - [704, 1408, 1, 1280]
-    - [469, 8347.32]
+    - [487, 8347.22]
   - - [5888, 448, 1, 1280]
-    - [475, 5217.05]
+    - [493, 5216.95]
   - - [3584, 256, 1, 3328]
-    - [469, 7802.25]
+    - [487, 7802.15]
   - - [704, 5888, 1, 3328]
-    - [475, 8381.46]
+    - [493, 8381.36]
   - - [704, 1856, 1, 128]
-    - [461, 3598.38]
+    - [479, 3598.28]
   - - [128, 3584, 1, 3328]
-    - [431, 7161.11]
+    - [449, 7161.01]
   - - [6784, 2368, 1, 1280]
-    - [480, 9464.41]
+    - [498, 9464.31]
   - - [4, 4288, 1, 128]
-    - [481, 132.68]
+    - [499, 132.58]
   - - [128, 704, 1, 1280]
-    - [443, 4463.85]
+    - [461, 4463.75]
   - - [3584, 2944, 1, 256]
-    - [480, 8201.24]
+    - [498, 8201.14]
   - - [1856, 128, 1, 3328]
-    - [422, 6575.5]
+    - [440, 6575.4]
   - - [4, 64, 1, 1280]
-    - [438, 43.6745]
+    - [456, 43.5745]
   - - [4, 5056, 1, 3328]
-    - [418, 675.315]
+    - [436, 675.215]
   - - [128, 2944, 1, 1280]
-    - [422, 5916.99]
+    - [440, 5916.89]
   - - [2368, 1024, 1, 3328]
-    - [475, 8646.84]
+    - [493, 8646.74]
   - - [128, 256, 1, 3328]
-    - [456, 4130.85]
+    - [474, 4130.75]
   - - [1408, 5056, 1, 3328]
-    - [474, 9529.75]
+    - [492, 9529.65]
   - - [1856, 1856, 1, 3328]
-    - [473, 8114.99]
+    - [491, 8114.89]
   - - [3584, 128, 1, 256]
-    - [469, 5603.18]
+    - [487, 5603.08]
   - - [448, 1408, 1, 3328]
-    - [469, 7073.03]
+    - [487, 7072.93]
   - - [2368, 2368, 1, 256]
-    - [476, 7648.76]
+    - [494, 7648.66]
   - - [4288, 4288, 1, 1280]
-    - [471, 9244.11]
+    - [489, 9244.01]
   - - [64, 448, 1, 1280]
-    - [442, 2885.33]
+    - [460, 2885.23]
   - - [1408, 4288, 1, 256]
-    - [469, 8080.41]
+    - [487, 8080.31]
   - - [448, 4, 1, 256]
-    - [487, 84.4294]
+    - [505, 84.3294]
   - - [5888, 448, 1, 128]
-    - [464, 3540.8]
+    - [482, 3540.7]
   - - [448, 4, 1, 1280]
-    - [438, 322.257]
+    - [456, 322.157]
   - - [704, 6784, 1, 3328]
-    - [468, 8613.58]
+    - [486, 8613.48]
   - - [5888, 5888, 1, 1280]
-    - [475, 9502.05]
+    - [493, 9501.95]
   - - [5056, 1024, 1, 1280]
-    - [478, 9110.11]
+    - [496, 9110.01]
   - - [448, 5888, 1, 3328]
-    - [469, 8586.43]
+    - [487, 8586.33]
   - - [128, 4, 1, 128]
-    - [481, 4.27959]
+    - [499, 4.17959]
   - - [1024, 2944, 1, 1280]
-    - [477, 7096.53]
+    - [495, 7096.43]
   - - [5056, 5888, 1, 1280]
-    - [468, 9693.51]
+    - [486, 9693.41]
   - - [4288, 5888, 1, 128]
-    - [461, 5406.46]
+    - [479, 5406.36]
   - - [256, 3584, 1, 256]
-    - [469, 6908.37]
+    - [487, 6908.27]
   - - [1408, 3584, 1, 128]
-    - [461, 4645.69]
+    - [479, 4645.59]
   - - [256, 2944, 1, 3328]
-    - [472, 6284.4]
+    - [490, 6284.3]
   - - [448, 3584, 1, 128]
-    - [464, 3675.37]
+    - [482, 3675.27]
   - - [5888, 2944, 1, 1280]
-    - [474, 9628.9]
+    - [492, 9628.8]
   - - [4, 6784, 1, 1280]
-    - [418, 688.176]
+    - [436, 688.076]
   - - [2368, 5888, 1, 128]
-    - [461, 5273.96]
+    - [479, 5273.86]
   - - [64, 2944, 1, 128]
-    - [405, 1316.54]
+    - [423, 1316.44]
   - - [3584, 5888, 1, 256]
-    - [475, 9239.14]
+    - [493, 9239.04]
   - - [2368, 704, 1, 128]
-    - [464, 3537.65]
+    - [482, 3537.55]
   - - [3584, 2944, 1, 1280]
-    - [469, 9324.62]
+    - [487, 9324.52]
   - - [3584, 2368, 1, 128]
-    - [461, 4766.34]
+    - [479, 4766.24]
   - - [5056, 704, 1, 128]
-    - [461, 4487.95]
+    - [479, 4487.85]
   - - [448, 2368, 1, 128]
-    - [464, 2877.02]
+    - [482, 2876.92]
   - - [5056, 1408, 1, 3328]
-    - [480, 9515.97]
+    - [498, 9515.87]
   - - [1408, 704, 1, 256]
-    - [472, 6836.18]
+    - [490, 6836.08]
   - - [6784, 1024, 1, 3328]
-    - [467, 9309.65]
+    - [485, 9309.55]
   - - [6784, 2944, 1, 3328]
-    - [468, 9536.58]
+    - [486, 9536.48]
   - - [2944, 5056, 1, 3328]
-    - [469, 9526.25]
+    - [487, 9526.15]
   - - [1856, 1856, 1, 256]
-    - [469, 5239.24]
+    - [487, 5239.14]
   - - [1024, 5888, 1, 128]
-    - [461, 4006.28]
+    - [479, 4006.18]
   - - [2048, 7133, 1, 2048]
-    - [467, 9828.07]
+    - [485, 9827.97]
   - - [256, 4, 1, 128]
-    - [482, 4.38908]
+    - [500, 4.28908]
   - - [4288, 5888, 1, 1280]
-    - [477, 9202.83]
+    - [495, 9202.73]
   - - [4288, 4288, 1, 256]
-    - [472, 5521.18]
+    - [490, 5521.08]
   - - [448, 2944, 1, 3328]
-    - [475, 7724.53]
+    - [493, 7724.43]
   - - [4288, 1856, 1, 1280]
-    - [475, 8826.34]
+    - [493, 8826.24]
   - - [1856, 2944, 1, 3328]
-    - [469, 9194.9]
+    - [487, 9194.8]
   - - [256, 6784, 1, 3328]
-    - [469, 8740.33]
+    - [487, 8740.23]
   - - [64, 5888, 1, 256]
-    - [469, 4766.35]
+    - [487, 4766.25]
   - - [256, 5056, 1, 128]
-    - [461, 2937.6]
+    - [479, 2937.5]
   - - [5056, 1024, 1, 256]
-    - [480, 5467.91]
+    - [498, 5467.81]
   - - [704, 64, 1, 3328]
-    - [457, 4818.43]
+    - [475, 4818.33]
   - - [5056, 1856, 1, 3328]
-    - [474, 8861.69]
+    - [492, 8861.59]
   - - [4, 2944, 1, 3328]
-    - [424, 662.102]
+    - [442, 662.002]
   - - [4, 5056, 1, 256]
-    - [484, 494.121]
+    - [502, 494.021]
   - - [1856, 1408, 1, 256]
-    - [469, 8674.78]
+    - [487, 8674.68]
   - - [3584, 4, 1, 128]
-    - [481, 108.296]
+    - [499, 108.196]
   - - [448, 448, 1, 3328]
-    - [443, 6457.4]
+    - [461, 6457.3]
   - - [6784, 128, 1, 3328]
-    - [436, 7256.71]
+    - [454, 7256.61]
   - - [4288, 1408, 1, 128]
-    - [464, 4791.76]
+    - [482, 4791.66]
   - - [4288, 5056, 1, 256]
-    - [469, 8560.84]
+    - [487, 8560.74]
   - - [1408, 128, 1, 1280]
-    - [451, 5085.79]
+    - [469, 5085.69]
   - - [5056, 256, 1, 3328]
-    - [472, 7284.23]
+    - [490, 7284.13]
   - - [704, 704, 1, 256]
-    - [469, 6171.19]
+    - [487, 6171.09]
   - - [1024, 5888, 1, 1280]
-    - [474, 8852.89]
+    - [492, 8852.79]
   - - [6784, 2368, 1, 128]
-    - [462, 4729.3]
+    - [480, 4729.2]
   - - [4, 5056, 1, 1280]
-    - [435, 670.046]
+    - [453, 669.946]
   - - [64, 128, 1, 256]
-    - [437, 369.317]
+    - [455, 369.217]
   - - [128, 1856, 1, 1280]
-    - [431, 5549.13]
+    - [449, 5549.03]
   - - [5056, 3584, 1, 256]
-    - [475, 7115.84]
+    - [493, 7115.74]
   - - [1856, 1024, 1, 1280]
-    - [467, 8196.5]
+    - [485, 8196.4]
   - - [6784, 4288, 1, 1280]
-    - [468, 9509.66]
+    - [486, 9509.56]
   - - [1856, 1856, 1, 1280]
-    - [470, 5791.99]
+    - [488, 5791.89]
   - - [6784, 2944, 1, 128]
-    - [461, 5317.12]
+    - [479, 5317.02]
   - - [1408, 5056, 1, 1280]
-    - [470, 8980.73]
+    - [488, 8980.63]
   - - [4, 2368, 1, 3328]
-    - [435, 592.634]
+    - [453, 592.534]
   - - [5888, 1856, 1, 128]
-    - [460, 4600.2]
+    - [478, 4600.1]
   - - [448, 704, 1, 1280]
-    - [469, 2286.58]
+    - [487, 2286.48]
   - - [2368, 1024, 1, 128]
-    - [464, 3911.12]
+    - [482, 3911.02]
   - - [1024, 448, 1, 3328]
-    - [469, 7295.24]
+    - [487, 7295.14]
   - - [1856, 704, 1, 1280]
-    - [469, 8881.12]
+    - [487, 8881.02]
   - - [5056, 3584, 1, 128]
-    - [461, 4911.68]
+    - [479, 4911.58]
   - - [5888, 5888, 1, 3328]
-    - [477, 9243.9]
+    - [495, 9243.8]
   - - [6784, 1024, 1, 256]
-    - [480, 5475.41]
+    - [498, 5475.31]
   - - [2944, 2368, 1, 256]
-    - [475, 5670.77]
+    - [493, 5670.67]
   - - [256, 448, 1, 256]
-    - [426, 2293.86]
+    - [444, 2293.76]
   - - [5056, 5888, 1, 3328]
-    - [470, 7848.07]
+    - [488, 7847.97]
   - - [1856, 1024, 1, 256]
-    - [475, 7517.7]
+    - [493, 7517.6]
   - - [448, 1408, 1, 1280]
-    - [469, 6917.54]
+    - [487, 6917.44]
   - - [3584, 448, 1, 1280]
-    - [475, 7980.86]
+    - [493, 7980.76]
   - - [1024, 1024, 1, 1280]
-    - [472, 8384.52]
+    - [490, 8384.42]
   - - [448, 5888, 1, 256]
-    - [469, 7365.75]
+    - [487, 7365.65]
   - - [704, 64, 1, 128]
-    - [414, 358.755]
+    - [432, 358.655]
   - - [1408, 6784, 1, 3328]
-    - [475, 9094.19]
+    - [493, 9094.09]
   - - [448, 1024, 1, 128]
-    - [464, 1773.05]
+    - [482, 1772.95]
   - - [4288, 704, 1, 128]
-    - [461, 4355.38]
+    - [479, 4355.28]
   - - [128, 1856, 1, 128]
-    - [400, 1610.73]
+    - [418, 1610.63]
   - - [448, 2368, 1, 3328]
-    - [475, 7366.47]
+    - [493, 7366.37]
   - - [5056, 64, 1, 128]
-    - [400, 2157.33]
+    - [418, 2157.23]
   - - [5056, 2944, 1, 256]
-    - [469, 9123.16]
+    - [487, 9123.06]
   - - [6784, 5888, 1, 128]
-    - [460, 5285.9]
+    - [478, 5285.8]
   - - [704, 1024, 1, 256]
-    - [475, 6667.35]
+    - [493, 6667.25]
   - - [1024, 4, 1, 256]
-    - [424, 187.346]
+    - [442, 187.246]
   - - [2368, 1856, 1, 256]
-    - [475, 6777.94]
+    - [493, 6777.84]
   - - [128, 6784, 1, 1280]
-    - [472, 7052.71]
+    - [490, 7052.61]
   - - [1408, 3584, 1, 3328]
-    - [476, 9038.05]
+    - [494, 9037.95]
   - - [2368, 6784, 1, 256]
-    - [469, 9181.45]
+    - [487, 9181.35]
   - - [5056, 1408, 1, 1280]
-    - [474, 9422.0]
+    - [492, 9421.9]
   - - [256, 256, 1, 128]
-    - [406, 543.404]
+    - [424, 543.304]
   - - [5056, 4288, 1, 128]
-    - [464, 5340.02]
+    - [482, 5339.92]
   - - [1408, 1856, 1, 128]
-    - [461, 4270.99]
+    - [479, 4270.89]
   - - [1408, 5888, 1, 3328]
-    - [473, 9034.89]
+    - [491, 9034.79]
   - - [1856, 256, 1, 256]
-    - [475, 5847.93]
+    - [493, 5847.83]
   - - [6784, 6784, 1, 256]
-    - [468, 9624.48]
+    - [486, 9624.38]
   - - [64, 256, 1, 128]
-    - [407, 146.549]
+    - [425, 146.449]
   - - [4288, 2368, 1, 128]
-    - [460, 3897.04]
+    - [478, 3896.94]
   - - [1856, 4288, 1, 128]
-    - [461, 4337.17]
+    - [479, 4337.07]
   - - [256, 4288, 1, 1280]
-    - [469, 7499.52]
+    - [487, 7499.42]
   - - [2368, 2944, 1, 256]
-    - [474, 7703.28]
+    - [492, 7703.18]
   - - [4, 1856, 1, 256]
-    - [487, 264.064]
+    - [505, 263.964]
   - - [3584, 1856, 1, 1280]
-    - [469, 9224.43]
+    - [487, 9224.33]
   - - [6784, 6784, 1, 128]
-    - [461, 5476.13]
+    - [479, 5476.03]
   - - [256, 1856, 1, 128]
-    - [464, 1858.82]
+    - [482, 1858.72]
   - - [704, 64, 1, 1280]
-    - [442, 3368.77]
+    - [460, 3368.67]
   - - [5888, 5056, 1, 256]
-    - [475, 5859.91]
+    - [493, 5859.81]
   - - [3584, 448, 1, 256]
-    - [475, 7298.43]
+    - [493, 7298.33]
   - - [448, 4288, 1, 128]
-    - [461, 3813.55]
+    - [479, 3813.45]
   - - [2944, 4288, 1, 3328]
-    - [470, 9149.73]
+    - [488, 9149.63]
   - - [256, 6784, 1, 256]
-    - [469, 7984.95]
+    - [487, 7984.85]
   - - [1408, 4288, 1, 128]
-    - [464, 4728.44]
+    - [482, 4728.34]
   - - [2944, 704, 1, 3328]
-    - [475, 7149.86]
+    - [493, 7149.76]
   - - [128, 448, 1, 256]
-    - [441, 1699.18]
+    - [459, 1699.08]
   - - [512, 32, 1, 512]
-    - [441, 1127.6]
+    - [459, 1127.5]
   - - [3584, 3584, 1, 256]
-    - [470, 8558.11]
+    - [488, 8558.01]
   - - [448, 1408, 1, 128]
-    - [461, 2504.45]
+    - [479, 2504.35]
   - - [128, 256, 1, 1280]
-    - [442, 3216.59]
+    - [460, 3216.49]
   - - [3584, 5056, 1, 256]
-    - [467, 5674.45]
+    - [485, 5674.35]
   - - [6784, 128, 1, 256]
-    - [469, 6216.49]
+    - [487, 6216.39]
   - - [4288, 4, 1, 256]
-    - [485, 435.706]
+    - [503, 435.606]
   - - [64, 1408, 1, 3328]
-    - [443, 6186.01]
+    - [461, 6185.91]
   - - [704, 448, 1, 256]
-    - [475, 4005.08]
+    - [493, 4004.98]
   - - [2944, 2368, 1, 1280]
-    - [476, 8542.8]
+    - [494, 8542.7]
   - - [448, 64, 1, 3328]
-    - [456, 3835.33]
+    - [474, 3835.23]
   - - [1408, 3584, 1, 256]
-    - [469, 8714.63]
+    - [487, 8714.53]
   - - [3584, 4, 1, 3328]
-    - [424, 689.554]
+    - [442, 689.454]
   - - [6784, 3584, 1, 256]
-    - [474, 9271.34]
+    - [492, 9271.24]
   - - [256, 128, 1, 128]
-    - [407, 283.499]
+    - [425, 283.399]
   - - [704, 1408, 1, 128]
-    - [461, 3210.57]
+    - [479, 3210.47]
   - - [4, 2368, 1, 256]
-    - [487, 360.938]
+    - [505, 360.838]
   - - [2944, 448, 1, 128]
-    - [461, 3344.41]
+    - [479, 3344.31]
   - - [128, 1408, 1, 256]
-    - [469, 3186.38]
+    - [487, 3186.28]
   - - [4, 2944, 1, 256]
-    - [485, 384.622]
+    - [503, 384.522]
   - - [64, 128, 1, 3328]
-    - [438, 2103.72]
+    - [456, 2103.62]
   - - [5056, 2368, 1, 128]
-    - [461, 5219.76]
+    - [479, 5219.66]
   - - [2944, 2944, 1, 3328]
-    - [478, 9174.69]
+    - [496, 9174.59]
   - - [5056, 6784, 1, 256]
-    - [480, 8992.36]
+    - [498, 8992.26]
   - - [1856, 3584, 1, 128]
-    - [461, 4957.27]
+    - [479, 4957.17]
   - - [128, 2944, 1, 128]
-    - [399, 2241.48]
+    - [417, 2241.38]
   - - [1024, 704, 1, 3328]
-    - [479, 6545.11]
+    - [497, 6545.01]
   - - [6784, 448, 1, 256]
-    - [475, 5379.25]
+    - [493, 5379.15]
   - - [3584, 6784, 1, 128]
-    - [461, 5102.01]
+    - [479, 5101.91]
   - - [128, 4288, 1, 256]
-    - [469, 5211.86]
+    - [487, 5211.76]
   - - [704, 448, 1, 3328]
-    - [470, 4504.15]
+    - [488, 4504.05]
   - - [1024, 1024, 1, 3328]
-    - [472, 8009.77]
+    - [490, 8009.67]
   - - [128, 128, 1, 3328]
-    - [455, 3185.03]
+    - [473, 3184.93]
   - - [5056, 1856, 1, 256]
-    - [469, 9138.43]
+    - [487, 9138.33]
   - - [256, 128, 1, 256]
-    - [441, 1205.36]
+    - [459, 1205.26]
   - - [1024, 1856, 1, 256]
-    - [480, 6375.09]
+    - [498, 6374.99]
   - - [4288, 64, 1, 128]
-    - [397, 1695.43]
+    - [415, 1695.33]
   - - [256, 448, 1, 3328]
-    - [444, 5659.67]
+    - [462, 5659.57]
   - - [1408, 6784, 1, 1280]
-    - [469, 9349.2]
+    - [487, 9349.1]
   - - [3584, 3584, 1, 1280]
-    - [474, 9302.19]
+    - [492, 9302.09]
   - - [64, 2368, 1, 1280]
-    - [443, 4433.07]
+    - [461, 4432.97]
   - - [448, 2368, 1, 1280]
-    - [469, 7250.77]
+    - [487, 7250.67]
   - - [5888, 5888, 1, 128]
-    - [461, 4616.03]
+    - [479, 4615.93]
   - - [64, 6784, 1, 3328]
-    - [475, 6987.23]
+    - [493, 6987.13]
   - - [2944, 256, 1, 1280]
-    - [478, 6127.45]
+    - [496, 6127.35]
   - - [5056, 5888, 1, 128]
-    - [460, 5106.39]
+    - [478, 5106.29]
   - - [256, 2368, 1, 128]
-    - [461, 2141.23]
+    - [479, 2141.13]
   - - [5056, 2368, 1, 3328]
-    - [472, 9041.75]
+    - [490, 9041.65]
   - - [2944, 4288, 1, 256]
-    - [480, 8691.22]
+    - [498, 8691.12]
   - - [1408, 3584, 1, 1280]
-    - [469, 9070.0]
+    - [487, 9069.9]
   - - [2368, 64, 1, 256]
-    - [441, 2412.87]
+    - [459, 2412.77]
   - - [64, 448, 1, 3328]
-    - [456, 3739.14]
+    - [474, 3739.04]
   - - [256, 256, 1, 3328]
-    - [443, 5304.18]
+    - [461, 5304.08]
   - - [5888, 4, 1, 128]
-    - [482, 105.655]
+    - [500, 105.555]
   - - [1856, 704, 1, 256]
-    - [469, 8025.43]
+    - [487, 8025.33]
   - - [4, 4288, 1, 1280]
-    - [416, 579.07]
+    - [434, 578.97]
   - - [1408, 448, 1, 3328]
-    - [477, 5714.51]
+    - [495, 5714.41]
   - - [1024, 4, 1, 3328]
-    - [435, 608.649]
+    - [453, 608.549]
   - - [2368, 256, 1, 256]
-    - [475, 5173.08]
+    - [493, 5172.98]
   - - [2368, 6784, 1, 3328]
-    - [475, 9456.61]
+    - [493, 9456.51]
   - - [1856, 1408, 1, 1280]
-    - [480, 7805.19]
+    - [498, 7805.09]
   - - [1856, 448, 1, 1280]
-    - [467, 6185.04]
+    - [485, 6184.94]
   - - [6784, 704, 1, 128]
-    - [461, 4597.87]
+    - [479, 4597.77]
   - - [4, 4, 1, 256]
-    - [438, 0.791892]
+    - [456, 0.691892]
   - - [128, 5888, 1, 128]
-    - [399, 2691.76]
+    - [417, 2691.66]
   - - [1408, 5888, 1, 256]
-    - [474, 7164.27]
+    - [492, 7164.17]
   - - [704, 2944, 1, 1280]
-    - [476, 8139.81]
+    - [494, 8139.71]
   - - [1856, 2368, 1, 128]
-    - [464, 4623.38]
+    - [482, 4623.28]
   - - [4096, 7133, 1, 4096]
-    - [468, 9940.07]
+    - [486, 9939.97]
   - - [256, 64, 1, 256]
-    - [432, 689.953]
+    - [450, 689.853]
   - - [1024, 1024, 1, 256]
-    - [475, 7216.11]
+    - [493, 7216.01]
   - - [704, 1856, 1, 256]
-    - [475, 6364.17]
+    - [493, 6364.07]
   - - [128, 4288, 1, 3328]
-    - [431, 7200.59]
+    - [449, 7200.49]
   - - [3584, 704, 1, 1280]
-    - [478, 7972.08]
+    - [496, 7971.98]
   - - [256, 128, 1, 1280]
-    - [429, 2702.62]
+    - [447, 2702.52]
   - - [2368, 4, 1, 256]
-    - [424, 326.018]
+    - [442, 325.918]
   - - [256, 2368, 1, 1280]
-    - [469, 6638.93]
+    - [487, 6638.83]
   - - [2944, 6784, 1, 128]
-    - [460, 5233.53]
+    - [478, 5233.43]
   - - [3584, 448, 1, 3328]
-    - [469, 8094.4]
+    - [487, 8094.3]
   - - [1408, 4, 1, 256]
-    - [487, 243.646]
+    - [505, 243.546]
   - - [704, 2368, 1, 3328]
-    - [469, 8403.11]
+    - [487, 8403.01]
   - - [2944, 448, 1, 256]
-    - [469, 7022.59]
+    - [487, 7022.49]
   - - [1856, 448, 1, 128]
-    - [464, 2842.79]
+    - [482, 2842.69]
   - - [2368, 128, 1, 1280]
-    - [451, 5685.52]
+    - [469, 5685.42]
   - - [256, 5888, 1, 128]
-    - [466, 2178.71]
+    - [484, 2178.61]
   - - [64, 6784, 1, 256]
-    - [469, 5385.23]
+    - [487, 5385.13]
   - - [64, 5056, 1, 1280]
-    - [443, 5603.29]
+    - [461, 5603.19]
   - - [4, 6784, 1, 128]
-    - [481, 180.256]
+    - [499, 180.156]
   - - [2944, 2944, 1, 1280]
-    - [478, 9129.39]
+    - [496, 9129.29]
   - - [5888, 2368, 1, 256]
-    - [480, 6961.69]
+    - [498, 6961.59]
   - - [4, 3584, 1, 1280]
-    - [424, 646.23]
+    - [442, 646.13]
   - - [1408, 128, 1, 128]
-    - [410, 1172.29]
+    - [428, 1172.19]
   - - [6784, 704, 1, 3328]
-    - [475, 9084.62]
+    - [493, 9084.52]
   - - [128, 64, 1, 1280]
-    - [454, 1260.41]
+    - [472, 1260.31]
   - - [2368, 256, 1, 1280]
-    - [475, 6643.48]
+    - [493, 6643.38]
   - - [4, 448, 1, 3328]
-    - [438, 433.514]
+    - [456, 433.414]
   - - [5888, 4288, 1, 128]
-    - [462, 4753.17]
+    - [480, 4753.07]
   - - [4, 5888, 1, 256]
-    - [424, 471.14]
+    - [442, 471.04]
   - - [1408, 2944, 1, 3328]
-    - [478, 9207.1]
+    - [496, 9207.0]
   - - [3584, 704, 1, 128]
-    - [464, 3762.46]
+    - [482, 3762.36]
   - - [64, 1024, 1, 256]
-    - [442, 1807.99]
+    - [460, 1807.89]
   - - [5056, 5056, 1, 128]
-    - [465, 4830.16]
+    - [483, 4830.06]
   - - [2368, 448, 1, 1280]
-    - [469, 7263.16]
+    - [487, 7263.06]
   - - [128, 3584, 1, 256]
-    - [472, 4369.17]
+    - [490, 4369.07]
   - - [704, 448, 1, 1280]
-    - [470, 4205.33]
+    - [488, 4205.23]
   - - [448, 5056, 1, 128]
-    - [461, 3855.57]
+    - [479, 3855.47]
   - - [256, 4, 1, 1280]
-    - [492, 157.638]
+    - [510, 157.538]
   - - [128, 5056, 1, 256]
-    - [475, 6109.06]
+    - [493, 6108.96]
   - - [1408, 5056, 1, 128]
-    - [464, 4836.68]
+    - [482, 4836.58]
   - - [2944, 3584, 1, 128]
-    - [464, 4532.19]
+    - [482, 4532.09]
   - - [3584, 2368, 1, 256]
-    - [469, 8951.34]
+    - [487, 8951.24]
   - - [5888, 5056, 1, 1280]
-    - [480, 9276.49]
+    - [498, 9276.39]
   - - [2368, 5056, 1, 128]
-    - [464, 5167.66]
+    - [482, 5167.56]
   - - [64, 704, 1, 256]
-    - [424, 1501.97]
+    - [442, 1501.87]
   - - [4288, 256, 1, 1280]
-    - [469, 7496.3]
+    - [487, 7496.2]
   - - [3584, 3584, 1, 3328]
-    - [470, 9301.77]
+    - [488, 9301.67]
   - - [1024, 256, 1, 128]
-    - [461, 1508.84]
+    - [479, 1508.74]
   - - [4, 704, 1, 128]
-    - [482, 12.1469]
+    - [500, 12.0469]
   - - [5888, 6784, 1, 256]
-    - [468, 9370.47]
+    - [486, 9370.37]
   - - [4288, 2944, 1, 3328]
-    - [472, 9149.09]
+    - [490, 9148.99]
   - - [2944, 64, 1, 128]
-    - [408, 1456.46]
+    - [426, 1456.36]
   - - [1856, 64, 1, 256]
-    - [434, 2210.03]
+    - [452, 2209.93]
   - - [4288, 128, 1, 3328]
-    - [428, 6471.95]
+    - [446, 6471.85]
   - - [4288, 704, 1, 1280]
-    - [475, 8934.61]
+    - [493, 8934.51]
   - - [256, 5056, 1, 1280]
-    - [469, 8439.13]
+    - [487, 8439.03]
   - - [1408, 256, 1, 128]
-    - [464, 1769.17]
+    - [482, 1769.07]
   - - [2944, 5888, 1, 3328]
-    - [469, 9448.04]
+    - [487, 9447.94]
   - - [6784, 5888, 1, 1280]
-    - [480, 9372.25]
+    - [498, 9372.15]
   - - [704, 128, 1, 256]
-    - [426, 2059.8]
+    - [444, 2059.7]
   - - [5888, 4288, 1, 1280]
-    - [472, 9244.32]
+    - [490, 9244.22]
   - - [448, 256, 1, 1280]
-    - [451, 4741.72]
+    - [469, 4741.62]
   - - [5888, 3584, 1, 128]
-    - [460, 4980.06]
+    - [478, 4979.96]
   - - [1856, 1856, 1, 128]
-    - [464, 4363.98]
+    - [482, 4363.88]
   - - [5056, 4, 1, 1280]
-    - [484, 629.641]
+    - [502, 629.541]
   - - [256, 1408, 1, 1280]
-    - [475, 5588.44]
+    - [493, 5588.34]
   - - [512, 16, 1, 512]
-    - [435, 689.953]
+    - [453, 689.853]
   - - [704, 3584, 1, 128]
-    - [464, 4069.67]
+    - [482, 4069.57]
   - - [5888, 448, 1, 3328]
-    - [480, 7925.94]
+    - [498, 7925.84]
   - - [2368, 4288, 1, 1280]
-    - [479, 8492.7]
+    - [497, 8492.6]
   - - [4288, 2944, 1, 128]
-    - [461, 5238.21]
+    - [479, 5238.11]
   - - [1024, 6784, 1, 3328]
-    - [475, 8578.18]
+    - [493, 8578.08]
   - - [128, 2368, 1, 256]
-    - [475, 3788.9]
+    - [493, 3788.8]
   - - [6784, 64, 1, 3328]
-    - [469, 7003.46]
+    - [487, 7003.36]
   - - [5056, 2944, 1, 3328]
-    - [472, 8575.45]
+    - [490, 8575.35]
   - - [448, 128, 1, 256]
-    - [424, 1715.06]
+    - [442, 1714.96]
   - - [2944, 3584, 1, 256]
-    - [469, 8994.26]
+    - [487, 8994.16]
   - - [1408, 1408, 1, 3328]
-    - [467, 8757.7]
+    - [485, 8757.6]
   - - [1856, 128, 1, 1280]
-    - [469, 5598.17]
+    - [487, 5598.07]
   - - [3584, 3584, 1, 128]
-    - [460, 4787.44]
+    - [478, 4787.34]
   - - [64, 3584, 1, 256]
-    - [475, 3546.01]
+    - [493, 3545.91]
   - - [1408, 4, 1, 3328]
-    - [419, 640.24]
+    - [437, 640.14]
   - - [128, 2944, 1, 3328]
-    - [443, 7204.24]
+    - [461, 7204.14]
   - - [3584, 704, 1, 256]
-    - [469, 6239.69]
+    - [487, 6239.59]
   - - [2944, 448, 1, 3328]
-    - [475, 7726.71]
+    - [493, 7726.61]
   - - [3584, 1408, 1, 3328]
-    - [467, 9358.78]
+    - [485, 9358.68]
   - - [704, 3584, 1, 1280]
-    - [475, 8005.28]
+    - [493, 8005.18]
   - - [2944, 6784, 1, 1280]
-    - [467, 9487.73]
+    - [485, 9487.63]
   - - [1856, 6784, 1, 256]
-    - [469, 5684.56]
+    - [487, 5684.46]
   - - [4288, 448, 1, 3328]
-    - [475, 8410.38]
+    - [493, 8410.28]
   - - [6784, 4288, 1, 128]
-    - [465, 4785.58]
+    - [483, 4785.48]
   - - [6784, 704, 1, 1280]
-    - [469, 5579.05]
+    - [487, 5578.95]
   - - [256, 4288, 1, 256]
-    - [469, 6781.43]
+    - [487, 6781.33]
   - - [3584, 64, 1, 128]
-    - [408, 1474.0]
+    - [426, 1473.9]
   - - [5888, 1024, 1, 3328]
-    - [467, 8639.49]
+    - [485, 8639.39]
   - - [448, 64, 1, 128]
-    - [399, 259.282]
+    - [417, 259.182]
   - - [704, 6784, 1, 1280]
-    - [475, 9027.25]
+    - [493, 9027.15]
   - - [5888, 128, 1, 256]
-    - [475, 6812.88]
+    - [493, 6812.78]
   - - [2368, 448, 1, 3328]
-    - [475, 7356.63]
+    - [493, 7356.53]
   - - [1856, 5056, 1, 3328]
-    - [474, 8871.56]
+    - [492, 8871.46]
   - - [4, 6784, 1, 256]
-    - [483, 469.479]
+    - [501, 469.379]
   - - [1024, 3584, 1, 128]
-    - [461, 3428.02]
+    - [479, 3427.92]
   - - [1024, 1408, 1, 128]
-    - [464, 2935.05]
+    - [482, 2934.95]
   - - [2368, 2944, 1, 128]
-    - [464, 4888.02]
+    - [482, 4887.92]
   - - [5056, 64, 1, 256]
-    - [433, 3186.16]
+    - [451, 3186.06]
   - - [4, 448, 1, 1280]
-    - [438, 273.167]
+    - [456, 273.067]
   - - [5056, 2944, 1, 128]
-    - [465, 4752.79]
+    - [483, 4752.69]
   - - [5888, 5056, 1, 3328]
-    - [479, 9124.77]
+    - [497, 9124.67]
   - - [1024, 704, 1, 128]
-    - [464, 2302.36]
+    - [482, 2302.26]
   - - [1408, 2368, 1, 128]
-    - [464, 3826.95]
+    - [482, 3826.85]
   - - [5888, 2368, 1, 128]
-    - [461, 4912.77]
+    - [479, 4912.67]
   - - [128, 5056, 1, 3328]
-    - [451, 7583.8]
+    - [469, 7583.7]
   - - [3584, 6784, 1, 1280]
-    - [478, 9313.5]
+    - [496, 9313.4]
   - - [3072, 7435, 1, 1024]
-    - [472, 9322.07]
+    - [490, 9321.97]
   - - [1856, 5888, 1, 256]
-    - [469, 5778.34]
+    - [487, 5778.24]
   - - [256, 256, 1, 256]
-    - [421, 1576.91]
+    - [439, 1576.81]
   - - [256, 64, 1, 128]
-    - [407, 173.705]
+    - [425, 173.605]
   - - [4288, 4288, 1, 3328]
-    - [474, 8416.27]
+    - [492, 8416.17]
   - - [4288, 1408, 1, 1280]
-    - [480, 9301.97]
+    - [498, 9301.87]
   - - [3584, 5056, 1, 128]
-    - [466, 4344.94]
+    - [484, 4344.84]
   - - [4, 1024, 1, 3328]
-    - [435, 615.239]
+    - [453, 615.139]
   - - [4288, 2368, 1, 256]
-    - [469, 9142.67]
+    - [487, 9142.57]
   - - [2944, 5056, 1, 1280]
-    - [469, 9399.69]
+    - [487, 9399.59]
   - - [448, 6784, 1, 256]
-    - [468, 5710.93]
+    - [486, 5710.83]
   - - [64, 1024, 1, 3328]
-    - [451, 4975.1]
+    - [469, 4975.0]
   - - [6784, 2368, 1, 3328]
-    - [478, 9207.63]
+    - [496, 9207.53]
   - - [256, 1024, 1, 1280]
-    - [475, 5983.42]
+    - [493, 5983.32]
   - - [704, 4, 1, 128]
-    - [481, 15.1187]
+    - [499, 15.0187]
   - - [256, 4, 1, 256]
-    - [438, 52.9516]
+    - [456, 52.8516]
   - - [4288, 128, 1, 256]
-    - [469, 5242.98]
+    - [487, 5242.88]
   - - [4288, 1856, 1, 3328]
-    - [480, 9354.06]
+    - [498, 9353.96]
   - - [3584, 448, 1, 128]
-    - [461, 3353.9]
+    - [479, 3353.8]
   - - [256, 4, 1, 3328]
-    - [492, 313.324]
+    - [510, 313.224]
   - - [4, 1408, 1, 1280]
-    - [435, 509.207]
+    - [453, 509.107]
   - - [3584, 64, 1, 1280]
-    - [423, 5198.42]
+    - [441, 5198.32]
   - - [1408, 448, 1, 128]
-    - [461, 2628.37]
+    - [479, 2628.27]
   - - [3584, 1024, 1, 1280]
-    - [475, 8535.01]
+    - [493, 8534.91]
   - - [1856, 5056, 1, 256]
-    - [467, 8184.49]
+    - [485, 8184.39]
   - - [4, 3584, 1, 256]
-    - [485, 395.576]
+    - [503, 395.476]
   - - [1024, 4288, 1, 256]
-    - [470, 5966.52]
+    - [488, 5966.42]
   - - [5888, 3584, 1, 3328]
-    - [473, 9189.43]
+    - [491, 9189.33]
   - - [4, 256, 1, 256]
-    - [489, 41.5785]
+    - [507, 41.4785]
   - - [5056, 3584, 1, 3328]
-    - [474, 9431.92]
+    - [492, 9431.82]
   - - [128, 5888, 1, 1280]
-    - [469, 8192.1]
+    - [487, 8192.0]
   - - [704, 448, 1, 128]
-    - [461, 1510.96]
+    - [479, 1510.86]
   - - [2368, 1408, 1, 1280]
-    - [469, 8415.65]
+    - [487, 8415.55]
   - - [5056, 2944, 1, 1280]
-    - [480, 9294.77]
+    - [498, 9294.67]
   - - [4, 4, 1, 128]
-    - [482, 0.1356549]
+    - [500, 0.0356549]
   - - [3584, 256, 1, 256]
-    - [469, 6749.55]
+    - [487, 6749.45]
   - - [128, 1856, 1, 3328]
-    - [422, 6797.09]
+    - [440, 6796.99]
   - - [1024, 6784, 1, 256]
-    - [475, 8783.09]
+    - [493, 8782.99]
   - - [4, 128, 1, 256]
-    - [435, 27.4067]
+    - [453, 27.3067]
   - - [64, 64, 1, 1280]
-    - [454, 712.448]
+    - [472, 712.348]
   - - [6784, 4, 1, 128]
-    - [482, 122.06]
+    - [500, 121.96]
   - - [2944, 1408, 1, 128]
-    - [464, 4430.46]
+    - [482, 4430.36]
   - - [448, 128, 1, 3328]
-    - [451, 5097.34]
+    - [469, 5097.24]
   - - [64, 2944, 1, 3328]
-    - [451, 6362.2]
+    - [469, 6362.1]
   - - [64, 4288, 1, 3328]
-    - [451, 6565.01]
+    - [469, 6564.91]
   - - [5056, 6784, 1, 3328]
-    - [475, 8121.18]
+    - [493, 8121.08]
   - - [128, 2944, 1, 256]
-    - [469, 4692.17]
+    - [487, 4692.07]
   - - [128, 6784, 1, 128]
-    - [398, 2687.46]
+    - [416, 2687.36]
   - - [3584, 4288, 1, 256]
-    - [475, 9193.99]
+    - [493, 9193.89]
   - - [448, 1856, 1, 256]
-    - [475, 6231.39]
+    - [493, 6231.29]
   - - [1856, 6784, 1, 3328]
-    - [480, 9191.48]
+    - [498, 9191.38]
   - - [3584, 128, 1, 3328]
-    - [469, 7368.47]
+    - [487, 7368.37]
   - - [64, 1856, 1, 256]
-    - [420, 2184.63]
+    - [438, 2184.53]
   - - [1024, 448, 1, 1280]
-    - [475, 6977.32]
+    - [493, 6977.22]
   - - [5888, 4288, 1, 256]
-    - [475, 5780.5]
+    - [493, 5780.4]
   - - [4, 448, 1, 128]
-    - [482, 9.06]
+    - [500, 8.96]
   - - [5056, 1408, 1, 256]
-    - [469, 5601.35]
+    - [487, 5601.25]
   - - [64, 256, 1, 1280]
-    - [435, 1927.63]
+    - [453, 1927.53]
   - - [3584, 1024, 1, 256]
-    - [480, 7542.84]
+    - [498, 7542.74]
   - - [256, 704, 1, 256]
-    - [469, 2957.62]
+    - [487, 2957.52]
   - - [5888, 5888, 1, 256]
-    - [480, 7344.14]
+    - [498, 7344.04]
   - - [4288, 1024, 1, 1280]
-    - [475, 8925.84]
+    - [493, 8925.74]
   - - [5888, 128, 1, 3328]
-    - [469, 8410.07]
+    - [487, 8409.97]
   - - [448, 6784, 1, 3328]
-    - [469, 8862.56]
+    - [487, 8862.46]
   - - [2944, 1408, 1, 1280]
-    - [480, 7478.93]
+    - [498, 7478.83]
   - - [1024, 32, 1, 512]
-    - [424, 1777.35]
+    - [442, 1777.25]
   - - [2944, 1856, 1, 3328]
-    - [469, 9153.43]
+    - [487, 9153.33]
   - - [2368, 64, 1, 128]
-    - [408, 1102.3]
+    - [426, 1102.2]
   - - [2944, 2944, 1, 128]
-    - [460, 4591.95]
+    - [478, 4591.85]
   - - [4, 128, 1, 3328]
-    - [490, 119.09]
+    - [508, 118.99]
   - - [3584, 5888, 1, 1280]
-    - [469, 9222.49]
+    - [487, 9222.39]
   - - [64, 4, 1, 128]
-    - [481, 1.03516]
+    - [499, 0.93516]
   - - [6784, 1856, 1, 1280]
-    - [469, 9136.07]
+    - [487, 9135.97]
   - - [2944, 5056, 1, 256]
-    - [475, 8860.13]
+    - [493, 8860.03]
   - - [2944, 5888, 1, 1280]
-    - [468, 9643.63]
+    - [486, 9643.53]
   - - [5888, 256, 1, 3328]
-    - [475, 8799.53]
+    - [493, 8799.43]
   - - [1856, 5888, 1, 3328]
-    - [475, 9457.53]
+    - [493, 9457.43]
   - - [3584, 1408, 1, 256]
-    - [475, 8672.53]
+    - [493, 8672.43]
   - - [704, 3584, 1, 3328]
-    - [475, 8525.3]
+    - [493, 8525.2]
   - - [5056, 448, 1, 1280]
-    - [475, 8843.77]
+    - [493, 8843.67]
   - - [3584, 1856, 1, 3328]
-    - [467, 8881.53]
+    - [485, 8881.43]
   - - [64, 1408, 1, 128]
-    - [396, 747.142]
+    - [414, 747.042]
   - - [1408, 704, 1, 1280]
-    - [469, 8342.93]
+    - [487, 8342.83]
   - - [2944, 1024, 1, 256]
-    - [480, 8079.58]
+    - [498, 8079.48]
   - - [1024, 2368, 1, 128]
-    - [464, 3347.58]
+    - [482, 3347.48]
   - - [2368, 4288, 1, 3328]
-    - [475, 9467.67]
+    - [493, 9467.57]
   - - [4, 1408, 1, 256]
-    - [487, 257.563]
+    - [505, 257.463]
   - - [1024, 1408, 1, 1280]
-    - [475, 8241.84]
+    - [493, 8241.74]
   - - [64, 64, 1, 256]
-    - [435, 190.059]
+    - [453, 189.959]
   - - [704, 256, 1, 3328]
-    - [469, 4519.28]
+    - [487, 4519.18]
   - - [6784, 5056, 1, 256]
-    - [468, 9133.78]
+    - [486, 9133.68]
   - - [4, 4288, 1, 3328]
-    - [419, 670.075]
+    - [437, 669.975]
   - - [448, 6784, 1, 128]
-    - [461, 4481.92]
+    - [479, 4481.82]
   - - [4, 704, 1, 3328]
-    - [491, 523.071]
+    - [509, 522.971]
   - - [448, 2944, 1, 256]
-    - [469, 7022.59]
+    - [487, 7022.49]
   - - [2944, 6784, 1, 256]
-    - [475, 9199.84]
+    - [493, 9199.74]
   - - [2368, 2368, 1, 1280]
-    - [480, 8646.84]
+    - [498, 8646.74]
   - - [4, 4, 1, 1280]
-    - [438, 3.11176]
+    - [456, 3.01176]
   - - [1856, 3584, 1, 1280]
-    - [467, 8805.45]
+    - [485, 8805.35]
   - - [64, 2944, 1, 256]
-    - [441, 2565.76]
+    - [459, 2565.66]
   - - [3584, 1408, 1, 1280]
-    - [480, 9273.12]
+    - [498, 9273.02]
   - - [448, 256, 1, 128]
-    - [396, 941.13]
+    - [414, 941.03]
   - - [4288, 448, 1, 128]
-    - [462, 3215.2]
+    - [480, 3215.1]
   - - [5056, 256, 1, 1280]
-    - [475, 8790.13]
+    - [493, 8790.03]
   - - [1856, 1408, 1, 3328]
-    - [469, 9310.73]
+    - [487, 9310.63]
   - - [128, 128, 1, 128]
-    - [404, 155.215]
+    - [422, 155.115]
   - - [1024, 4288, 1, 3328]
-    - [472, 8528.12]
+    - [490, 8528.02]
   - - [448, 2368, 1, 256]
-    - [476, 5097.34]
+    - [494, 5097.24]
   - - [1024, 4, 1, 128]
-    - [482, 10.3721]
+    - [500, 10.2721]
   - - [5056, 448, 1, 256]
-    - [475, 8236.78]
+    - [493, 8236.68]
   - - [2944, 2368, 1, 3328]
-    - [468, 9331.16]
+    - [486, 9331.06]
   - - [704, 128, 1, 3328]
-    - [443, 5969.3]
+    - [461, 5969.2]
   - - [64, 64, 1, 3328]
-    - [459, 1494.78]
+    - [477, 1494.68]
   - - [1024, 1856, 1, 1280]
-    - [474, 6356.43]
+    - [492, 6356.33]
   - - [6784, 1856, 1, 256]
-    - [475, 9068.63]
+    - [493, 9068.53]
   - - [128, 2368, 1, 3328]
-    - [451, 6714.22]
+    - [469, 6714.12]
   - - [1024, 5888, 1, 256]
-    - [475, 5501.6]
+    - [493, 5501.5]
   - - [5056, 128, 1, 1280]
-    - [431, 6455.64]
+    - [449, 6455.54]
   - - [5056, 64, 1, 3328]
-    - [436, 6703.81]
+    - [454, 6703.71]
   - - [128, 704, 1, 128]
-    - [397, 696.618]
+    - [415, 696.518]
   - - [1408, 2368, 1, 256]
-    - [469, 8667.25]
+    - [487, 8667.15]
   - - [1408, 1408, 1, 256]
-    - [480, 7615.81]
+    - [498, 7615.71]
   - - [4, 64, 1, 128]
-    - [482, 1.08463]
+    - [500, 0.98463]
   - - [64, 128, 1, 1280]
-    - [454, 1379.81]
+    - [472, 1379.71]
   - - [2368, 2368, 1, 128]
-    - [464, 4582.26]
+    - [482, 4582.16]
   - - [64, 5888, 1, 128]
-    - [397, 2086.37]
+    - [415, 2086.27]
   - - [5888, 4, 1, 3328]
-    - [418, 667.514]
+    - [436, 667.414]
   - - [6784, 1408, 1, 128]
-    - [465, 4516.34]
+    - [483, 4516.24]
   - - [4288, 5888, 1, 256]
-    - [480, 8497.43]
+    - [498, 8497.33]
   - - [1408, 5056, 1, 256]
-    - [469, 8867.46]
+    - [487, 8867.36]
   - - [5056, 128, 1, 3328]
-    - [451, 7678.98]
+    - [469, 7678.88]
   - - [128, 128, 1, 1280]
-    - [439, 2016.59]
+    - [457, 2016.49]
   - - [448, 704, 1, 256]
-    - [470, 3030.89]
+    - [488, 3030.79]
   - - [4288, 3584, 1, 128]
-    - [461, 5246.33]
+    - [479, 5246.23]
   - - [2944, 128, 1, 3328]
-    - [436, 6795.16]
+    - [454, 6795.06]
   - - [128, 5056, 1, 1280]
-    - [422, 6193.09]
+    - [440, 6192.99]
   - - [3584, 5056, 1, 1280]
-    - [474, 9499.17]
+    - [492, 9499.07]
   - - [256, 448, 1, 1280]
-    - [430, 4267.56]
+    - [448, 4267.46]
   - - [704, 704, 1, 128]
-    - [464, 2259.32]
+    - [482, 2259.22]
   - - [5056, 4, 1, 128]
-    - [482, 12.5313]
+    - [500, 12.4313]
   - - [704, 256, 1, 1280]
-    - [469, 4355.97]
+    - [487, 4355.87]
   - - [64, 2368, 1, 3328]
-    - [443, 6310.97]
+    - [461, 6310.87]
   - - [1856, 1024, 1, 128]
-    - [460, 4065.43]
+    - [478, 4065.33]
   - - [1856, 64, 1, 128]
-    - [399, 936.329]
+    - [417, 936.229]
   - - [64, 6784, 1, 1280]
-    - [422, 5731.8]
+    - [440, 5731.7]
   - - [704, 4288, 1, 256]
-    - [475, 5218.9]
+    - [493, 5218.8]
   - - [5888, 2368, 1, 1280]
-    - [469, 9378.9]
+    - [487, 9378.8]
   - - [128, 256, 1, 256]
-    - [439, 1219.37]
+    - [457, 1219.27]
   - - [256, 64, 1, 1280]
-    - [441, 1820.54]
+    - [459, 1820.44]
   - - [2368, 5888, 1, 1280]
-    - [480, 9143.64]
+    - [498, 9143.54]
   - - [5888, 256, 1, 1280]
-    - [469, 8678.47]
+    - [487, 8678.37]
   - - [4, 5888, 1, 1280]
-    - [416, 668.242]
+    - [434, 668.142]
   - - [704, 128, 1, 128]
-    - [404, 649.556]
+    - [422, 649.456]
   - - [1024, 4, 1, 1280]
-    - [435, 478.465]
+    - [453, 478.365]
   - - [2368, 1856, 1, 3328]
-    - [467, 8153.87]
+    - [485, 8153.77]
   - - [2368, 128, 1, 128]
-    - [402, 1858.21]
+    - [420, 1858.11]
   - - [2944, 704, 1, 256]
-    - [469, 8438.07]
+    - [487, 8437.97]
   - - [5056, 128, 1, 128]
-    - [398, 2689.63]
+    - [416, 2689.53]
   - - [256, 704, 1, 3328]
-    - [469, 4541.18]
+    - [487, 4541.08]
   - - [704, 3584, 1, 256]
-    - [470, 7771.07]
+    - [488, 7770.97]
   - - [1024, 1024, 1, 1024]
-    - [475, 8305.62]
+    - [493, 8305.52]
   - - [704, 2944, 1, 3328]
-    - [475, 9166.48]
+    - [493, 9166.38]
   - - [6784, 1024, 1, 128]
-    - [460, 4362.31]
+    - [478, 4362.21]
   - - [256, 448, 1, 128]
-    - [407, 899.614]
+    - [425, 899.514]
   - - [448, 1024, 1, 3328]
-    - [469, 7385.56]
+    - [487, 7385.46]
   - - [2944, 1024, 1, 3328]
-    - [472, 8779.81]
+    - [490, 8779.71]
   - - [2944, 5056, 1, 128]
-    - [464, 5103.11]
+    - [482, 5103.01]
   - - [1408, 6784, 1, 256]
-    - [475, 8346.89]
+    - [493, 8346.79]
   - - [6784, 1408, 1, 3328]
-    - [471, 8878.4]
+    - [489, 8878.3]
   - - [4288, 6784, 1, 128]
-    - [460, 5432.99]
+    - [478, 5432.89]
   - - [704, 64, 1, 256]
-    - [449, 1441.89]
+    - [467, 1441.79]
   - - [5888, 4, 1, 1280]
-    - [486, 636.641]
+    - [504, 636.541]
   - - [256, 2368, 1, 3328]
-    - [469, 6804.8]
+    - [487, 6804.7]
   - - [6784, 2944, 1, 1280]
-    - [468, 9472.26]
+    - [486, 9472.16]
   - - [4288, 1856, 1, 128]
-    - [464, 4886.38]
+    - [482, 4886.28]
   - - [1856, 2944, 1, 128]
-    - [461, 4642.96]
+    - [479, 4642.86]
   - - [6784, 448, 1, 128]
-    - [461, 4369.17]
+    - [479, 4369.07]
   - - [64, 3584, 1, 128]
-    - [408, 1645.85]
+    - [426, 1645.75]
   - - [448, 5056, 1, 1280]
-    - [469, 8553.64]
+    - [487, 8553.54]
   - - [2368, 1856, 1, 128]
-    - [461, 4741.85]
+    - [479, 4741.75]
   - - [128, 448, 1, 1280]
-    - [451, 3745.01]
+    - [469, 3744.91]
   - - [4288, 704, 1, 256]
-    - [469, 8444.16]
+    - [487, 8444.06]
   - - [256, 3584, 1, 128]
-    - [461, 2454.96]
+    - [479, 2454.86]
   - - [5888, 704, 1, 256]
-    - [469, 8819.57]
+    - [487, 8819.47]
   - - [3584, 1024, 1, 128]
-    - [464, 4094.96]
+    - [482, 4094.86]
   - - [256, 5888, 1, 3328]
-    - [478, 8538.33]
+    - [496, 8538.23]
   - - [1408, 4288, 1, 3328]
-    - [480, 9212.57]
+    - [498, 9212.47]
   - - [6784, 4288, 1, 256]
-    - [468, 9163.12]
+    - [486, 9163.02]
   - - [4288, 256, 1, 128]
-    - [461, 3081.44]
+    - [479, 3081.34]
   - - [5888, 256, 1, 256]
-    - [469, 7680.75]
+    - [487, 7680.65]
   - - [6784, 1024, 1, 1280]
-    - [480, 9248.63]
+    - [498, 9248.53]
   - - [5888, 1024, 1, 128]
-    - [464, 4061.94]
+    - [482, 4061.84]
   - - [1024, 128, 1, 256]
-    - [475, 2317.39]
+    - [493, 2317.29]
   - - [128, 64, 1, 3328]
-    - [458, 2116.79]
+    - [476, 2116.69]
   - - [448, 64, 1, 256]
-    - [441, 1079.52]
+    - [459, 1079.42]
   - - [2368, 256, 1, 128]
-    - [462, 2229.83]
+    - [480, 2229.73]
   - - [6784, 3584, 1, 1280]
-    - [475, 9096.6]
+    - [493, 9096.5]
   - - [1024, 6784, 1, 1280]
-    - [473, 9112.9]
+    - [491, 9112.8]
   - - [2944, 64, 1, 1280]
-    - [431, 4983.0]
+    - [449, 4982.9]
   - - [1408, 2944, 1, 1280]
-    - [470, 9131.63]
+    - [488, 9131.53]
   - - [256, 1856, 1, 256]
-    - [478, 4432.86]
+    - [496, 4432.76]
   - - [1408, 2368, 1, 3328]
-    - [478, 8449.18]
+    - [496, 8449.08]
   - - [2944, 4, 1, 3328]
-    - [424, 673.94]
+    - [442, 673.84]
   - - [128, 1408, 1, 3328]
-    - [443, 6582.47]
+    - [461, 6582.37]
   - - [2944, 1856, 1, 128]
-    - [461, 4827.54]
+    - [479, 4827.44]
   - - [256, 2944, 1, 128]
-    - [464, 2416.66]
+    - [482, 2416.56]
   - - [256, 6784, 1, 128]
-    - [464, 3118.76]
+    - [482, 3118.66]
   - - [2368, 4, 1, 128]
-    - [482, 22.7197]
+    - [500, 22.6197]
   - - [1408, 256, 1, 3328]
-    - [469, 3733.82]
+    - [487, 3733.72]
   - - [1856, 4, 1, 128]
-    - [481, 7.20009]
+    - [499, 7.10009]
   - - [1024, 16, 1, 512]
-    - [437, 1165.18]
+    - [455, 1165.08]
   - - [5056, 6784, 1, 128]
-    - [465, 4949.13]
+    - [483, 4949.03]
   - - [4288, 5056, 1, 128]
-    - [464, 4966.9]
+    - [482, 4966.8]
   - - [1856, 5888, 1, 128]
-    - [460, 4351.76]
+    - [478, 4351.66]
   - - [2944, 5888, 1, 256]
-    - [480, 8460.99]
+    - [498, 8460.89]
   - - [3584, 1856, 1, 256]
-    - [475, 8876.7]
+    - [493, 8876.6]
   - - [4288, 3584, 1, 1280]
-    - [468, 9603.7]
+    - [486, 9603.6]
   - - [2368, 448, 1, 256]
-    - [469, 6604.7]
+    - [487, 6604.6]
   - - [4288, 256, 1, 3328]
-    - [469, 7619.89]
+    - [487, 7619.79]
   - - [1856, 704, 1, 128]
-    - [461, 3629.61]
+    - [479, 3629.51]
   - - [1408, 64, 1, 256]
-    - [425, 2168.21]
+    - [443, 2168.11]
   - - [64, 1856, 1, 128]
-    - [401, 979.762]
+    - [419, 979.662]
   - - [4, 256, 1, 128]
-    - [482, 5.23595]
+    - [500, 5.13595]
   - - [704, 4288, 1, 3328]
-    - [475, 9014.52]
+    - [493, 9014.42]
   - - [704, 5888, 1, 128]
-    - [462, 4221.77]
+    - [480, 4221.67]
   - - [6784, 3584, 1, 128]
-    - [460, 5360.73]
+    - [478, 5360.63]
   - - [1024, 64, 1, 256]
-    - [420, 1588.85]
+    - [438, 1588.75]
   - - [64, 2368, 1, 256]
-    - [475, 2552.55]
+    - [493, 2552.45]
   - - [4288, 5056, 1, 3328]
-    - [474, 8193.38]
+    - [492, 8193.28]
   - - [4, 1856, 1, 1280]
-    - [424, 499.192]
+    - [442, 499.092]
   - - [4288, 128, 1, 128]
-    - [461, 2373.57]
+    - [479, 2373.47]
   - - [1408, 1408, 1, 128]
-    - [464, 3753.88]
+    - [482, 3753.78]
   - - [1024, 128, 1, 3328]
-    - [446, 5656.32]
+    - [464, 5656.22]
   - - [1856, 128, 1, 128]
-    - [397, 1617.58]
+    - [415, 1617.48]
   - - [5056, 2368, 1, 256]
-    - [480, 5553.41]
+    - [498, 5553.31]
   - - [4288, 704, 1, 3328]
-    - [468, 6962.06]
+    - [486, 6961.96]
   - - [448, 3584, 1, 256]
-    - [478, 5981.5]
+    - [496, 5981.4]
   - - [64, 128, 1, 128]
-    - [415, 74.9983]
+    - [433, 74.8983]
   - - [2368, 64, 1, 1280]
-    - [451, 5041.33]
+    - [469, 5041.23]
   - - [2368, 1024, 1, 1280]
-    - [476, 7740.97]
+    - [494, 7740.87]
   - - [2944, 1408, 1, 3328]
-    - [478, 9204.65]
+    - [496, 9204.55]
   - - [1408, 448, 1, 256]
-    - [475, 5954.4]
+    - [493, 5954.3]
   - - [1024, 1408, 1, 3328]
-    - [472, 8161.54]
+    - [490, 8161.44]
   - - [2560, 7133, 1, 2560]
-    - [467, 9636.69]
+    - [485, 9636.59]
   - - [1408, 4, 1, 1280]
-    - [419, 520.979]
+    - [437, 520.879]
   - - [5888, 3584, 1, 256]
-    - [480, 9225.26]
+    - [498, 9225.16]
   - - [128, 1024, 1, 1280]
-    - [422, 4755.55]
+    - [440, 4755.45]
   - - [1408, 1856, 1, 3328]
-    - [472, 9130.87]
+    - [490, 9130.77]
   - - [4, 4, 1, 3328]
-    - [492, 7.03333]
+    - [510, 6.93333]
   - - [6784, 1408, 1, 1280]
-    - [469, 9346.91]
+    - [487, 9346.81]
   - - [4, 1024, 1, 1280]
-    - [419, 422.913]
+    - [437, 422.813]
   - - [704, 2944, 1, 256]
-    - [475, 8332.06]
+    - [493, 8331.96]
   - - [704, 4288, 1, 128]
-    - [461, 4371.14]
+    - [479, 4371.04]
   - - [2368, 4288, 1, 128]
-    - [461, 3988.89]
+    - [479, 3988.79]
   - - [64, 4288, 1, 1280]
-    - [451, 5407.63]
+    - [469, 5407.53]
   - - [6784, 64, 1, 1280]
-    - [431, 5708.25]
+    - [449, 5708.15]
   - - [3584, 128, 1, 128]
-    - [397, 2463.2]
+    - [415, 2463.1]
   - - [1024, 6784, 1, 128]
-    - [462, 3862.12]
+    - [480, 3862.02]
   - - [4, 1856, 1, 128]
-    - [482, 30.6362]
+    - [500, 30.5362]
   - - [1408, 64, 1, 3328]
-    - [451, 6095.48]
+    - [469, 6095.38]
   - - [6784, 4, 1, 256]
-    - [484, 487.938]
+    - [502, 487.838]
   - - [1408, 1408, 1, 1280]
-    - [480, 8640.63]
+    - [498, 8640.53]
   - - [256, 2368, 1, 256]
-    - [472, 4282.36]
+    - [490, 4282.26]
   - - [448, 4288, 1, 3328]
-    - [469, 8516.13]
+    - [487, 8516.03]
   - - [2368, 1408, 1, 256]
-    - [475, 8632.19]
+    - [493, 8632.09]
   - - [5888, 5056, 1, 128]
-    - [461, 5091.11]
+    - [479, 5091.01]
   - - [704, 2368, 1, 256]
-    - [475, 7664.8]
+    - [493, 7664.7]
   - - [2944, 448, 1, 1280]
-    - [475, 7618.35]
+    - [493, 7618.25]
   - - [5888, 2368, 1, 3328]
-    - [478, 9343.48]
+    - [496, 9343.38]
   - - [64, 2944, 1, 1280]
-    - [443, 5162.18]
+    - [461, 5162.08]
   - - [448, 1856, 1, 1280]
-    - [469, 7028.0]
+    - [487, 7027.9]
   - - [4288, 448, 1, 1280]
-    - [469, 5855.76]
+    - [487, 5855.66]
   - - [5888, 704, 1, 3328]
-    - [478, 9190.91]
+    - [496, 9190.81]
   - - [5056, 256, 1, 128]
-    - [464, 3235.94]
+    - [482, 3235.84]
   - - [1856, 256, 1, 128]
-    - [462, 1849.78]
+    - [480, 1849.68]
   - - [5056, 128, 1, 256]
-    - [475, 6109.06]
+    - [493, 6108.96]
   - - [704, 4, 1, 256]
-    - [435, 125.256]
+    - [453, 125.156]
   - - [1408, 5888, 1, 128]
-    - [461, 5055.16]
+    - [479, 5055.06]
   - - [4288, 4, 1, 128]
-    - [481, 95.7209]
+    - [499, 95.6209]
   - - [1408, 1024, 1, 256]
-    - [469, 7370.28]
+    - [487, 7370.18]
   - - [1024, 1856, 1, 128]
-    - [461, 2966.8]
+    - [479, 2966.7]
   - - [256, 704, 1, 128]
-    - [463, 528.229]
+    - [481, 528.129]
   - - [256, 1024, 1, 128]
-    - [461, 1171.69]
+    - [479, 1171.59]
   - - [448, 1024, 1, 256]
-    - [475, 5624.65]
+    - [493, 5624.55]
   - - [128, 4, 1, 3328]
-    - [492, 191.985]
+    - [510, 191.885]
   - - [5056, 6784, 1, 1280]
-    - [469, 9544.07]
+    - [487, 9543.97]
   - - [704, 5056, 1, 3328]
-    - [476, 8790.35]
+    - [494, 8790.25]
   - - [64, 1408, 1, 1280]
-    - [443, 4505.7]
+    - [461, 4505.6]
   - - [3584, 5056, 1, 3328]
-    - [474, 9073.52]
+    - [492, 9073.42]
   - - [1856, 4, 1, 3328]
-    - [492, 612.875]
+    - [510, 612.775]
   - - [4, 2944, 1, 128]
-    - [481, 72.0145]
+    - [499, 71.9145]
   - - [2368, 2944, 1, 3328]
-    - [467, 9314.68]
+    - [485, 9314.58]
   - - [448, 448, 1, 1280]
-    - [451, 5129.91]
+    - [469, 5129.81]
   - - [2368, 3584, 1, 256]
-    - [469, 8998.8]
+    - [487, 8998.7]
   - - [5056, 3584, 1, 1280]
-    - [470, 9345.17]
+    - [488, 9345.07]
   - - [448, 4, 1, 3328]
-    - [492, 487.337]
+    - [510, 487.237]
   - - [1856, 2944, 1, 1280]
-    - [480, 8438.79]
+    - [498, 8438.69]
   - - [3584, 2368, 1, 1280]
-    - [475, 9298.9]
+    - [493, 9298.8]
   - - [128, 1024, 1, 256]
-    - [427, 2356.45]
+    - [445, 2356.35]
   - - [2944, 1408, 1, 256]
-    - [467, 5440.82]
+    - [485, 5440.72]
   - - [4288, 1408, 1, 3328]
-    - [467, 9386.09]
+    - [485, 9385.99]
   - - [3584, 64, 1, 3328]
-    - [423, 6310.97]
+    - [441, 6310.87]
   - - [1408, 128, 1, 256]
-    - [469, 2942.53]
+    - [487, 2942.43]
   - - [2944, 1024, 1, 128]
-    - [464, 3927.99]
+    - [482, 3927.89]
   - - [4288, 5056, 1, 1280]
-    - [471, 8328.58]
+    - [489, 8328.48]
   - - [5888, 6784, 1, 1280]
-    - [480, 9757.44]
+    - [498, 9757.34]
   - - [6784, 5056, 1, 128]
-    - [460, 5101.4]
+    - [478, 5101.3]
   - - [256, 1024, 1, 3328]
-    - [469, 6475.87]
+    - [487, 6475.77]
   - - [3584, 4, 1, 256]
-    - [485, 420.973]
+    - [503, 420.873]
   - - [1856, 64, 1, 3328]
-    - [451, 6409.2]
+    - [469, 6409.1]
   - - [64, 6784, 1, 128]
-    - [399, 2387.32]
+    - [417, 2387.22]
   - - [5888, 1408, 1, 3328]
-    - [474, 9655.89]
+    - [492, 9655.79]
   - - [5888, 64, 1, 1280]
-    - [469, 5870.86]
+    - [487, 5870.76]
   - - [256, 5056, 1, 256]
-    - [472, 6109.06]
+    - [490, 6108.96]
   - - [128, 3584, 1, 128]
-    - [402, 2383.23]
+    - [420, 2383.13]
   - - [448, 3584, 1, 3328]
-    - [467, 7092.28]
+    - [485, 7092.18]
   - - [704, 2368, 1, 128]
-    - [461, 3741.08]
+    - [479, 3740.98]
   - - [5888, 256, 1, 128]
-    - [462, 2977.54]
+    - [480, 2977.44]
   - - [4, 5056, 1, 128]
-    - [481, 132.72]
+    - [499, 132.62]
   - - [448, 256, 1, 256]
-    - [433, 2308.29]
+    - [451, 2308.19]
   - - [704, 4, 1, 3328]
-    - [438, 552.674]
+    - [456, 552.574]
   - - [1408, 256, 1, 256]
-    - [469, 4577.22]
+    - [487, 4577.12]
   - - [3584, 1856, 1, 128]
-    - [461, 4571.86]
+    - [479, 4571.76]
   - - [4288, 4288, 1, 128]
-    - [464, 5284.65]
+    - [482, 5284.55]
   - - [1856, 1024, 1, 3328]
-    - [475, 6362.25]
+    - [493, 6362.15]
   - - [128, 5888, 1, 3328]
-    - [445, 7040.83]
+    - [463, 7040.73]
   - - [1024, 5056, 1, 256]
-    - [480, 7855.7]
+    - [498, 7855.6]
   - - [2368, 1408, 1, 3328]
-    - [475, 9205.66]
+    - [493, 9205.56]
   - - [5888, 448, 1, 256]
-    - [472, 5538.84]
+    - [490, 5538.74]
   - - [5888, 6784, 1, 128]
-    - [460, 4500.85]
+    - [478, 4500.75]
   - - [2368, 4, 1, 3328]
-    - [438, 642.898]
+    - [456, 642.798]
   - - [6784, 5056, 1, 1280]
-    - [476, 9249.23]
+    - [494, 9249.13]
   - - [5056, 704, 1, 1280]
-    - [475, 8883.37]
+    - [493, 8883.27]
   - - [1408, 256, 1, 1280]
-    - [469, 5632.1]
+    - [487, 5632.0]
   - - [4288, 6784, 1, 1280]
-    - [475, 8843.31]
+    - [493, 8843.21]
   - - [128, 704, 1, 256]
-    - [433, 2045.19]
+    - [451, 2045.09]
   - - [448, 128, 1, 1280]
-    - [443, 3807.17]
+    - [461, 3807.07]
   - - [6784, 4, 1, 3328]
-    - [486, 684.671]
+    - [504, 684.571]
   - - [4288, 4, 1, 1280]
-    - [435, 601.925]
+    - [453, 601.825]
   - - [1024, 64, 1, 3328]
-    - [447, 3928.48]
+    - [465, 3928.38]
   - - [1856, 4, 1, 256]
-    - [485, 293.394]
+    - [503, 293.294]
   - - [64, 3584, 1, 1280]
-    - [469, 5265.55]
+    - [487, 5265.45]
   - - [6784, 1408, 1, 256]
-    - [469, 9059.36]
+    - [487, 9059.26]
   - - [3584, 5888, 1, 128]
-    - [461, 5084.29]
+    - [479, 5084.19]
   - - [5056, 5888, 1, 256]
-    - [480, 8590.09]
+    - [498, 8589.99]
   - - [2368, 1024, 1, 256]
-    - [472, 4493.13]
+    - [490, 4493.03]
   - - [2944, 1856, 1, 256]
-    - [478, 5202.41]
+    - [496, 5202.31]
   - - [1856, 6784, 1, 1280]
-    - [476, 9071.48]
+    - [494, 9071.38]
   - - [64, 5056, 1, 128]
-    - [399, 2038.42]
+    - [417, 2038.32]
   - - [5888, 64, 1, 128]
-    - [398, 2016.59]
+    - [416, 2016.49]
   - - [448, 704, 1, 128]
-    - [462, 1173.65]
+    - [480, 1173.55]
   - - [4, 1024, 1, 128]
-    - [481, 8.89685]
+    - [499, 8.79685]
   - - [4288, 3584, 1, 256]
-    - [475, 9080.26]
+    - [493, 9080.16]
   - - [1408, 704, 1, 128]
-    - [461, 3165.71]
+    - [479, 3165.61]
   - - [64, 256, 1, 3328]
-    - [455, 3126.59]
+    - [473, 3126.49]
   - - [5056, 1856, 1, 1280]
-    - [472, 8857.55]
+    - [490, 8857.45]
   - - [1408, 1024, 1, 3328]
-    - [478, 8177.12]
+    - [496, 8177.02]
   - - [2368, 256, 1, 3328]
-    - [469, 6810.31]
+    - [487, 6810.21]
   - - [5888, 3584, 1, 1280]
-    - [467, 9535.55]
+    - [485, 9535.45]
   - - [1856, 3584, 1, 3328]
-    - [469, 9281.91]
+    - [487, 9281.81]
   - - [5888, 128, 1, 1280]
-    - [475, 8136.82]
+    - [493, 8136.72]
   - - [1024, 2944, 1, 256]
-    - [467, 7247.96]
+    - [485, 7247.86]
   - - [448, 6784, 1, 1280]
-    - [475, 7014.04]
+    - [493, 7013.94]
   - - [256, 3584, 1, 1280]
-    - [469, 7738.64]
+    - [487, 7738.54]
   - - [448, 128, 1, 128]
-    - [399, 496.048]
+    - [417, 495.948]
   - - [704, 5056, 1, 256]
-    - [475, 8609.44]
+    - [493, 8609.34]
   - - [3584, 1024, 1, 3328]
-    - [468, 7765.73]
+    - [486, 7765.63]
   - - [2944, 1856, 1, 1280]
-    - [480, 7776.03]
+    - [498, 7775.93]
   - - [128, 256, 1, 128]
-    - [412, 296.308]
+    - [430, 296.208]
   - - [5056, 256, 1, 256]
-    - [469, 7829.73]
+    - [487, 7829.63]
   - - [2368, 3584, 1, 3328]
-    - [468, 8896.08]
+    - [486, 8895.98]
   - - [2944, 704, 1, 1280]
-    - [478, 6855.83]
+    - [496, 6855.73]
   - - [128, 4, 1, 256]
-    - [487, 24.9242]
+    - [505, 24.8242]
   - - [2944, 3584, 1, 1280]
-    - [480, 9049.22]
+    - [498, 9049.12]
   - - [1856, 5888, 1, 1280]
-    - [475, 9432.06]
+    - [493, 9431.96]
   - - [256, 256, 1, 1280]
-    - [440, 3942.12]
+    - [458, 3942.02]
   - - [5056, 448, 1, 3328]
-    - [480, 4587.83]
+    - [498, 4587.73]
   - - [4288, 1408, 1, 256]
-    - [480, 5408.83]
+    - [498, 5408.73]
   - - [3584, 64, 1, 256]
-    - [449, 2496.71]
+    - [467, 2496.61]
   - - [64, 1856, 1, 3328]
-    - [422, 5896.78]
+    - [440, 5896.68]
   - - [256, 1408, 1, 128]
-    - [461, 1643.17]
+    - [479, 1643.07]
   - - [5888, 1408, 1, 128]
-    - [460, 4436.37]
+    - [478, 4436.27]
   - - [4288, 2368, 1, 1280]
-    - [469, 9433.04]
+    - [487, 9432.94]
   - - [4, 4288, 1, 256]
-    - [484, 442.732]
+    - [502, 442.632]
   - - [256, 4288, 1, 128]
-    - [461, 2814.79]
+    - [479, 2814.69]
   - - [256, 128, 1, 3328]
-    - [450, 3951.26]
+    - [468, 3951.16]
   - - [6784, 2368, 1, 256]
-    - [469, 9169.99]
+    - [487, 9169.89]
   - - [5888, 128, 1, 128]
-    - [398, 3156.81]
+    - [416, 3156.71]
   - - [4288, 1856, 1, 256]
-    - [475, 5658.23]
+    - [493, 5658.13]
   - - [1856, 256, 1, 3328]
-    - [469, 7646.37]
+    - [487, 7646.27]
   - - [1856, 2944, 1, 256]
-    - [476, 6444.98]
+    - [494, 6444.88]
   - - [5056, 1024, 1, 128]
-    - [460, 4607.3]
+    - [478, 4607.2]
   - - [64, 5888, 1, 1280]
-    - [475, 5842.46]
+    - [493, 5842.36]
   - - [1760, 7133, 1, 1760]
-    - [468, 9097.84]
+    - [486, 9097.74]
   - - [6784, 256, 1, 128]
-    - [461, 3685.41]
+    - [479, 3685.31]
   - - [5888, 704, 1, 128]
-    - [460, 3656.23]
+    - [478, 3656.13]
   - - [6784, 64, 1, 128]
-    - [411, 2191.52]
+    - [429, 2191.42]
   - - [1024, 4288, 1, 1280]
-    - [475, 9199.32]
+    - [493, 9199.22]
   - - [2368, 5056, 1, 3328]
-    - [471, 9072.88]
+    - [489, 9072.78]
   - - [448, 4, 1, 128]
-    - [482, 5.42937]
+    - [500, 5.32937]
   - - [4, 256, 1, 3328]
-    - [492, 311.037]
+    - [510, 310.937]
   - - [4288, 1024, 1, 3328]
-    - [473, 8660.33]
+    - [491, 8660.23]
   - - [1024, 5056, 1, 3328]
-    - [469, 8886.76]
+    - [487, 8886.66]
   - - [1024, 1856, 1, 3328]
-    - [474, 8426.24]
+    - [492, 8426.14]
   - - [704, 704, 1, 1280]
-    - [469, 7661.8]
+    - [487, 7661.7]
   - - [128, 2368, 1, 1280]
-    - [443, 5746.15]
+    - [461, 5746.05]
   - - [1408, 128, 1, 3328]
-    - [451, 6530.87]
+    - [469, 6530.77]
   - - [3584, 256, 1, 1280]
-    - [475, 7634.04]
+    - [493, 7633.94]
   - - [4, 128, 1, 128]
-    - [482, 2.07874]
+    - [500, 1.97874]
   - - [704, 6784, 1, 128]
-    - [464, 4589.59]
+    - [482, 4589.49]
   - - [3584, 128, 1, 1280]
-    - [469, 7078.24]
+    - [487, 7078.14]
   - - [4, 256, 1, 1280]
-    - [438, 178.187]
+    - [456, 178.087]
   - - [128, 704, 1, 3328]
-    - [443, 5959.81]
+    - [461, 5959.71]
   - - [4288, 6784, 1, 256]
-    - [469, 9326.54]
+    - [487, 9326.44]
   - - [3584, 2944, 1, 3328]
-    - [471, 9114.16]
+    - [489, 9114.06]
   - - [128, 1856, 1, 256]
-    - [475, 3672.65]
+    - [493, 3672.55]
   - - [64, 4288, 1, 256]
-    - [469, 3457.51]
+    - [487, 3457.41]
   - - [4, 3584, 1, 3328]
-    - [418, 694.37]
+    - [436, 694.27]
   - - [64, 4, 1, 3328]
-    - [438, 71.5738]
+    - [456, 71.4738]
   - - [4, 64, 1, 3328]
-    - [438, 91.9069]
+    - [456, 91.8069]
   - - [5888, 2944, 1, 256]
-    - [468, 7241.55]
+    - [486, 7241.45]
   - - [2368, 6784, 1, 128]
-    - [464, 5229.63]
+    - [482, 5229.53]
   - - [448, 4288, 1, 1280]
-    - [469, 8416.4]
+    - [487, 8416.3]
   - - [448, 1856, 1, 3328]
-    - [469, 7161.56]
+    - [487, 7161.46]
   - - [4, 1024, 1, 256]
-    - [435, 187.346]
+    - [453, 187.246]
   - - [5056, 4288, 1, 256]
-    - [480, 8947.26]
+    - [498, 8947.16]
   - - [1024, 448, 1, 256]
-    - [475, 5318.96]
+    - [493, 5318.86]
   - - [1024, 3584, 1, 256]
-    - [470, 6152.04]
+    - [488, 6151.94]
   - - [2944, 128, 1, 1280]
-    - [451, 6053.63]
+    - [469, 6053.53]
   - - [1856, 5056, 1, 128]
-    - [461, 5091.42]
+    - [479, 5091.32]
   - - [64, 256, 1, 256]
-    - [424, 771.112]
+    - [442, 771.012]
   - - [1408, 4, 1, 128]
-    - [481, 40.8758]
+    - [499, 40.7758]
   - - [128, 2368, 1, 128]
-    - [409, 1520.37]
+    - [427, 1520.27]
   - - [256, 704, 1, 1280]
-    - [469, 4329.81]
+    - [487, 4329.71]
   - - [64, 2368, 1, 128]
-    - [400, 1212.52]
+    - [418, 1212.42]
   - - [6784, 6784, 1, 3328]
-    - [480, 8310.67]
+    - [498, 8310.57]
   - - [448, 5888, 1, 1280]
-    - [475, 8502.33]
+    - [493, 8502.23]
   - - [5056, 448, 1, 128]
-    - [461, 4161.0]
+    - [479, 4160.9]
   - - [3584, 2944, 1, 128]
-    - [461, 4363.51]
+    - [479, 4363.41]
   - - [6784, 256, 1, 1280]
-    - [475, 8629.67]
+    - [493, 8629.57]
   - - [256, 2944, 1, 1280]
-    - [475, 7277.48]
+    - [493, 7277.38]
   - - [64, 4288, 1, 128]
-    - [400, 1822.06]
+    - [418, 1821.96]
   - - [2368, 5888, 1, 3328]
-    - [469, 9017.52]
+    - [487, 9017.42]
   - - [4, 64, 1, 256]
-    - [435, 16.1627]
+    - [453, 16.0627]
   - - [704, 1024, 1, 3328]
-    - [475, 8059.55]
+    - [493, 8059.45]
   - - [2368, 1856, 1, 1280]
-    - [475, 8813.24]
+    - [493, 8813.14]
   - - [128, 448, 1, 128]
-    - [396, 588.244]
+    - [414, 588.144]
   - - [128, 6784, 1, 256]
-    - [475, 6538.28]
+    - [493, 6538.18]
   - - [3584, 4288, 1, 128]
-    - [461, 5025.46]
+    - [479, 5025.36]
   - - [64, 448, 1, 128]
-    - [413, 231.793]
+    - [431, 231.693]
   - - [5888, 4288, 1, 3328]
-    - [469, 9515.88]
+    - [487, 9515.78]
   - - [2368, 704, 1, 256]
-    - [475, 7642.84]
+    - [493, 7642.74]
   - - [256, 1856, 1, 3328]
-    - [475, 6547.17]
+    - [493, 6547.07]
   - - [1856, 128, 1, 256]
-    - [469, 3782.28]
+    - [487, 3782.18]
   - - [6784, 128, 1, 128]
-    - [403, 2835.54]
+    - [421, 2835.44]
   - - [3584, 1408, 1, 128]
-    - [460, 3049.21]
+    - [478, 3049.11]
   - - [1856, 5056, 1, 1280]
-    - [476, 8863.3]
+    - [494, 8863.2]
   - - [2944, 1024, 1, 1280]
-    - [480, 8873.25]
+    - [498, 8873.15]
   - - [5056, 4, 1, 256]
-    - [416, 494.121]
+    - [434, 494.021]
   - - [3584, 5888, 1, 3328]
-    - [468, 9585.25]
+    - [486, 9585.15]
   - - [2368, 4288, 1, 256]
-    - [480, 6419.05]
+    - [498, 6418.95]
   - - [1024, 2368, 1, 3328]
-    - [475, 8645.36]
+    - [493, 8645.26]
   - - [64, 704, 1, 3328]
-    - [457, 4399.93]
+    - [475, 4399.83]
   - - [704, 1408, 1, 256]
-    - [469, 7428.54]
+    - [487, 7428.44]
   - - [6784, 1856, 1, 3328]
-    - [480, 9163.66]
+    - [498, 9163.56]
   - - [1024, 2944, 1, 128]
-    - [464, 3551.98]
+    - [482, 3551.88]
   - - [1024, 3584, 1, 1280]
-    - [478, 9112.47]
+    - [496, 9112.37]
   - - [4288, 5888, 1, 3328]
-    - [468, 8524.05]
+    - [486, 8523.95]
   - - [4288, 4, 1, 3328]
-    - [435, 620.016]
+    - [453, 619.916]
   - - [256, 1408, 1, 256]
-    - [469, 4505.7]
+    - [487, 4505.6]
   - - [448, 2944, 1, 1280]
-    - [469, 7612.87]
+    - [487, 7612.77]
   - - [4, 5888, 1, 128]
-    - [481, 174.564]
+    - [499, 174.464]
   - - [1024, 2944, 1, 3328]
-    - [474, 9136.74]
+    - [492, 9136.64]
   - - [3584, 6784, 1, 256]
-    - [474, 7253.89]
+    - [492, 7253.79]
   - - [256, 6784, 1, 1280]
-    - [469, 8637.72]
+    - [487, 8637.62]
   - - [1856, 3584, 1, 256]
-    - [475, 8199.67]
+    - [493, 8199.57]
   - - [128, 448, 1, 3328]
-    - [456, 4799.92]
+    - [474, 4799.82]
   - - [6784, 1856, 1, 128]
-    - [461, 5185.62]
+    - [479, 5185.52]
   - - [4, 448, 1, 256]
-    - [435, 86.9848]
+    - [453, 86.8848]
   - - [2944, 704, 1, 128]
-    - [464, 3798.64]
+    - [482, 3798.54]
   - - [256, 5888, 1, 1280]
-    - [469, 8678.47]
+    - [487, 8678.37]
   - - [4, 128, 1, 1280]
-    - [438, 102.5]
+    - [456, 102.4]
   - - [4288, 6784, 1, 3328]
-    - [474, 8209.4]
+    - [492, 8209.3]
   - - [6784, 128, 1, 1280]
-    - [451, 6562.99]
+    - [469, 6562.89]
   - - [64, 1408, 1, 256]
-    - [441, 2059.8]
+    - [459, 2059.7]
   - - [7680, 5481, 1, 2560]
-    - [480, 9426.79]
+    - [498, 9426.69]
   - - [2368, 1408, 1, 128]
-    - [461, 4532.5]
+    - [479, 4532.4]
   - - [1856, 448, 1, 256]
-    - [469, 6275.48]
+    - [487, 6275.38]
   - - [1408, 1024, 1, 128]
-    - [461, 3604.58]
+    - [479, 3604.48]
   - - [128, 64, 1, 128]
-    - [396, 87.4813]
+    - [414, 87.3813]
   - - [6784, 3584, 1, 3328]
-    - [476, 8991.92]
+    - [494, 8991.82]
   - - [2944, 64, 1, 3328]
-    - [445, 6043.36]
+    - [463, 6043.26]
   - - [64, 64, 1, 128]
-    - [401, 36.309]
+    - [419, 36.209]
   - - [2368, 5056, 1, 1280]
-    - [475, 9438.48]
+    - [493, 9438.38]
   - - [64, 4, 1, 1280]
-    - [438, 40.2569]
+    - [456, 40.1569]
   - - [1408, 2368, 1, 1280]
-    - [471, 7738.16]
+    - [489, 7738.06]
   - - [128, 1408, 1, 1280]
-    - [443, 4937.74]
+    - [461, 4937.64]
   - - [256, 64, 1, 3328]
-    - [453, 2683.46]
+    - [471, 2683.36]
   - - [2944, 4288, 1, 128]
-    - [461, 5173.81]
+    - [479, 5173.71]
   - - [2944, 2944, 1, 256]
-    - [469, 8943.92]
+    - [487, 8943.82]
   - - [2944, 4, 1, 1280]
-    - [418, 617.857]
+    - [436, 617.757]
   - - [5888, 4, 1, 256]
-    - [484, 483.218]
+    - [502, 483.118]
   - - [6784, 256, 1, 256]
-    - [475, 7916.7]
+    - [493, 7916.6]
   - - [256, 5056, 1, 3328]
-    - [469, 8953.25]
+    - [487, 8953.15]
   - - [128, 4288, 1, 1280]
-    - [422, 6015.05]
+    - [440, 6014.95]
   - - [5056, 1856, 1, 128]
-    - [463, 4221.15]
+    - [481, 4221.05]
   - - [5888, 1408, 1, 256]
-    - [474, 9144.85]
+    - [492, 9144.75]
   - - [128, 128, 1, 256]
-    - [424, 759.938]
+    - [442, 759.838]
   - - [5056, 4, 1, 3328]
-    - [484, 642.818]
+    - [502, 642.718]
   - - [4288, 3584, 1, 3328]
-    - [470, 9300.05]
+    - [488, 9299.95]
   - - [448, 704, 1, 3328]
-    - [476, 4481.08]
+    - [494, 4480.98]
   - - [448, 448, 1, 128]
-    - [400, 1360.81]
+    - [418, 1360.71]
   - - [1024, 2368, 1, 1280]
-    - [469, 8570.29]
+    - [487, 8570.19]
   - - [1856, 704, 1, 3328]
-    - [469, 8448.26]
+    - [487, 8448.16]
   - - [4, 2368, 1, 128]
-    - [481, 64.5902]
+    - [499, 64.4902]
   - - [5888, 6784, 1, 3328]
-    - [476, 9447.12]
+    - [494, 9447.02]
   - - [704, 4288, 1, 1280]
-    - [478, 7476.87]
+    - [496, 7476.77]
   - - [704, 256, 1, 256]
-    - [469, 2957.62]
+    - [487, 2957.52]
   - - [6784, 448, 1, 3328]
-    - [472, 8886.22]
+    - [490, 8886.12]
   - - [4288, 1024, 1, 128]
-    - [460, 3864.49]
+    - [478, 3864.39]
   - - [49, 512, 128, 2048]
-    - [503, 7112.78]
+    - [521, 7112.68]
   - - [196, 256, 256, 1024]
-    - [497, 8302.7]
+    - [515, 8302.6]
   - - [784, 512, 256, 128]
-    - [495, 9061.36]
+    - [513, 9061.26]
   - - [49, 2048, 128, 512]
-    - [493, 6963.36]
+    - [511, 6963.26]
   - - [784, 128, 128, 512]
-    - [502, 8983.63]
-  - - [196, 256, 64, 1024]
-    - [501, 7823.5]
+    - [520, 8983.53]
   - - [3136, 256, 256, 64]
-    - [498, 9051.38]
+    - [516, 9051.28]
   - - [3136, 64, 128, 64]
-    - [494, 8581.35]
+    - [512, 8581.25]
   - - [49, 2048, 256, 512]
-    - [493, 7049.64]
+    - [511, 7049.54]
   - - [784, 128, 256, 512]
-    - [504, 9102.99]
+    - [522, 9102.89]
   - - [196, 256, 128, 1024]
-    - [496, 8085.89]
+    - [514, 8085.79]
   - - [3136, 64, 128, 256]
-    - [500, 9381.39]
+    - [518, 9381.29]
   - - [3136, 256, 128, 64]
-    - [498, 8982.64]
+    - [516, 8982.54]
   - - [784, 512, 128, 128]
-    - [495, 8965.99]
+    - [513, 8965.89]
   - - [3136, 64, 256, 256]
-    - [500, 9566.43]
+    - [518, 9566.33]
   - - [3136, 64, 256, 64]
-    - [494, 8743.8]
+    - [512, 8743.7]
   - - [196, 1024, 128, 256]
-    - [497, 8119.43]
+    - [515, 8119.33]
   - - [49, 512, 256, 2048]
-    - [506, 7166.41]
+    - [524, 7166.31]
   - - [196, 1024, 256, 256]
-    - [497, 8210.66]
+    - [515, 8210.56]
   - - [5329, 160, 64, 64]
-    - [513, 8156.89]
-  - - [1225, 288, 64, 48]
-    - [517, 6926.23]
-  - - [1225, 192, 64, 64]
-    - [519, 7840.1]
-  - - [64, 1280, 64, 384]
-    - [520, 9276.11]
+    - [531, 8156.79]
   - - [1225, 384, 64, 192]
-    - [510, 9162.35]
-  - - [1225, 288, 64, 64]
-    - [511, 7495.27]
-  - - [5329, 64, 64, 80]
-    - [512, 8480.13]
+    - [528, 9162.25]
   - - [289, 1024, 64, 256]
-    - [510, 8483.83]
-  - - [289, 768, 64, 192]
-    - [516, 8234.84]
-  - - [289, 768, 64, 128]
-    - [516, 7988.81]
+    - [528, 8483.73]
   - - [64, 1536, 64, 384]
-    - [520, 9323.65]
+    - [538, 9323.55]
   - - [1225, 384, 64, 64]
-    - [519, 8158.8]
-  - - [64, 2048, 64, 192]
-    - [516, 8818.61]
-  - - [64, 1280, 64, 320]
-    - [512, 9202.17]
+    - [537, 8158.7]
   - - [1225, 384, 64, 96]
-    - [510, 8540.7]
-  - - [64, 1280, 64, 448]
-    - [516, 9317.82]
-  - - [289, 768, 64, 160]
-    - [520, 8128.81]
-  - - [1225, 192, 64, 32]
-    - [519, 6495.37]
+    - [528, 8540.6]
   - - [64, 1536, 64, 256]
-    - [516, 9143.0]
-  - - [1225, 256, 64, 48]
-    - [514, 7545.36]
-  - - [1225, 256, 64, 64]
-    - [515, 7972.45]
-  - - [1225, 192, 64, 48]
-    - [518, 7348.9]
+    - [534, 9142.9]
   - - [289, 1024, 64, 384]
-    - [508, 8725.66]
+    - [526, 8725.56]
   - - [289, 1024, 64, 192]
-    - [510, 8313.16]
-  - - [64, 1280, 64, 192]
-    - [512, 8768.68]
-  - - [64, 2048, 64, 320]
-    - [509, 9147.98]
-  - - [64, 2048, 64, 448]
-    - [507, 9304.16]
-  - - [64, 2048, 64, 384]
-    - [509, 9235.28]
+    - [528, 8313.06]
   - - [289, 1024, 64, 128]
-    - [516, 7989.51]
+    - [534, 7989.41]
   - - [4096, 1024, 1, 2984]
-    - [555, 9846.39]
+    - [573, 9846.29]
   - - [1024, 4096, 1, 3437]
-    - [556, 9915.8]
+    - [574, 9915.7]
   - - [1024, 4096, 1, 3235]
-    - [549, 9914.02]
+    - [567, 9913.92]
   - - [4096, 1024, 1, 4032]
-    - [555, 9926.06]
+    - [573, 9925.96]
   - - [1024, 4096, 1, 3334]
-    - [556, 9918.27]
+    - [574, 9918.17]
   - - [4096, 1024, 1, 3288]
-    - [556, 9854.67]
+    - [574, 9854.57]
   - - [1024, 4096, 1, 3515]
-    - [556, 9924.03]
+    - [574, 9923.93]
   - - [4096, 1024, 1, 3437]
-    - [556, 9869.63]
+    - [574, 9869.53]
   - - [1024, 4096, 1, 3259]
-    - [556, 9907.65]
+    - [574, 9907.55]
   - - [1024, 4096, 1, 3384]
-    - [548, 9921.21]
+    - [566, 9921.11]
   - - [64, 92, 688, 92]
-    - [526, 6137.89]
+    - [544, 6137.79]
   - - [4096, 1024, 1, 3458]
-    - [555, 9887.69]
+    - [573, 9887.59]
   - - [1024, 4096, 1, 3412]
-    - [555, 9930.56]
+    - [573, 9930.46]
   - - [1024, 4096, 1, 3529]
-    - [549, 9924.54]
+    - [567, 9924.44]
   - - [1024, 4096, 1, 4032]
-    - [556, 9963.48]
+    - [574, 9963.38]
   - - [4096, 1024, 1, 3999]
-    - [556, 9895.0]
+    - [574, 9894.9]
   - - [1024, 4096, 1, 3079]
-    - [549, 9894.58]
+    - [567, 9894.48]
   - - [1024, 4096, 1, 3876]
-    - [548, 9949.39]
+    - [566, 9949.29]
   - - [1024, 4096, 1, 3450]
-    - [556, 9915.65]
+    - [574, 9915.55]
   - - [1024, 4096, 1, 3256]
-    - [556, 9911.18]
+    - [574, 9911.08]
   - - [4096, 1024, 1, 3403]
-    - [555, 9858.93]
+    - [573, 9858.83]
   - - [1024, 1024, 1, 3975]
-    - [546, 8990.81]
+    - [564, 8990.71]
   - - [1024, 4096, 1, 3359]
-    - [556, 9915.0]
+    - [574, 9914.9]
   - - [4096, 1024, 1, 3549]
-    - [555, 9870.66]
+    - [573, 9870.56]
   - - [4096, 1024, 1, 3176]
-    - [556, 9855.92]
+    - [574, 9855.82]
   - - [1024, 4096, 1, 3504]
-    - [548, 9934.17]
+    - [566, 9934.07]
   - - [4096, 1024, 1, 3314]
-    - [555, 9873.9]
+    - [573, 9873.8]
   - - [4096, 1024, 1, 3183]
-    - [555, 9843.84]
+    - [573, 9843.74]
   - - [1024, 4096, 1, 3209]
-    - [549, 9904.97]
+    - [567, 9904.87]
   - - [1024, 4096, 1, 3720]
-    - [548, 9934.16]
+    - [566, 9934.06]
   - - [1024, 4096, 1, 3859]
-    - [548, 9952.53]
+    - [566, 9952.43]
   - - [1024, 33708, 1, 4059]
-    - [548, 10321.5]
+    - [566, 10321.4]
   - - [1024, 4096, 1, 3968]
-    - [548, 9955.96]
+    - [566, 9955.86]
   - - [64, 123, 528, 123]
-    - [521, 6916.21]
+    - [539, 6916.11]
   - - [4096, 1024, 1, 3477]
-    - [556, 9872.03]
+    - [574, 9871.93]
   - - [4096, 1024, 1, 3233]
-    - [556, 9862.35]
+    - [574, 9862.25]
   - - [4096, 1024, 1, 3409]
-    - [556, 9876.86]
+    - [574, 9876.76]
   - - [4096, 1024, 1, 3564]
-    - [556, 9870.49]
+    - [574, 9870.39]
   - - [64, 102, 624, 100]
-    - [521, 5773.16]
+    - [539, 5773.06]
   - - [4096, 1024, 1, 3190]
-    - [555, 9850.97]
+    - [573, 9850.87]
   - - [64, 112, 576, 111]
-    - [521, 6517.35]
+    - [539, 6517.25]
   - - [1024, 4096, 1, 3288]
-    - [555, 9911.9]
+    - [573, 9911.8]
   - - [4096, 1024, 1, 3451]
-    - [555, 9859.61]
+    - [573, 9859.51]
   - - [1024, 4096, 1, 3348]
-    - [548, 9915.47]
+    - [566, 9915.37]
   - - [64, 102, 624, 102]
-    - [521, 5783.7]
+    - [539, 5783.6]
   - - [1024, 4096, 1, 3465]
-    - [549, 9913.12]
+    - [567, 9913.02]
   - - [1024, 33708, 1, 4032]
-    - [548, 10340.4]
+    - [566, 10340.3]
   - - [1024, 33708, 1, 3840]
-    - [548, 10341.8]
+    - [566, 10341.7]
   - - [4096, 1024, 1, 3391]
-    - [556, 9861.77]
+    - [574, 9861.67]
   - - [1024, 4096, 1, 3530]
-    - [548, 9920.44]
+    - [566, 9920.34]
   - - [4096, 1024, 1, 3209]
-    - [555, 9847.0]
+    - [573, 9846.9]
   - - [1024, 4096, 1, 3457]
-    - [549, 9917.29]
+    - [567, 9917.19]
   - - [1024, 4096, 1, 3386]
-    - [548, 9917.65]
+    - [566, 9917.55]
   - - [4096, 1024, 1, 3350]
-    - [555, 9884.54]
+    - [573, 9884.44]
   - - [1024, 4096, 1, 3184]
-    - [556, 9925.98]
+    - [574, 9925.88]
   - - [1024, 4096, 1, 3093]
-    - [555, 9902.55]
+    - [573, 9902.45]
   - - [64, 133, 480, 135]
-    - [538, 6205.97]
+    - [556, 6205.87]
   - - [1024, 4096, 1, 3400]
-    - [548, 9917.1]
+    - [566, 9917.0]
   - - [1024, 1024, 1, 4026]
-    - [554, 9014.39]
+    - [572, 9014.29]
   - - [1024, 4096, 1, 3214]
-    - [548, 9895.94]
+    - [566, 9895.84]
   - - [4096, 1024, 1, 3406]
-    - [556, 9857.82]
+    - [574, 9857.72]
   - - [1024, 4096, 1, 3565]
-    - [555, 9919.37]
+    - [573, 9919.27]
   - - [4096, 1024, 1, 3536]
-    - [556, 9889.06]
+    - [574, 9888.96]
   - - [1024, 4096, 1, 3183]
-    - [555, 9907.55]
+    - [573, 9907.45]
   - - [1024, 4096, 1, 3462]
-    - [556, 9922.4]
+    - [574, 9922.3]
   - - [4096, 1024, 1, 3130]
-    - [549, 9846.04]
+    - [567, 9845.94]
   - - [4096, 1024, 1, 3381]
-    - [556, 9868.27]
+    - [574, 9868.17]
   - - [4096, 1024, 1, 3298]
-    - [555, 9870.54]
+    - [573, 9870.44]
   - - [1024, 4096, 1, 3292]
-    - [548, 9906.3]
+    - [566, 9906.2]
   - - [4096, 1024, 1, 3289]
-    - [555, 9856.55]
+    - [573, 9856.45]
   - - [64, 160, 400, 159]
-    - [541, 7427.84]
+    - [559, 7427.74]
   - - [1024, 4096, 1, 3379]
-    - [548, 9917.09]
+    - [566, 9916.99]
   - - [1024, 4096, 1, 3990]
-    - [549, 9947.37]
+    - [567, 9947.27]
   - - [1024, 4096, 1, 3540]
-    - [556, 9935.76]
+    - [574, 9935.66]
   - - [4096, 1024, 1, 3412]
-    - [556, 9867.56]
+    - [574, 9867.46]
   - - [1024, 1024, 1, 3780]
-    - [551, 9036.26]
+    - [569, 9036.16]
   - - [1024, 4096, 1, 3555]
-    - [555, 9927.37]
+    - [573, 9927.27]
   - - [1024, 4096, 1, 3518]
-    - [549, 9925.55]
+    - [567, 9925.45]
   - - [4096, 1024, 1, 3189]
-    - [555, 9861.24]
+    - [573, 9861.14]
   - - [1024, 4096, 1, 3298]
-    - [549, 9923.22]
+    - [567, 9923.12]
   - - [4096, 1024, 1, 3072]
-    - [555, 9872.08]
+    - [573, 9871.98]
   - - [1024, 4096, 1, 3393]
-    - [556, 9929.28]
+    - [574, 9929.18]
   - - [1024, 4096, 1, 3207]
-    - [548, 9912.81]
+    - [566, 9912.71]
   - - [64, 228, 272, 232]
-    - [544, 7350.14]
+    - [562, 7350.04]
   - - [64, 23, 2720, 23]
-    - [525, 2640.25]
+    - [543, 2640.15]
   - - [4096, 1024, 1, 3487]
-    - [556, 9860.91]
+    - [574, 9860.81]
   - - [1024, 1024, 1, 3822]
-    - [554, 8993.96]
+    - [572, 8993.86]
   - - [64, 77, 816, 77]
-    - [526, 5273.19]
+    - [544, 5273.09]
   - - [4096, 1024, 1, 3431]
-    - [556, 9867.53]
+    - [574, 9867.43]
   - - [4096, 1024, 1, 3378]
-    - [555, 9888.14]
+    - [573, 9888.04]
   - - [4096, 1024, 1, 3529]
-    - [549, 9879.5]
+    - [567, 9879.4]
   - - [4096, 1024, 1, 3460]
-    - [556, 9877.25]
+    - [574, 9877.15]
   - - [1024, 4096, 1, 3336]
-    - [548, 9912.41]
+    - [566, 9912.31]
   - - [1024, 4096, 1, 3501]
-    - [549, 9914.4]
+    - [567, 9914.3]
   - - [64, 159, 400, 159]
-    - [539, 7016.51]
+    - [557, 7016.41]
   - - [1024, 4096, 1, 3584]
-    - [556, 9940.59]
+    - [574, 9940.49]
   - - [64, 135, 480, 134]
-    - [539, 6241.39]
+    - [557, 6241.29]
   - - [64, 99, 624, 99]
-    - [530, 5617.39]
+    - [548, 5617.29]
   - - [4096, 1024, 1, 2499]
-    - [555, 9813.57]
+    - [573, 9813.47]
   - - [1024, 1024, 1, 3942]
-    - [551, 9060.01]
+    - [569, 9059.91]
   - - [4096, 1024, 1, 3352]
-    - [555, 9867.12]
+    - [573, 9867.02]
   - - [1024, 4096, 1, 3543]
-    - [556, 9928.77]
+    - [574, 9928.67]
   - - [1024, 4096, 1, 3476]
-    - [555, 9931.58]
+    - [573, 9931.48]
   - - [1024, 33708, 1, 3822]
-    - [548, 10324.7]
+    - [566, 10324.6]
   - - [1024, 4096, 1, 3436]
-    - [548, 9917.28]
+    - [566, 9917.18]
   - - [1024, 1024, 1, 3861]
-    - [547, 8998.49]
+    - [565, 8998.39]
   - - [1024, 1024, 1, 4000]
-    - [552, 9058.3]
+    - [570, 9058.2]
   - - [1024, 4096, 1, 3594]
-    - [548, 9927.88]
+    - [566, 9927.78]
   - - [4096, 1024, 1, 3514]
-    - [556, 9872.3]
+    - [574, 9872.2]
   - - [1024, 4096, 1, 3064]
-    - [555, 9907.1]
+    - [573, 9907.0]
   - - [4096, 1024, 1, 3371]
-    - [548, 9857.74]
+    - [566, 9857.64]
   - - [4096, 1024, 1, 3558]
-    - [556, 9876.31]
+    - [574, 9876.21]
   - - [4096, 1024, 1, 3517]
-    - [555, 9866.45]
+    - [573, 9866.35]
   - - [4096, 1024, 1, 3144]
-    - [555, 9846.36]
+    - [573, 9846.26]
   - - [1024, 4096, 1, 3312]
-    - [548, 9932.85]
+    - [566, 9932.75]
   - - [4096, 1024, 1, 3079]
-    - [555, 9851.1]
+    - [573, 9851.0]
   - - [1024, 4096, 1, 3415]
-    - [548, 9919.47]
+    - [566, 9919.37]
   - - [1024, 4096, 1, 3221]
-    - [555, 9908.18]
+    - [573, 9908.08]
   - - [1024, 4096, 1, 3978]
-    - [549, 9944.41]
+    - [567, 9944.31]
   - - [4096, 1024, 1, 3876]
-    - [555, 9898.99]
+    - [573, 9898.89]
   - - [1024, 4096, 1, 3528]
-    - [548, 9919.6]
+    - [566, 9919.5]
   - - [1024, 4096, 1, 3181]
-    - [556, 9894.86]
+    - [574, 9894.76]
   - - [4096, 1024, 1, 3445]
-    - [555, 9878.54]
+    - [573, 9878.44]
   - - [4096, 1024, 1, 3450]
-    - [548, 9864.82]
+    - [566, 9864.72]
   - - [4096, 1024, 1, 3377]
-    - [555, 9879.69]
+    - [573, 9879.59]
   - - [1024, 4096, 1, 3532]
-    - [549, 9928.19]
+    - [567, 9928.09]
   - - [1024, 33708, 1, 3944]
-    - [548, 10329.7]
+    - [566, 10329.6]
   - - [4096, 1024, 1, 3483]
-    - [555, 9861.83]
+    - [573, 9861.73]
   - - [1024, 4096, 1, 3358]
-    - [548, 9903.69]
+    - [566, 9903.59]
   - - [4096, 1024, 1, 3464]
-    - [555, 9876.84]
+    - [573, 9876.74]
   - - [4096, 1024, 1, 3282]
-    - [548, 9859.23]
+    - [566, 9859.13]
   - - [4096, 1024, 1, 3256]
-    - [556, 9855.1]
+    - [574, 9855.0]
   - - [1024, 4096, 1, 3057]
-    - [555, 9910.75]
+    - [573, 9910.65]
   - - [4096, 1024, 1, 3481]
-    - [555, 9866.29]
+    - [573, 9866.19]
   - - [4096, 1024, 1, 3340]
-    - [555, 9862.25]
+    - [573, 9862.15]
   - - [1024, 1024, 1, 3870]
-    - [554, 9082.45]
+    - [572, 9082.35]
   - - [1024, 4096, 1, 3273]
-    - [548, 9916.29]
+    - [566, 9916.19]
   - - [64, 65, 992, 65]
-    - [539, 4683.01]
+    - [557, 4682.91]
   - - [4096, 1024, 1, 3392]
-    - [549, 9881.12]
+    - [567, 9881.02]
   - - [4096, 1024, 1, 3337]
-    - [555, 9864.5]
+    - [573, 9864.4]
   - - [4096, 1024, 1, 3359]
-    - [555, 9874.42]
+    - [573, 9874.32]
   - - [4096, 1024, 1, 3498]
-    - [556, 9864.35]
+    - [574, 9864.25]
   - - [4096, 1024, 1, 3169]
-    - [555, 9851.1]
+    - [573, 9851.0]
   - - [1024, 33708, 1, 3859]
-    - [549, 10332.6]
+    - [567, 10332.5]
   - - [64, 19, 3264, 19]
-    - [525, 2182.14]
+    - [543, 2182.04]
   - - [1024, 4096, 1, 3103]
-    - [548, 9898.9]
+    - [566, 9898.8]
   - - [4096, 1024, 1, 3900]
-    - [555, 9897.12]
+    - [573, 9897.02]
   - - [1024, 4096, 1, 3442]
-    - [555, 9938.97]
+    - [573, 9938.87]
   - - [1024, 4096, 1, 3248]
-    - [555, 9939.92]
+    - [573, 9939.82]
   - - [1024, 4096, 1, 3351]
-    - [556, 9923.23]
+    - [574, 9923.13]
   - - [4096, 1024, 1, 3593]
-    - [555, 9894.36]
+    - [573, 9894.26]
   - - [1024, 4096, 1, 3780]
-    - [555, 9941.96]
+    - [573, 9941.86]
   - - [64, 133, 480, 133]
-    - [539, 6180.79]
+    - [557, 6180.69]
   - - [1024, 33708, 1, 3681]
-    - [548, 10332.3]
+    - [566, 10332.2]
   - - [4096, 1024, 1, 3374]
-    - [549, 9859.36]
+    - [567, 9859.26]
   - - [1024, 4096, 1, 3557]
-    - [548, 9928.2]
+    - [566, 9928.1]
   - - [4096, 1024, 1, 3906]
-    - [555, 9907.07]
+    - [573, 9906.97]
   - - [4096, 1024, 1, 3504]
-    - [555, 9886.05]
+    - [573, 9885.95]
   - - [1024, 4096, 1, 3270]
-    - [555, 9916.37]
+    - [573, 9916.27]
   - - [4096, 1024, 1, 3098]
-    - [548, 9854.76]
+    - [566, 9854.66]
   - - [64, 232, 272, 232]
-    - [544, 7394.1]
+    - [562, 7394.0]
   - - [4096, 1024, 1, 3216]
-    - [556, 9876.57]
+    - [574, 9876.47]
   - - [64, 148, 432, 148]
-    - [541, 6663.85]
+    - [559, 6663.75]
   - - [1024, 4096, 1, 3550]
-    - [555, 9920.28]
+    - [573, 9920.18]
   - - [4096, 1024, 1, 3449]
-    - [549, 9870.57]
+    - [567, 9870.47]
   - - [1024, 4096, 1, 3403]
-    - [556, 9908.21]
+    - [574, 9908.11]
   - - [1024, 4096, 1, 3523]
-    - [555, 9932.71]
+    - [573, 9932.61]
   - - [1024, 4096, 1, 3486]
-    - [555, 9917.46]
+    - [573, 9917.36]
   - - [1024, 4096, 1, 3564]
-    - [555, 9923.44]
+    - [573, 9923.34]
   - - [1024, 33708, 1, 4005]
-    - [548, 10339.5]
+    - [566, 10339.4]
   - - [4096, 1024, 1, 3296]
-    - [555, 9879.78]
+    - [573, 9879.68]
   - - [1024, 4096, 1, 3263]
-    - [548, 9907.17]
+    - [566, 9907.07]
   - - [64, 25, 2512, 25]
-    - [525, 2848.17]
+    - [543, 2848.07]
   - - [1024, 4096, 1, 3130]
-    - [556, 9900.1]
+    - [574, 9900.0]
   - - [1024, 4096, 1, 3295]
-    - [556, 9895.45]
+    - [574, 9895.35]
   - - [1024, 33708, 1, 3925]
-    - [549, 10342.3]
+    - [567, 10342.2]
   - - [1024, 4096, 1, 3378]
-    - [548, 9921.37]
+    - [566, 9921.27]
   - - [4096, 1024, 1, 3720]
-    - [556, 9885.82]
+    - [574, 9885.72]
   - - [4096, 1024, 1, 3399]
-    - [555, 9880.65]
+    - [573, 9880.55]
   - - [4096, 1024, 1, 3543]
-    - [556, 9870.73]
+    - [574, 9870.63]
   - - [64, 9, 6544, 9]
-    - [528, 955.17]
+    - [546, 955.07]
   - - [4096, 1024, 1, 3497]
-    - [555, 9868.43]
+    - [573, 9868.33]
   - - [4096, 1024, 1, 3594]
-    - [556, 9876.88]
+    - [574, 9876.78]
   - - [1024, 4096, 1, 3144]
-    - [556, 9901.96]
+    - [574, 9901.86]
   - - [1024, 4096, 1, 3975]
-    - [549, 9950.19]
+    - [567, 9950.09]
   - - [4096, 1024, 1, 3205]
-    - [556, 9856.07]
+    - [574, 9855.97]
   - - [1024, 33708, 1, 3995]
-    - [548, 10331.1]
+    - [566, 10331.0]
   - - [1024, 4096, 1, 3392]
-    - [548, 9935.78]
+    - [566, 9935.68]
   - - [1024, 4096, 1, 3055]
-    - [556, 9893.25]
+    - [574, 9893.15]
   - - [1024, 4096, 1, 4026]
-    - [556, 9940.22]
+    - [574, 9940.12]
   - - [4096, 1024, 1, 3557]
-    - [555, 9884.0]
+    - [573, 9883.9]
   - - [4096, 1024, 1, 3515]
-    - [555, 9871.94]
+    - [573, 9871.84]
   - - [4096, 1024, 1, 3486]
-    - [556, 9860.74]
+    - [574, 9860.64]
   - - [4096, 1024, 1, 3457]
-    - [556, 9885.37]
+    - [574, 9885.27]
   - - [1024, 4096, 1, 3511]
-    - [548, 9928.24]
+    - [566, 9928.14]
   - - [4096, 1024, 1, 3138]
-    - [555, 9854.06]
+    - [573, 9853.96]
   - - [1024, 4096, 1, 3339]
-    - [549, 9912.89]
+    - [567, 9912.79]
   - - [1024, 4096, 1, 3939]
-    - [549, 9952.26]
+    - [567, 9952.16]
   - - [4096, 1024, 1, 3500]
-    - [549, 9863.62]
+    - [567, 9863.52]
   - - [4096, 1024, 1, 3395]
-    - [556, 9883.82]
+    - [574, 9883.72]
   - - [4096, 1024, 1, 3968]
-    - [556, 9920.36]
+    - [574, 9920.26]
   - - [4096, 1024, 1, 4020]
-    - [556, 9912.81]
+    - [574, 9912.71]
   - - [4096, 1024, 1, 3942]
-    - [555, 9910.17]
+    - [573, 9910.07]
   - - [1024, 1024, 1, 4032]
-    - [545, 9024.74]
+    - [563, 9024.64]
   - - [4096, 1024, 1, 3349]
-    - [556, 9866.04]
+    - [574, 9865.94]
   - - [1024, 4096, 1, 3322]
-    - [549, 9908.43]
+    - [567, 9908.33]
   - - [4096, 1024, 1, 3452]
-    - [555, 9872.69]
+    - [573, 9872.59]
   - - [1024, 4096, 1, 3417]
-    - [555, 9912.64]
+    - [573, 9912.54]
   - - [1024, 1024, 1, 4012]
-    - [553, 9085.47]
+    - [571, 9085.37]
   - - [1024, 4096, 1, 3526]
-    - [549, 9920.36]
+    - [567, 9920.26]
   - - [4096, 1024, 1, 3485]
-    - [549, 9861.64]
+    - [567, 9861.54]
   - - [1024, 1024, 1, 3681]
-    - [553, 8991.46]
+    - [571, 8991.36]
   - - [4096, 1024, 1, 3303]
-    - [556, 9861.3]
+    - [574, 9861.2]
   - - [4096, 1024, 1, 3344]
-    - [556, 9892.44]
+    - [574, 9892.34]
   - - [1024, 4096, 1, 3479]
-    - [556, 9921.77]
+    - [574, 9921.67]
   - - [4096, 1024, 1, 3300]
-    - [555, 9868.64]
+    - [573, 9868.54]
   - - [1024, 4096, 1, 3439]
-    - [549, 9918.29]
+    - [567, 9918.19]
   - - [4096, 1024, 1, 3280]
-    - [556, 9875.29]
+    - [574, 9875.19]
   - - [1024, 4096, 1, 3245]
-    - [548, 9910.49]
+    - [566, 9910.39]
   - - [1024, 4096, 1, 3328]
-    - [548, 9941.6]
+    - [566, 9941.5]
   - - [4096, 1024, 1, 3418]
-    - [548, 9870.76]
+    - [566, 9870.66]
   - - [1024, 4096, 1, 3493]
-    - [556, 9938.45]
+    - [574, 9938.35]
   - - [1024, 4096, 1, 3500]
-    - [548, 9916.93]
+    - [566, 9916.83]
   - - [1024, 4096, 1, 3166]
-    - [548, 9898.12]
+    - [566, 9898.02]
   - - [4096, 1024, 1, 3126]
-    - [549, 9847.04]
+    - [567, 9846.94]
   - - [1024, 4096, 1, 3277]
-    - [556, 9898.66]
+    - [574, 9898.56]
   - - [1024, 4096, 1, 3315]
-    - [555, 9923.11]
+    - [573, 9923.01]
   - - [1024, 1024, 1, 3927]
-    - [546, 8987.71]
+    - [564, 8987.61]
   - - [1024, 4096, 1, 3414]
-    - [548, 9916.01]
+    - [566, 9915.91]
   - - [4096, 1024, 1, 3531]
-    - [555, 9871.92]
+    - [573, 9871.82]
   - - [4096, 1024, 1, 3484]
-    - [548, 9867.86]
+    - [566, 9867.76]
   - - [1024, 4096, 1, 3180]
-    - [555, 9904.09]
+    - [573, 9903.99]
   - - [4096, 1024, 1, 3360]
-    - [555, 9879.57]
+    - [573, 9879.47]
   - - [1024, 33708, 1, 3990]
-    - [548, 10335.0]
+    - [566, 10334.9]
   - - [4096, 1024, 1, 3466]
-    - [555, 9875.02]
+    - [573, 9874.92]
   - - [1024, 4096, 1, 3428]
-    - [548, 9916.02]
+    - [566, 9915.92]
   - - [1024, 4096, 1, 3137]
-    - [555, 9913.27]
+    - [573, 9913.17]
   - - [4096, 1024, 1, 4059]
-    - [555, 9901.86]
+    - [573, 9901.76]
   - - [1024, 4096, 1, 3353]
-    - [555, 9914.6]
+    - [573, 9914.5]
   - - [1024, 4096, 1, 3942]
-    - [555, 9944.5]
+    - [573, 9944.4]
   - - [4096, 1024, 1, 3506]
-    - [548, 9875.75]
+    - [566, 9875.65]
   - - [1024, 1024, 1, 3894]
-    - [546, 8946.55]
+    - [564, 8946.45]
   - - [4096, 1024, 1, 3508]
-    - [556, 9877.67]
+    - [574, 9877.57]
   - - [64, 132, 480, 135]
-    - [539, 6164.86]
+    - [557, 6164.76]
   - - [4096, 1024, 1, 3956]
-    - [548, 9907.83]
+    - [566, 9907.73]
   - - [64, 7, 8192, 7]
-    - [527, 813.078]
+    - [545, 812.978]
   - - [1024, 4096, 1, 3272]
-    - [549, 9909.82]
+    - [567, 9909.72]
   - - [1024, 4096, 1, 3443]
-    - [556, 9929.83]
+    - [574, 9929.73]
   - - [1024, 4096, 1, 3375]
-    - [556, 9909.23]
+    - [574, 9909.13]
   - - [1024, 4096, 1, 3525]
-    - [556, 9929.27]
+    - [574, 9929.17]
   - - [4096, 1024, 1, 3472]
-    - [555, 9889.97]
+    - [573, 9889.87]
   - - [1024, 4096, 1, 3520]
-    - [548, 9947.79]
+    - [566, 9947.69]
   - - [4096, 1024, 1, 3322]
-    - [555, 9862.98]
+    - [573, 9862.88]
   - - [4096, 1024, 1, 3387]
-    - [555, 9861.62]
+    - [573, 9861.52]
   - - [64, 8, 7280, 8]
-    - [533, 1024.1]
+    - [551, 1024.0]
   - - [1024, 33708, 1, 3939]
-    - [548, 10339.9]
+    - [566, 10339.8]
   - - [4096, 1024, 1, 3345]
-    - [556, 9873.68]
+    - [574, 9873.58]
   - - [4096, 1024, 1, 2967]
-    - [555, 9839.21]
+    - [573, 9839.11]
   - - [1024, 4096, 1, 3453]
-    - [548, 9905.81]
+    - [566, 9905.71]
   - - [1024, 4096, 1, 3640]
-    - [555, 9934.05]
+    - [573, 9933.95]
   - - [4096, 1024, 1, 3291]
-    - [549, 9860.84]
+    - [567, 9860.74]
   - - [1024, 4096, 1, 3350]
-    - [556, 9918.03]
+    - [574, 9917.93]
   - - [4096, 1024, 1, 3417]
-    - [555, 9864.61]
+    - [573, 9864.51]
   - - [64, 135, 480, 135]
-    - [539, 6265.45]
+    - [557, 6265.35]
   - - [1024, 4096, 1, 3467]
-    - [549, 9906.95]
+    - [567, 9906.85]
   - - [1024, 4096, 1, 3491]
-    - [555, 9933.3]
+    - [573, 9933.2]
   - - [1024, 4096, 1, 3822]
-    - [555, 9938.75]
+    - [573, 9938.65]
   - - [4096, 1024, 1, 3292]
-    - [555, 9849.21]
+    - [573, 9849.11]
   - - [1024, 4096, 1, 3231]
-    - [548, 9905.82]
+    - [566, 9905.72]
   - - [1024, 4096, 1, 3364]
-    - [549, 9930.32]
+    - [567, 9930.22]
   - - [1024, 4096, 1, 3995]
-    - [549, 9943.76]
+    - [567, 9943.66]
   - - [1024, 4096, 1, 3545]
-    - [548, 9928.53]
+    - [566, 9928.43]
   - - [1024, 1024, 1, 3876]
-    - [546, 9003.04]
+    - [564, 9002.94]
   - - [1024, 4096, 1, 3186]
-    - [548, 9921.01]
+    - [566, 9920.91]
   - - [4096, 1024, 1, 3432]
-    - [555, 9875.29]
+    - [573, 9875.19]
   - - [64, 84, 752, 85]
-    - [526, 5704.51]
+    - [544, 5704.41]
   - - [4096, 1024, 1, 3367]
-    - [549, 9868.06]
+    - [567, 9867.96]
   - - [4096, 1024, 1, 3503]
-    - [556, 9871.01]
+    - [574, 9870.91]
   - - [1024, 4096, 1, 3095]
-    - [549, 9902.9]
+    - [567, 9902.8]
   - - [4096, 1024, 1, 3465]
-    - [556, 9872.17]
+    - [574, 9872.07]
   - - [1024, 4096, 1, 3402]
-    - [555, 9914.66]
+    - [573, 9914.56]
   - - [4096, 1024, 1, 3140]
-    - [555, 9847.95]
+    - [573, 9847.85]
   - - [1024, 1024, 1, 4050]
-    - [552, 9055.75]
+    - [570, 9055.65]
   - - [4096, 1024, 1, 3424]
-    - [549, 9894.62]
+    - [567, 9894.52]
   - - [4096, 1024, 1, 3257]
-    - [548, 9860.97]
+    - [566, 9860.87]
   - - [4096, 1024, 1, 2917]
-    - [555, 9845.91]
+    - [573, 9845.81]
   - - [1024, 33708, 1, 3640]
-    - [548, 10321.7]
+    - [566, 10321.6]
   - - [1024, 4096, 1, 3456]
-    - [548, 9950.35]
+    - [566, 9950.25]
   - - [1024, 4096, 1, 3014]
-    - [548, 9907.97]
+    - [566, 9907.87]
   - - [4096, 1024, 1, 3372]
-    - [556, 9868.37]
+    - [574, 9868.27]
   - - [64, 132, 480, 132]
-    - [539, 6121.62]
+    - [557, 6121.52]
   - - [1024, 4096, 1, 3294]
-    - [556, 9903.23]
+    - [574, 9903.13]
   - - [4096, 1024, 1, 3446]
-    - [556, 9871.69]
+    - [574, 9871.59]
   - - [1024, 4096, 1, 3389]
-    - [549, 9909.27]
+    - [567, 9909.17]
   - - [4096, 1024, 1, 3259]
-    - [555, 9860.76]
+    - [573, 9860.66]
   - - [4096, 1024, 1, 3544]
-    - [555, 9878.76]
+    - [573, 9878.66]
   - - [4096, 1024, 1, 3479]
-    - [556, 9873.97]
+    - [574, 9873.87]
   - - [4096, 1024, 1, 3542]
-    - [555, 9878.97]
+    - [573, 9878.87]
   - - [4096, 1024, 1, 3321]
-    - [548, 9861.13]
+    - [566, 9861.03]
   - - [1024, 4096, 1, 3147]
-    - [548, 9894.77]
+    - [566, 9894.67]
   - - [1024, 4096, 1, 3944]
-    - [548, 9950.51]
+    - [566, 9950.41]
   - - [4096, 1024, 1, 3870]
-    - [556, 9881.74]
+    - [574, 9881.64]
   - - [1024, 4096, 1, 3308]
-    - [548, 9907.26]
+    - [566, 9907.16]
   - - [4096, 1024, 1, 3401]
-    - [555, 9864.59]
+    - [573, 9864.49]
   - - [1024, 4096, 1, 3395]
-    - [548, 9929.03]
+    - [566, 9928.93]
   - - [64, 99, 624, 102]
-    - [524, 5651.36]
+    - [542, 5651.26]
   - - [1024, 4096, 1, 3563]
-    - [555, 9922.76]
+    - [573, 9922.66]
   - - [1024, 33708, 1, 3870]
-    - [548, 10325.4]
+    - [566, 10325.3]
   - - [4096, 1024, 1, 3494]
-    - [555, 9875.37]
+    - [573, 9875.27]
   - - [1024, 4096, 1, 3271]
-    - [548, 9913.09]
+    - [566, 9912.99]
   - - [1024, 33708, 1, 3910]
-    - [548, 10341.5]
+    - [566, 10341.4]
   - - [1024, 4096, 1, 3287]
-    - [556, 9924.87]
+    - [574, 9924.77]
   - - [1024, 33708, 1, 3860]
-    - [548, 10330.7]
+    - [566, 10330.6]
   - - [64, 143, 432, 148]
-    - [541, 6571.78]
+    - [559, 6571.68]
   - - [1024, 1024, 1, 3584]
-    - [553, 8975.31]
+    - [571, 8975.21]
   - - [64, 162, 400, 162]
-    - [543, 6822.26]
+    - [561, 6822.16]
   - - [4096, 1024, 1, 3341]
-    - [555, 9854.66]
+    - [573, 9854.56]
   - - [1024, 4096, 1, 3136]
-    - [548, 9926.86]
+    - [566, 9926.76]
   - - [4096, 1024, 1, 3439]
-    - [555, 9854.33]
+    - [573, 9854.23]
   - - [64, 148, 432, 147]
-    - [539, 6677.61]
+    - [557, 6677.51]
   - - [1024, 4096, 1, 3751]
-    - [555, 9938.48]
+    - [573, 9938.38]
   - - [1024, 4096, 1, 3301]
-    - [555, 9919.15]
+    - [573, 9919.05]
   - - [4096, 1024, 1, 3468]
-    - [556, 9859.83]
+    - [574, 9859.73]
   - - [1024, 4096, 1, 3416]
-    - [556, 9918.52]
+    - [574, 9918.42]
   - - [4096, 1024, 1, 3163]
-    - [555, 9854.65]
+    - [573, 9854.55]
   - - [1024, 4096, 1, 3230]
-    - [549, 9897.54]
+    - [567, 9897.44]
   - - [1024, 4096, 1, 3581]
-    - [549, 9915.48]
+    - [567, 9915.38]
   - - [1024, 1024, 1, 3960]
-    - [551, 9045.86]
+    - [569, 9045.76]
   - - [4096, 1024, 1, 3463]
-    - [556, 9884.74]
+    - [574, 9884.64]
   - - [1024, 4096, 1, 3478]
-    - [549, 9927.02]
+    - [567, 9926.92]
   - - [4096, 1024, 1, 3262]
-    - [555, 9852.22]
+    - [573, 9852.12]
   - - [1024, 4096, 1, 3438]
-    - [555, 9912.68]
+    - [573, 9912.58]
   - - [1024, 4096, 1, 3244]
-    - [548, 9900.51]
+    - [566, 9900.41]
   - - [1024, 4096, 1, 3445]
-    - [548, 9920.32]
+    - [566, 9920.22]
   - - [4096, 1024, 1, 3328]
-    - [555, 9888.07]
+    - [573, 9887.97]
   - - [1024, 4096, 1, 3492]
-    - [549, 9937.22]
+    - [567, 9937.12]
   - - [4096, 1024, 1, 3211]
-    - [549, 9847.95]
+    - [567, 9847.85]
   - - [1024, 4096, 1, 3910]
-    - [556, 9946.57]
+    - [574, 9946.47]
   - - [1024, 4096, 1, 3314]
-    - [548, 9932.6]
+    - [566, 9932.5]
   - - [4096, 1024, 1, 3859]
-    - [555, 9902.84]
+    - [573, 9902.74]
   - - [4096, 1024, 1, 3383]
-    - [555, 9875.2]
+    - [573, 9875.1]
   - - [1024, 4096, 1, 3409]
-    - [556, 9926.79]
+    - [574, 9926.69]
   - - [1024, 4096, 1, 4020]
-    - [548, 9941.8]
+    - [566, 9941.7]
   - - [4096, 1024, 1, 3530]
-    - [555, 9872.81]
+    - [573, 9872.71]
   - - [4096, 1024, 1, 3411]
-    - [556, 9875.02]
+    - [574, 9874.92]
   - - [1024, 4096, 1, 3566]
-    - [556, 9921.1]
+    - [574, 9921.0]
   - - [4096, 1024, 1, 3493]
-    - [548, 9875.74]
+    - [566, 9875.64]
   - - [4096, 1024, 1, 3184]
-    - [555, 9873.14]
+    - [573, 9873.04]
   - - [1024, 4096, 1, 3072]
-    - [548, 9923.79]
+    - [566, 9923.69]
   - - [1024, 4096, 1, 3431]
-    - [549, 9911.03]
+    - [567, 9910.93]
   - - [4096, 1024, 1, 3306]
-    - [556, 9853.42]
+    - [574, 9853.32]
   - - [1024, 4096, 1, 3352]
-    - [556, 9913.32]
+    - [574, 9913.22]
   - - [4096, 1024, 1, 3295]
-    - [555, 9862.68]
+    - [573, 9862.58]
   - - [64, 123, 528, 122]
-    - [521, 6950.25]
+    - [539, 6950.15]
   - - [1024, 4096, 1, 3517]
-    - [549, 9920.06]
+    - [567, 9919.96]
   - - [64, 102, 624, 101]
-    - [529, 5791.49]
+    - [547, 5791.39]
   - - [4096, 1024, 1, 3426]
-    - [555, 9891.14]
+    - [573, 9891.04]
   - - [4096, 1024, 1, 3385]
-    - [555, 9868.41]
+    - [573, 9868.31]
   - - [1024, 1024, 1, 3978]
-    - [546, 9008.48]
+    - [564, 9008.38]
   - - [4096, 1024, 1, 3572]
-    - [548, 9884.81]
+    - [566, 9884.71]
   - - [4096, 1024, 1, 3459]
-    - [555, 9892.17]
+    - [573, 9892.07]
   - - [1024, 4096, 1, 3374]
-    - [556, 9908.52]
+    - [574, 9908.42]
   - - [4096, 1024, 1, 3166]
-    - [555, 9832.45]
+    - [573, 9832.35]
   - - [4096, 1024, 1, 3093]
-    - [556, 9841.25]
+    - [574, 9841.15]
   - - [4096, 1024, 1, 3523]
-    - [549, 9879.05]
+    - [567, 9878.95]
   - - [4096, 1024, 1, 3413]
-    - [549, 9880.81]
+    - [567, 9880.71]
   - - [1024, 4096, 1, 3996]
-    - [548, 9948.14]
+    - [566, 9948.04]
   - - [1024, 4096, 1, 3452]
-    - [556, 9915.97]
+    - [574, 9915.87]
   - - [4096, 1024, 1, 3232]
-    - [556, 9876.54]
+    - [574, 9876.44]
   - - [4096, 1024, 1, 3400]
-    - [548, 9867.15]
+    - [566, 9867.05]
   - - [4096, 1024, 1, 3334]
-    - [555, 9868.99]
+    - [573, 9868.89]
   - - [1024, 4096, 1, 3345]
-    - [548, 9920.6]
+    - [566, 9920.5]
   - - [1024, 4096, 1, 3538]
-    - [555, 9933.34]
+    - [573, 9933.24]
   - - [1024, 4096, 1, 3466]
-    - [555, 9920.85]
+    - [573, 9920.75]
   - - [4096, 1024, 1, 3315]
-    - [555, 9876.87]
+    - [573, 9876.77]
   - - [4096, 1024, 1, 3214]
-    - [556, 9847.93]
+    - [574, 9847.83]
   - - [1024, 33708, 1, 3900]
-    - [548, 10331.7]
+    - [566, 10331.6]
   - - [64, 160, 400, 160]
-    - [541, 7440.61]
+    - [559, 7440.51]
   - - [1024, 4096, 1, 3367]
-    - [555, 9926.32]
+    - [573, 9926.22]
   - - [1024, 4096, 1, 2917]
-    - [556, 9904.57]
+    - [574, 9904.47]
   - - [1024, 1024, 1, 3995]
-    - [547, 9000.33]
+    - [565, 9000.23]
   - - [64, 132, 480, 134]
-    - [539, 6146.88]
+    - [557, 6146.78]
   - - [1024, 4096, 1, 3544]
-    - [556, 9924.14]
+    - [574, 9924.04]
   - - [4096, 1024, 1, 3414]
-    - [556, 9867.9]
+    - [574, 9867.8]
   - - [4096, 1024, 1, 3565]
-    - [549, 9870.13]
+    - [567, 9870.03]
   - - [1024, 4096, 1, 3512]
-    - [555, 9919.84]
+    - [573, 9919.74]
   - - [1024, 4096, 1, 3191]
-    - [556, 9914.79]
+    - [574, 9914.69]
   - - [64, 27, 2336, 27]
-    - [523, 3054.71]
+    - [541, 3054.61]
   - - [1024, 4096, 1, 3289]
-    - [556, 9917.2]
+    - [574, 9917.1]
   - - [4096, 1024, 1, 3290]
-    - [555, 9858.41]
+    - [573, 9858.31]
   - - [1024, 4096, 1, 3211]
-    - [556, 9897.16]
+    - [574, 9897.06]
   - - [1024, 33708, 1, 3969]
-    - [549, 10336.1]
+    - [567, 10336.0]
   - - [4096, 1024, 1, 3566]
-    - [555, 9863.0]
+    - [573, 9862.9]
   - - [64, 111, 576, 111]
-    - [529, 6400.91]
+    - [547, 6400.81]
   - - [1024, 4096, 1, 3459]
-    - [555, 9923.03]
+    - [573, 9922.93]
   - - [1024, 4096, 1, 3372]
-    - [548, 9909.86]
+    - [566, 9909.76]
   - - [4096, 1024, 1, 3339]
-    - [555, 9859.3]
+    - [573, 9859.2]
   - - [4096, 1024, 1, 3425]
-    - [555, 9889.34]
+    - [573, 9889.24]
   - - [4096, 1024, 1, 3388]
-    - [555, 9871.67]
+    - [573, 9871.57]
   - - [1024, 4096, 1, 3531]
-    - [548, 9919.0]
+    - [566, 9918.9]
   - - [4096, 1024, 1, 3286]
-    - [556, 9868.42]
+    - [574, 9868.32]
   - - [4096, 1024, 1, 3462]
-    - [555, 9881.88]
+    - [573, 9881.78]
   - - [1024, 4096, 1, 3388]
-    - [548, 9904.69]
+    - [566, 9904.59]
   - - [4096, 1024, 1, 3165]
-    - [548, 9836.33]
+    - [566, 9836.23]
   - - [4096, 1024, 1, 3304]
-    - [555, 9857.55]
+    - [573, 9857.45]
   - - [1024, 4096, 1, 2736]
-    - [555, 9901.07]
+    - [573, 9900.97]
   - - [4096, 1024, 1, 3397]
-    - [555, 9872.1]
+    - [573, 9872.0]
   - - [64, 38, 1680, 38]
-    - [522, 3459.52]
+    - [540, 3459.42]
   - - [1024, 4096, 1, 3311]
-    - [556, 9908.32]
+    - [574, 9908.22]
   - - [1024, 4096, 1, 3394]
-    - [556, 9929.43]
+    - [574, 9929.33]
   - - [4096, 1024, 1, 2736]
-    - [555, 9833.88]
+    - [573, 9833.78]
   - - [1024, 4096, 1, 3559]
-    - [549, 9925.33]
+    - [567, 9925.23]
   - - [4096, 1024, 1, 3180]
-    - [555, 9838.05]
+    - [573, 9837.95]
   - - [1024, 4096, 1, 3480]
-    - [548, 9922.46]
+    - [566, 9922.36]
   - - [4096, 1024, 1, 3318]
-    - [555, 9867.87]
+    - [573, 9867.77]
   - - [4096, 1024, 1, 3213]
-    - [555, 9846.02]
+    - [573, 9845.92]
   - - [1024, 4096, 1, 3286]
-    - [555, 9912.14]
+    - [573, 9912.04]
   - - [4096, 1024, 1, 3471]
-    - [555, 9874.24]
+    - [573, 9874.14]
   - - [1024, 4096, 1, 3381]
-    - [556, 9922.96]
+    - [574, 9922.86]
   - - [64, 100, 624, 100]
-    - [530, 5705.24]
+    - [548, 5705.14]
   - - [4096, 1024, 1, 3502]
-    - [555, 9872.44]
+    - [573, 9872.34]
   - - [64, 16, 3840, 16]
-    - [536, 2091.67]
+    - [554, 2091.57]
   - - [1024, 4096, 1, 3552]
-    - [548, 9943.89]
+    - [566, 9943.79]
   - - [4096, 1024, 1, 3519]
-    - [556, 9869.95]
+    - [574, 9869.85]
   - - [1024, 4096, 1, 3300]
-    - [549, 9916.15]
+    - [567, 9916.05]
   - - [1024, 4096, 1, 3419]
-    - [548, 9914.06]
+    - [566, 9913.96]
   - - [4096, 1024, 1, 4030]
-    - [549, 9893.73]
+    - [567, 9893.63]
   - - [4096, 1024, 1, 3976]
-    - [556, 9898.35]
+    - [574, 9898.25]
   - - [1024, 4096, 1, 3473]
-    - [556, 9928.42]
+    - [574, 9928.32]
   - - [1024, 1024, 1, 3977]
-    - [553, 9009.33]
+    - [571, 9009.23]
   - - [4096, 1024, 1, 3428]
-    - [555, 9876.79]
+    - [573, 9876.69]
   - - [1024, 4096, 1, 3433]
-    - [549, 9923.92]
+    - [567, 9923.82]
   - - [4096, 1024, 1, 3534]
-    - [549, 9864.0]
+    - [567, 9863.9]
   - - [4096, 1024, 1, 3461]
-    - [555, 9873.12]
+    - [573, 9873.02]
   - - [4096, 1024, 1, 3681]
-    - [555, 9898.57]
+    - [573, 9898.47]
   - - [4096, 1024, 1, 3495]
-    - [556, 9876.08]
+    - [574, 9875.98]
   - - [4096, 1024, 1, 3351]
-    - [555, 9879.71]
+    - [573, 9879.61]
   - - [1024, 4096, 1, 4059]
-    - [548, 9948.61]
+    - [566, 9948.51]
   - - [4096, 1024, 1, 3990]
-    - [555, 9900.76]
+    - [573, 9900.66]
   - - [1024, 4096, 1, 3325]
-    - [549, 9903.3]
+    - [567, 9903.2]
   - - [1024, 4096, 1, 3408]
-    - [555, 9932.15]
+    - [573, 9932.05]
   - - [64, 59, 1088, 59]
-    - [529, 5343.77]
+    - [547, 5343.67]
   - - [4096, 1024, 1, 3394]
-    - [556, 9878.17]
+    - [574, 9878.07]
   - - [1024, 4096, 1, 3573]
-    - [556, 9935.3]
+    - [574, 9935.2]
   - - [4096, 1024, 1, 3386]
-    - [555, 9866.38]
+    - [573, 9866.28]
   - - [4096, 1024, 1, 3540]
-    - [555, 9882.33]
+    - [573, 9882.23]
   - - [1024, 4096, 1, 3182]
-    - [549, 9894.45]
+    - [567, 9894.35]
   - - [1024, 4096, 1, 3430]
-    - [548, 9915.24]
+    - [566, 9915.14]
   - - [1024, 4096, 1, 3236]
-    - [556, 9920.56]
+    - [574, 9920.46]
   - - [4096, 1024, 1, 2977]
-    - [555, 9848.08]
+    - [573, 9847.98]
   - - [1024, 4096, 1, 3355]
-    - [555, 9908.78]
+    - [573, 9908.68]
   - - [4096, 1024, 1, 3139]
-    - [555, 9850.71]
+    - [573, 9850.61]
   - - [4096, 1024, 1, 3516]
-    - [549, 9874.21]
+    - [567, 9874.11]
   - - [4096, 1024, 1, 3368]
-    - [549, 9872.64]
+    - [567, 9872.54]
   - - [4096, 1024, 1, 3559]
-    - [548, 9884.32]
+    - [566, 9884.22]
   - - [64, 11, 5456, 11]
-    - [536, 1382.67]
+    - [554, 1382.57]
   - - [1024, 4096, 1, 3506]
-    - [555, 9937.69]
+    - [573, 9937.59]
   - - [1024, 4096, 1, 3145]
-    - [548, 9905.11]
+    - [566, 9905.01]
   - - [1024, 4096, 1, 3369]
-    - [555, 9912.71]
+    - [573, 9912.61]
   - - [64, 112, 576, 112]
-    - [521, 6583.56]
+    - [539, 6583.46]
   - - [4096, 1024, 1, 3522]
-    - [555, 9889.47]
+    - [573, 9889.37]
   - - [1024, 33708, 1, 3894]
-    - [548, 10337.5]
+    - [566, 10337.4]
   - - [64, 159, 400, 162]
-    - [539, 7057.09]
+    - [557, 7056.99]
   - - [4096, 1024, 1, 3336]
-    - [555, 9867.67]
+    - [573, 9867.57]
   - - [1024, 4096, 1, 3382]
-    - [549, 9915.9]
+    - [567, 9915.8]
   - - [4096, 1024, 1, 3533]
-    - [555, 9878.56]
+    - [573, 9878.46]
   - - [4096, 1024, 1, 4050]
-    - [556, 9916.82]
+    - [574, 9916.72]
   - - [4096, 1024, 1, 3480]
-    - [549, 9869.32]
+    - [567, 9869.22]
   - - [1024, 4096, 1, 3344]
-    - [548, 9935.61]
+    - [566, 9935.51]
   - - [64, 122, 528, 122]
-    - [521, 6871.14]
+    - [539, 6871.04]
   - - [1024, 4096, 1, 3509]
-    - [549, 9925.8]
+    - [567, 9925.7]
   - - [1024, 4096, 1, 3956]
-    - [548, 9958.26]
+    - [566, 9958.16]
   - - [4096, 1024, 1, 3616]
-    - [555, 9904.63]
+    - [573, 9904.53]
   - - [1024, 4096, 1, 3366]
-    - [548, 9919.47]
+    - [566, 9919.37]
   - - [4096, 1024, 1, 2935]
-    - [548, 9833.23]
+    - [566, 9833.13]
   - - [4096, 1024, 1, 3393]
-    - [555, 9877.45]
+    - [573, 9877.35]
   - - [4096, 1024, 1, 3547]
-    - [549, 9865.1]
+    - [567, 9865.0]
   - - [1024, 4096, 1, 3499]
-    - [556, 9912.49]
+    - [574, 9912.39]
   - - [4096, 1024, 1, 3357]
-    - [555, 9855.28]
+    - [573, 9855.18]
   - - [4096, 1024, 1, 3272]
-    - [555, 9861.97]
+    - [573, 9861.87]
   - - [4096, 1024, 1, 3207]
-    - [555, 9847.78]
+    - [573, 9847.68]
   - - [4096, 1024, 1, 3894]
-    - [555, 9918.86]
+    - [573, 9918.76]
   - - [1024, 4096, 1, 3444]
-    - [555, 9932.71]
+    - [573, 9932.61]
   - - [4096, 1024, 1, 3561]
-    - [555, 9872.61]
+    - [573, 9872.51]
   - - [4096, 1024, 1, 3376]
-    - [555, 9885.59]
+    - [573, 9885.49]
   - - [1024, 4096, 1, 3458]
-    - [555, 9929.39]
+    - [573, 9929.29]
   - - [4096, 1024, 1, 3231]
-    - [549, 9847.08]
+    - [567, 9846.98]
   - - [64, 228, 272, 228]
-    - [550, 7302.69]
+    - [568, 7302.59]
   - - [1024, 4096, 1, 3505]
-    - [556, 9931.63]
+    - [574, 9931.53]
   - - [4096, 1024, 1, 3277]
-    - [555, 9857.2]
+    - [573, 9857.1]
   - - [64, 21, 2976, 21]
-    - [525, 2436.14]
+    - [543, 2436.04]
   - - [1024, 4096, 1, 3391]
-    - [555, 9911.25]
+    - [573, 9911.15]
   - - [64, 32, 1984, 32]
-    - [537, 3572.17]
+    - [555, 3572.07]
   - - [1024, 4096, 1, 3536]
-    - [556, 9946.9]
+    - [574, 9946.8]
   - - [1024, 4096, 1, 3063]
-    - [555, 9906.92]
+    - [573, 9906.82]
   - - [1024, 1024, 1, 3925]
-    - [547, 9011.45]
+    - [565, 9011.35]
   - - [1024, 4096, 1, 3189]
-    - [549, 9900.95]
+    - [567, 9900.85]
   - - [1024, 4096, 1, 2505]
-    - [555, 9854.85]
+    - [573, 9854.75]
   - - [4096, 1024, 1, 3454]
-    - [548, 9864.96]
+    - [566, 9864.86]
   - - [1024, 4096, 1, 3405]
-    - [556, 9906.33]
+    - [574, 9906.23]
   - - [1024, 33708, 1, 4050]
-    - [549, 10343.7]
+    - [567, 10343.6]
   - - [4096, 1024, 1, 3520]
-    - [555, 9887.03]
+    - [573, 9886.93]
   - - [64, 93, 688, 93]
-    - [532, 6222.86]
+    - [550, 6222.76]
   - - [1024, 4096, 1, 3487]
-    - [556, 9918.69]
+    - [574, 9918.59]
   - - [1024, 4096, 1, 3558]
-    - [556, 9930.99]
+    - [574, 9930.89]
   - - [4096, 1024, 1, 3297]
-    - [555, 9874.31]
+    - [573, 9874.21]
   - - [1024, 1024, 1, 3840]
-    - [551, 9075.42]
+    - [569, 9075.32]
   - - [1024, 4096, 1, 3483]
-    - [555, 9915.38]
+    - [573, 9915.28]
   - - [1024, 1024, 1, 3956]
-    - [554, 9010.03]
+    - [572, 9009.93]
   - - [1024, 33708, 1, 3751]
-    - [549, 10325.9]
+    - [567, 10325.8]
   - - [4096, 1024, 1, 3380]
-    - [555, 9888.47]
+    - [573, 9888.37]
   - - [1024, 4096, 1, 3380]
-    - [548, 9927.25]
+    - [566, 9927.15]
   - - [1024, 4096, 1, 3396]
-    - [556, 9931.96]
+    - [574, 9931.86]
   - - [1024, 4096, 1, 3497]
-    - [549, 9914.86]
+    - [567, 9914.76]
   - - [1024, 4096, 1, 3502]
-    - [556, 9921.52]
+    - [574, 9921.42]
   - - [1024, 1024, 1, 3976]
-    - [551, 9060.3]
+    - [569, 9060.2]
   - - [1024, 4096, 1, 3138]
-    - [549, 9908.66]
+    - [567, 9908.56]
   - - [4096, 1024, 1, 3939]
-    - [548, 9910.23]
+    - [566, 9910.13]
   - - [1024, 4096, 1, 3303]
-    - [549, 9916.64]
+    - [567, 9916.54]
   - - [64, 111, 576, 112]
-    - [529, 6495.19]
+    - [547, 6495.09]
   - - [1024, 4096, 1, 3418]
-    - [555, 9913.35]
+    - [573, 9913.25]
   - - [1024, 4096, 1, 3224]
-    - [549, 9904.05]
+    - [567, 9903.95]
   - - [4096, 1024, 1, 3978]
-    - [555, 9896.28]
+    - [573, 9896.18]
   - - [1024, 4096, 1, 3472]
-    - [548, 9937.48]
+    - [566, 9937.38]
   - - [4096, 1024, 1, 3353]
-    - [556, 9863.97]
+    - [574, 9863.87]
   - - [4096, 1024, 1, 3362]
-    - [555, 9871.06]
+    - [573, 9870.96]
   - - [1024, 33708, 1, 3978]
-    - [548, 10325.4]
+    - [566, 10325.3]
   - - [64, 100, 624, 102]
-    - [524, 5695.67]
+    - [542, 5695.57]
   - - [1024, 4096, 1, 3432]
-    - [556, 9915.56]
+    - [574, 9915.46]
   - - [1024, 4096, 1, 3139]
-    - [555, 9914.21]
+    - [573, 9914.11]
   - - [1024, 4096, 1, 3341]
-    - [556, 9912.1]
+    - [574, 9912.0]
   - - [1024, 4096, 1, 3494]
-    - [549, 9924.6]
+    - [567, 9924.5]
   - - [1024, 4096, 1, 3969]
-    - [548, 9952.28]
+    - [566, 9952.18]
   - - [1024, 4096, 1, 3163]
-    - [556, 9911.79]
+    - [574, 9911.69]
   - - [1024, 1024, 1, 3955]
-    - [546, 9097.86]
+    - [564, 9097.76]
   - - [4096, 1024, 1, 3405]
-    - [555, 9853.84]
+    - [573, 9853.74]
   - - [1024, 1024, 1, 4030]
-    - [546, 9083.86]
+    - [564, 9083.76]
   - - [4096, 1024, 1, 3453]
-    - [555, 9858.88]
+    - [573, 9858.78]
   - - [1024, 4096, 1, 3411]
-    - [556, 9926.54]
+    - [574, 9926.44]
   - - [1024, 4096, 1, 3527]
-    - [549, 9922.65]
+    - [567, 9922.55]
   - - [4096, 1024, 1, 3474]
-    - [555, 9878.49]
+    - [573, 9878.39]
   - - [1024, 4096, 1, 3572]
-    - [555, 9932.0]
+    - [573, 9931.9]
   - - [4096, 1024, 1, 3293]
-    - [555, 9848.26]
+    - [573, 9848.16]
   - - [4096, 1024, 1, 3247]
-    - [555, 9861.45]
+    - [573, 9861.35]
   - - [64, 15, 4096, 15]
-    - [536, 1955.75]
+    - [554, 1955.65]
   - - [1024, 4096, 1, 3425]
-    - [556, 9936.4]
+    - [574, 9936.3]
   - - [1024, 4096, 1, 3354]
-    - [548, 9917.55]
+    - [566, 9917.45]
   - - [4096, 1024, 1, 3382]
-    - [555, 9885.49]
+    - [573, 9885.39]
   - - [4096, 1024, 1, 3236]
-    - [555, 9860.6]
+    - [573, 9860.5]
   - - [1024, 4096, 1, 3519]
-    - [556, 9919.3]
+    - [574, 9919.2]
   - - [4096, 1024, 1, 3354]
-    - [555, 9854.75]
+    - [573, 9854.65]
   - - [4096, 1024, 1, 3501]
-    - [556, 9869.62]
+    - [574, 9869.52]
   - - [1024, 1024, 1, 3906]
-    - [554, 9104.99]
+    - [572, 9104.89]
   - - [4096, 1024, 1, 3266]
-    - [555, 9873.97]
+    - [573, 9873.87]
   - - [64, 101, 624, 102]
-    - [524, 5765.52]
+    - [542, 5765.42]
   - - [1024, 4096, 1, 3368]
-    - [555, 9909.77]
+    - [573, 9909.67]
   - - [1024, 4096, 1, 4030]
-    - [556, 9940.27]
+    - [574, 9940.17]
   - - [1024, 4096, 1, 3533]
-    - [549, 9916.64]
+    - [567, 9916.54]
   - - [4096, 1024, 1, 3332]
-    - [556, 9876.45]
+    - [574, 9876.35]
   - - [4096, 1024, 1, 3584]
-    - [555, 9896.6]
+    - [573, 9896.5]
   - - [1024, 4096, 1, 3616]
-    - [555, 9957.18]
+    - [573, 9957.08]
   - - [4096, 1024, 1, 3265]
-    - [555, 9877.78]
+    - [573, 9877.68]
   - - [4096, 1024, 1, 3361]
-    - [555, 9888.61]
+    - [573, 9888.51]
   - - [4096, 1024, 1, 3467]
-    - [555, 9863.4]
+    - [573, 9863.3]
   - - [1024, 4096, 1, 3454]
-    - [549, 9904.89]
+    - [567, 9904.79]
   - - [1024, 4096, 1, 3101]
-    - [556, 9893.12]
+    - [574, 9893.02]
   - - [1024, 4096, 1, 3508]
-    - [556, 9931.54]
+    - [574, 9931.44]
   - - [4096, 1024, 1, 3267]
-    - [555, 9864.48]
+    - [573, 9864.38]
   - - [64, 54, 1184, 54]
-    - [521, 4906.02]
+    - [539, 4905.92]
   - - [4096, 1024, 1, 3419]
-    - [555, 9872.56]
+    - [573, 9872.46]
   - - [4096, 1024, 1, 3822]
-    - [555, 9892.63]
+    - [573, 9892.53]
   - - [1024, 4096, 1, 3266]
-    - [555, 9918.58]
+    - [573, 9918.48]
   - - [4096, 1024, 1, 3440]
-    - [556, 9890.16]
+    - [574, 9890.06]
   - - [1024, 4096, 1, 3361]
-    - [555, 9930.97]
+    - [573, 9930.87]
   - - [1024, 4096, 1, 3546]
-    - [549, 9926.56]
+    - [567, 9926.46]
   - - [4096, 1024, 1, 3473]
-    - [555, 9889.06]
+    - [573, 9888.96]
   - - [4096, 1024, 1, 3546]
-    - [556, 9872.27]
+    - [574, 9872.17]
   - - [1024, 4096, 1, 3088]
-    - [549, 9918.03]
+    - [567, 9917.93]
   - - [1024, 4096, 1, 3535]
-    - [556, 9921.2]
+    - [574, 9921.1]
   - - [1024, 4096, 1, 3447]
-    - [556, 9920.63]
+    - [574, 9920.53]
   - - [1024, 4096, 1, 3560]
-    - [555, 9925.48]
+    - [573, 9925.38]
   - - [1024, 4096, 1, 3422]
-    - [549, 9922.21]
+    - [567, 9922.11]
   - - [1024, 4096, 1, 3469]
-    - [548, 9906.18]
+    - [566, 9906.08]
   - - [4096, 1024, 1, 3488]
-    - [555, 9903.26]
+    - [573, 9903.16]
   - - [1024, 4096, 1, 3110]
-    - [555, 9906.76]
+    - [573, 9906.66]
   - - [1024, 4096, 1, 3265]
-    - [556, 9916.69]
+    - [574, 9916.59]
   - - [1024, 4096, 1, 3291]
-    - [555, 9902.73]
+    - [573, 9902.63]
   - - [1024, 4096, 1, 3390]
-    - [556, 9907.22]
+    - [574, 9907.12]
   - - [4096, 1024, 1, 3046]
-    - [555, 9847.68]
+    - [573, 9847.58]
   - - [1024, 4096, 1, 3539]
-    - [556, 9933.49]
+    - [574, 9933.39]
   - - [4096, 1024, 1, 3221]
-    - [556, 9860.74]
+    - [574, 9860.64]
   - - [4096, 1024, 1, 3433]
-    - [555, 9872.74]
+    - [573, 9872.64]
   - - [4096, 1024, 1, 3364]
-    - [556, 9881.91]
+    - [574, 9881.81]
   - - [4096, 1024, 1, 3470]
-    - [555, 9858.56]
+    - [573, 9858.46]
   - - [1024, 4096, 1, 3404]
-    - [548, 9907.27]
+    - [566, 9907.17]
   - - [1024, 33708, 1, 3968]
-    - [549, 10350.3]
+    - [567, 10350.2]
   - - [4096, 1024, 1, 3088]
-    - [555, 9869.06]
+    - [573, 9868.96]
   - - [1024, 4096, 1, 3247]
-    - [555, 9901.02]
+    - [573, 9900.92]
   - - [1024, 33708, 1, 3996]
-    - [548, 10328.5]
+    - [566, 10328.4]
   - - [4096, 1024, 1, 3482]
-    - [556, 9866.99]
+    - [574, 9866.89]
   - - [1024, 1024, 1, 3796]
-    - [551, 9031.68]
+    - [569, 9031.58]
   - - [4096, 1024, 1, 3995]
-    - [556, 9896.78]
+    - [574, 9896.68]
   - - [1024, 1024, 1, 3859]
-    - [553, 9097.36]
+    - [571, 9097.26]
   - - [1024, 4096, 1, 3280]
-    - [549, 9934.05]
+    - [567, 9933.95]
   - - [4096, 1024, 1, 3271]
-    - [556, 9860.09]
+    - [574, 9859.99]
   - - [64, 10, 5952, 10]
-    - [536, 1221.02]
+    - [554, 1220.92]
   - - [4096, 1024, 1, 3545]
-    - [555, 9877.35]
+    - [573, 9877.25]
   - - [4096, 1024, 1, 3476]
-    - [548, 9882.57]
+    - [566, 9882.47]
   - - [4096, 1024, 1, 3496]
-    - [549, 9880.5]
+    - [567, 9880.4]
   - - [4096, 1024, 1, 3191]
-    - [549, 9858.7]
+    - [567, 9858.6]
   - - [4096, 1024, 1, 3311]
-    - [556, 9853.2]
+    - [574, 9853.1]
   - - [1024, 4096, 1, 3302]
-    - [556, 9919.32]
+    - [574, 9919.22]
   - - [1024, 4096, 1, 3681]
-    - [555, 9944.99]
+    - [573, 9944.89]
   - - [4096, 1024, 1, 3582]
-    - [548, 9869.77]
+    - [566, 9869.67]
   - - [4096, 1024, 1, 3421]
-    - [556, 9856.08]
+    - [574, 9855.98]
   - - [4096, 1024, 1, 3560]
-    - [549, 9884.48]
+    - [567, 9884.38]
   - - [1024, 4096, 1, 3495]
-    - [556, 9930.13]
+    - [574, 9930.03]
   - - [4096, 1024, 1, 3186]
-    - [555, 9870.59]
+    - [573, 9870.49]
   - - [4096, 1024, 1, 3925]
-    - [555, 9904.0]
+    - [573, 9903.9]
   - - [64, 71, 896, 71]
-    - [540, 5004.79]
+    - [558, 5004.69]
   - - [1024, 4096, 1, 3435]
-    - [556, 9916.58]
+    - [574, 9916.48]
   - - [4096, 1024, 1, 3434]
-    - [555, 9871.29]
+    - [573, 9871.19]
   - - [1024, 33708, 1, 4012]
-    - [548, 10332.5]
+    - [566, 10332.4]
   - - [1024, 4096, 1, 3340]
-    - [548, 9918.11]
+    - [566, 9918.01]
   - - [1024, 1024, 1, 3860]
-    - [546, 8999.36]
+    - [564, 8999.26]
   - - [4096, 1024, 1, 3489]
-    - [555, 9882.02]
+    - [573, 9881.92]
   - - [1024, 4096, 1, 3162]
-    - [556, 9906.28]
+    - [574, 9906.18]
   - - [4096, 1024, 1, 3436]
-    - [555, 9858.12]
+    - [573, 9858.02]
   - - [1024, 1024, 1, 4005]
-    - [552, 9043.06]
+    - [570, 9042.96]
   - - [64, 84, 752, 84]
-    - [525, 5629.93]
+    - [543, 5629.83]
   - - [4096, 1024, 1, 3574]
-    - [555, 9886.7]
+    - [573, 9886.6]
   - - [4096, 1024, 1, 3469]
-    - [548, 9856.26]
+    - [566, 9856.16]
   - - [1024, 4096, 1, 3410]
-    - [549, 9924.74]
+    - [567, 9924.64]
   - - [1024, 4096, 1, 3216]
-    - [548, 9930.67]
+    - [566, 9930.57]
   - - [4096, 1024, 1, 3095]
-    - [555, 9847.01]
+    - [573, 9846.91]
   - - [1024, 1024, 1, 3990]
-    - [554, 9089.04]
+    - [572, 9088.94]
   - - [4096, 1024, 1, 3448]
-    - [555, 9863.94]
+    - [573, 9863.84]
   - - [1024, 4096, 1, 3176]
-    - [556, 9914.01]
+    - [574, 9913.91]
   - - [64, 49, 1296, 49]
-    - [521, 4437.46]
+    - [539, 4437.36]
   - - [4096, 1024, 1, 2918]
-    - [555, 9830.93]
+    - [573, 9830.83]
   - - [64, 14, 4368, 14]
-    - [535, 1802.47]
+    - [553, 1802.37]
   - - [1024, 4096, 1, 3424]
-    - [555, 9934.05]
+    - [573, 9933.95]
   - - [4096, 1024, 1, 3402]
-    - [548, 9863.12]
+    - [566, 9863.02]
   - - [4096, 1024, 1, 3145]
-    - [549, 9856.56]
+    - [567, 9856.46]
   - - [64, 134, 480, 134]
-    - [541, 6184.05]
+    - [559, 6183.95]
   - - [1024, 33708, 1, 3976]
-    - [549, 10330.1]
+    - [567, 10330.0]
   - - [4096, 1024, 1, 3518]
-    - [548, 9856.07]
+    - [566, 9855.97]
   - - [4096, 1024, 1, 3110]
-    - [555, 9856.46]
+    - [573, 9856.36]
   - - [4096, 1024, 1, 3325]
-    - [555, 9852.36]
+    - [573, 9852.26]
   - - [1024, 33708, 1, 3999]
-    - [548, 10329.7]
+    - [566, 10329.6]
   - - [4096, 1024, 1, 2985]
-    - [555, 9837.3]
+    - [573, 9837.2]
   - - [1024, 4096, 1, 3371]
-    - [548, 9913.03]
+    - [566, 9912.93]
   - - [4096, 1024, 1, 3342]
-    - [555, 9863.16]
+    - [573, 9863.06]
   - - [4096, 1024, 1, 3141]
-    - [549, 9849.91]
+    - [567, 9849.81]
   - - [4096, 1024, 1, 3532]
-    - [549, 9866.3]
+    - [567, 9866.2]
   - - [64, 78, 816, 78]
-    - [526, 5316.88]
+    - [544, 5316.78]
   - - [1024, 4096, 1, 3169]
-    - [556, 9910.45]
+    - [574, 9910.35]
   - - [1024, 4096, 1, 3514]
-    - [555, 9918.0]
+    - [573, 9917.9]
   - - [4096, 1024, 1, 3780]
-    - [556, 9899.75]
+    - [574, 9899.65]
   - - [1024, 4096, 1, 3098]
-    - [548, 9901.62]
+    - [566, 9901.52]
   - - [1024, 4096, 1, 3449]
-    - [556, 9919.85]
+    - [574, 9919.75]
   - - [1024, 4096, 1, 3222]
-    - [548, 9917.66]
+    - [566, 9917.56]
   - - [1024, 4096, 1, 3346]
-    - [549, 9912.91]
+    - [567, 9912.81]
   - - [4096, 1024, 1, 3064]
-    - [556, 9848.79]
+    - [574, 9848.69]
   - - [4096, 1024, 1, 3511]
-    - [555, 9873.39]
+    - [573, 9873.29]
   - - [4096, 1024, 1, 3384]
-    - [555, 9870.98]
+    - [573, 9870.88]
   - - [4096, 1024, 1, 3356]
-    - [549, 9853.45]
+    - [567, 9853.35]
   - - [1024, 4096, 1, 3796]
-    - [548, 9940.66]
+    - [566, 9940.56]
   - - [4096, 1024, 1, 3427]
-    - [555, 9883.14]
+    - [573, 9883.04]
   - - [4096, 1024, 1, 3390]
-    - [555, 9863.79]
+    - [573, 9863.69]
   - - [4096, 1024, 1, 3573]
-    - [556, 9886.02]
+    - [574, 9885.92]
   - - [4096, 1024, 1, 3456]
-    - [549, 9890.61]
+    - [567, 9890.51]
   - - [1024, 4096, 1, 3360]
-    - [556, 9938.1]
+    - [574, 9938.0]
   - - [1024, 33708, 1, 3977]
-    - [549, 10327.2]
+    - [567, 10327.1]
   - - [1024, 4096, 1, 2918]
-    - [548, 9902.84]
+    - [566, 9902.74]
   - - [4096, 1024, 1, 3975]
-    - [555, 9905.27]
+    - [573, 9905.17]
   - - [4096, 1024, 1, 3525]
-    - [556, 9879.91]
+    - [574, 9879.81]
   - - [4096, 1024, 1, 3398]
-    - [548, 9873.91]
+    - [566, 9873.81]
   - - [4096, 1024, 1, 3640]
-    - [555, 9885.16]
+    - [573, 9885.06]
   - - [1024, 1024, 1, 3999]
-    - [547, 8995.42]
+    - [565, 8995.32]
   - - [4096, 1024, 1, 3014]
-    - [555, 9841.32]
+    - [573, 9841.22]
   - - [1024, 4096, 1, 3446]
-    - [548, 9917.21]
+    - [566, 9917.11]
   - - [1024, 33708, 1, 3796]
-    - [548, 10339.0]
+    - [566, 10338.9]
   - - [4096, 1024, 1, 3101]
-    - [548, 9827.34]
+    - [566, 9827.24]
   - - [4096, 1024, 1, 3563]
-    - [556, 9863.03]
+    - [574, 9862.93]
   - - [4096, 1024, 1, 3539]
-    - [548, 9889.54]
+    - [566, 9889.44]
   - - [4096, 1024, 1, 3182]
-    - [555, 9833.79]
+    - [573, 9833.69]
   - - [1024, 4096, 1, 3468]
-    - [549, 9913.05]
+    - [567, 9912.95]
   - - [4096, 1024, 1, 3312]
-    - [555, 9889.85]
+    - [573, 9889.75]
   - - [4096, 1024, 1, 3215]
-    - [555, 9853.88]
+    - [573, 9853.78]
   - - [4096, 1024, 1, 3910]
-    - [555, 9894.72]
+    - [573, 9894.62]
   - - [1024, 33708, 1, 3780]
-    - [549, 10332.0]
+    - [567, 10331.9]
   - - [1024, 4096, 1, 3290]
-    - [555, 9915.08]
+    - [573, 9914.98]
   - - [1024, 4096, 1, 4012]
-    - [555, 9942.65]
+    - [573, 9942.55]
   - - [1024, 4096, 1, 3385]
-    - [555, 9915.83]
+    - [573, 9915.73]
   - - [1024, 33708, 1, 3975]
-    - [548, 10330.1]
+    - [566, 10330.0]
   - - [4096, 1024, 1, 3996]
-    - [555, 9891.31]
+    - [573, 9891.21]
   - - [4096, 1024, 1, 2765]
-    - [556, 9800.38]
+    - [574, 9800.28]
   - - [4096, 1024, 1, 3538]
-    - [556, 9886.22]
+    - [574, 9886.12]
   - - [4096, 1024, 1, 3415]
-    - [556, 9874.6]
+    - [574, 9874.5]
   - - [1024, 4096, 1, 3554]
-    - [555, 9931.99]
+    - [573, 9931.89]
   - - [4096, 1024, 1, 3513]
-    - [549, 9874.25]
+    - [567, 9874.15]
   - - [1024, 4096, 1, 3304]
-    - [549, 9907.73]
+    - [567, 9907.63]
   - - [4096, 1024, 1, 3294]
-    - [555, 9851.25]
+    - [573, 9851.15]
   - - [4096, 1024, 1, 3396]
-    - [556, 9880.7]
+    - [574, 9880.6]
   - - [1024, 4096, 1, 3213]
-    - [549, 9891.12]
+    - [567, 9891.02]
   - - [4096, 1024, 1, 3137]
-    - [549, 9857.41]
+    - [567, 9857.31]
   - - [4096, 1024, 1, 3552]
-    - [555, 9904.22]
+    - [573, 9904.12]
   - - [1024, 1024, 1, 4020]
-    - [554, 9098.87]
+    - [572, 9098.77]
   - - [64, 13, 4672, 13]
-    - [536, 1693.54]
+    - [554, 1693.44]
   - - [1024, 4096, 1, 3461]
-    - [555, 9918.45]
+    - [573, 9918.35]
   - - [4096, 1024, 1, 3263]
-    - [548, 9843.89]
+    - [566, 9843.79]
   - - [4096, 1024, 1, 3430]
-    - [555, 9885.26]
+    - [573, 9885.16]
   - - [4096, 1024, 1, 3389]
-    - [555, 9859.23]
+    - [573, 9859.13]
   - - [4096, 1024, 1, 3528]
-    - [555, 9873.01]
+    - [573, 9872.91]
   - - [1024, 4096, 1, 3463]
-    - [556, 9929.61]
+    - [574, 9929.51]
   - - [4096, 1024, 1, 3526]
-    - [556, 9876.9]
+    - [574, 9876.8]
   - - [4096, 1024, 1, 3154]
-    - [555, 9858.25]
+    - [573, 9858.15]
   - - [4096, 1024, 1, 3499]
-    - [556, 9862.92]
+    - [574, 9862.82]
   - - [1024, 1024, 1, 3939]
-    - [554, 9107.41]
+    - [572, 9107.31]
   - - [4096, 1024, 1, 3955]
-    - [556, 9906.28]
+    - [574, 9906.18]
   - - [1024, 4096, 1, 3297]
-    - [549, 9925.34]
+    - [567, 9925.24]
   - - [1024, 4096, 1, 3233]
-    - [555, 9920.65]
+    - [573, 9920.55]
   - - [1024, 4096, 1, 3226]
-    - [555, 9911.35]
+    - [573, 9911.25]
   - - [4096, 1024, 1, 3404]
-    - [555, 9867.28]
+    - [573, 9867.18]
   - - [4096, 1024, 1, 3355]
-    - [555, 9862.66]
+    - [573, 9862.56]
   - - [1024, 4096, 1, 3542]
-    - [555, 9926.49]
+    - [573, 9926.39]
   - - [4096, 1024, 1, 3181]
-    - [556, 9831.86]
+    - [574, 9831.76]
   - - [1024, 4096, 1, 3474]
-    - [555, 9928.03]
+    - [573, 9927.93]
   - - [4096, 1024, 1, 3319]
-    - [555, 9870.28]
+    - [573, 9870.18]
   - - [1024, 4096, 1, 3434]
-    - [548, 9917.51]
+    - [566, 9917.41]
   - - [1024, 4096, 1, 3860]
-    - [555, 9945.32]
+    - [573, 9945.22]
   - - [1024, 4096, 1, 3343]
-    - [548, 9914.66]
+    - [566, 9914.56]
   - - [64, 77, 816, 78]
-    - [526, 5276.97]
+    - [544, 5276.87]
   - - [1024, 4096, 1, 3488]
-    - [555, 9945.81]
+    - [573, 9945.71]
   - - [1024, 4096, 1, 3046]
-    - [555, 9908.78]
+    - [573, 9908.68]
   - - [1024, 4096, 1, 3141]
-    - [556, 9909.18]
+    - [574, 9909.08]
   - - [1024, 4096, 1, 3516]
-    - [556, 9911.38]
+    - [574, 9911.28]
   - - [4096, 1024, 1, 3147]
-    - [555, 9840.47]
+    - [573, 9840.37]
   - - [1024, 1024, 1, 4059]
-    - [547, 9009.78]
+    - [565, 9009.68]
   - - [1024, 1024, 1, 3944]
-    - [547, 9006.17]
+    - [565, 9006.07]
   - - [1024, 4096, 1, 3421]
-    - [556, 9919.86]
+    - [574, 9919.76]
   - - [4096, 1024, 1, 3944]
-    - [549, 9899.53]
+    - [567, 9899.43]
   - - [64, 45, 1424, 45]
-    - [534, 4068.67]
+    - [552, 4068.57]
   - - [1024, 4096, 1, 3574]
-    - [549, 9930.19]
+    - [567, 9930.09]
   - - [1024, 4096, 1, 3977]
-    - [548, 9944.28]
+    - [566, 9944.18]
   - - [1024, 1024, 1, 3968]
-    - [553, 9045.22]
+    - [571, 9045.12]
   - - [1024, 4096, 1, 2985]
-    - [555, 9887.65]
+    - [573, 9887.55]
   - - [64, 193, 320, 193]
-    - [542, 6631.35]
+    - [560, 6631.25]
   - - [1024, 4096, 1, 3427]
-    - [556, 9933.41]
+    - [574, 9933.31]
   - - [64, 12, 5040, 12]
-    - [536, 1552.53]
+    - [554, 1552.43]
   - - [1024, 4096, 1, 3482]
-    - [556, 9942.22]
+    - [574, 9942.12]
   - - [1024, 4096, 1, 3332]
-    - [548, 9923.58]
+    - [566, 9923.48]
   - - [1024, 1024, 1, 3720]
-    - [552, 9039.56]
+    - [570, 9039.46]
   - - [4096, 1024, 1, 3308]
-    - [556, 9852.66]
+    - [574, 9852.56]
   - - [1024, 4096, 1, 3513]
-    - [556, 9919.99]
+    - [574, 9919.89]
   - - [1024, 4096, 1, 3154]
-    - [549, 9908.46]
+    - [567, 9908.36]
   - - [1024, 4096, 1, 3955]
-    - [556, 9950.01]
+    - [574, 9949.91]
   - - [1024, 4096, 1, 2967]
-    - [556, 9897.44]
+    - [574, 9897.34]
   - - [1024, 33708, 1, 3942]
-    - [548, 10336.1]
+    - [566, 10336.0]
   - - [1024, 4096, 1, 3319]
-    - [556, 9912.45]
+    - [574, 9912.35]
   - - [4096, 1024, 1, 3860]
-    - [555, 9909.29]
+    - [573, 9909.19]
   - - [1024, 4096, 1, 3548]
-    - [548, 9924.21]
+    - [566, 9924.11]
   - - [4096, 1024, 1, 3977]
-    - [556, 9891.44]
+    - [574, 9891.34]
   - - [4096, 1024, 1, 3535]
-    - [555, 9867.84]
+    - [573, 9867.74]
   - - [1024, 4096, 1, 3541]
-    - [556, 9923.16]
+    - [574, 9923.06]
   - - [1024, 1024, 1, 3910]
-    - [553, 9080.4]
+    - [571, 9080.3]
   - - [1024, 33708, 1, 3584]
-    - [548, 10333.0]
+    - [566, 10332.9]
   - - [1024, 4096, 1, 3168]
-    - [549, 9926.27]
+    - [567, 9926.17]
   - - [1024, 4096, 1, 3448]
-    - [556, 9922.42]
+    - [574, 9922.32]
   - - [4096, 1024, 1, 3343]
-    - [555, 9857.23]
+    - [573, 9857.13]
   - - [64, 35, 1808, 35]
-    - [538, 3175.44]
+    - [556, 3175.34]
   - - [1024, 4096, 1, 3357]
-    - [549, 9902.41]
+    - [567, 9902.31]
   - - [64, 143, 432, 143]
-    - [539, 6489.7]
+    - [557, 6489.6]
   - - [4096, 1024, 1, 3510]
-    - [555, 9867.4]
+    - [573, 9867.3]
   - - [4096, 1024, 1, 3369]
-    - [555, 9863.44]
+    - [573, 9863.34]
   - - [64, 92, 688, 93]
-    - [526, 6188.3]
+    - [544, 6188.2]
   - - [4096, 1024, 1, 3379]
-    - [555, 9870.12]
+    - [573, 9870.02]
   - - [1024, 4096, 1, 3276]
-    - [555, 9904.77]
+    - [573, 9904.67]
   - - [1024, 4096, 1, 3363]
-    - [555, 9925.13]
+    - [573, 9925.03]
   - - [4096, 1024, 1, 3055]
-    - [555, 9831.92]
+    - [573, 9831.82]
   - - [1024, 4096, 1, 3524]
-    - [548, 9923.79]
+    - [566, 9923.69]
   - - [4096, 1024, 1, 3057]
-    - [555, 9852.87]
+    - [573, 9852.77]
   - - [1024, 33708, 1, 3720]
-    - [549, 10327.1]
+    - [567, 10327.0]
   - - [1024, 4096, 1, 3383]
-    - [548, 9919.39]
+    - [566, 9919.29]
   - - [1024, 4096, 1, 3522]
-    - [549, 9932.56]
+    - [567, 9932.46]
   - - [1024, 33708, 1, 3956]
-    - [548, 10333.8]
+    - [566, 10333.7]
   - - [1024, 4096, 1, 3481]
-    - [548, 9922.08]
+    - [566, 9921.98]
   - - [4096, 1024, 1, 3562]
-    - [556, 9874.86]
+    - [574, 9874.76]
   - - [4096, 1024, 1, 3299]
-    - [555, 9872.97]
+    - [573, 9872.87]
   - - [1024, 4096, 1, 3262]
-    - [549, 9924.83]
+    - [567, 9924.73]
   - - [1024, 4096, 1, 3840]
-    - [548, 9961.84]
+    - [566, 9961.74]
   - - [1024, 33708, 1, 4026]
-    - [548, 10334.3]
+    - [566, 10334.2]
   - - [4096, 1024, 1, 3168]
-    - [549, 9878.45]
+    - [567, 9878.35]
   - - [64, 101, 624, 101]
-    - [529, 5734.72]
+    - [547, 5734.62]
   - - [1024, 4096, 1, 3999]
-    - [548, 9947.1]
+    - [566, 9947.0]
   - - [1024, 4096, 1, 3549]
-    - [548, 9923.3]
+    - [566, 9923.2]
   - - [4096, 1024, 1, 3375]
-    - [555, 9868.89]
+    - [573, 9868.79]
   - - [1024, 4096, 1, 3496]
-    - [556, 9928.67]
+    - [574, 9928.57]
   - - [64, 29, 2176, 29]
-    - [525, 3290.02]
+    - [543, 3289.92]
   - - [1024, 4096, 1, 3190]
-    - [556, 9897.61]
+    - [574, 9897.51]
   - - [4096, 1024, 1, 3273]
-    - [556, 9853.65]
+    - [574, 9853.55]
   - - [1024, 4096, 1, 3406]
-    - [555, 9907.04]
+    - [573, 9906.94]
   - - [4096, 1024, 1, 4005]
-    - [548, 9907.97]
+    - [566, 9907.87]
   - - [4096, 1024, 1, 3555]
-    - [555, 9878.96]
+    - [573, 9878.86]
   - - [4096, 1024, 1, 2505]
-    - [555, 9785.1]
+    - [573, 9785.0]
   - - [1024, 4096, 1, 3460]
-    - [555, 9930.24]
+    - [573, 9930.14]
   - - [64, 17, 3632, 17]
-    - [526, 1917.27]
+    - [544, 1917.17]
   - - [1024, 4096, 1, 3579]
-    - [549, 9920.94]
+    - [567, 9920.84]
   - - [1024, 33708, 1, 4030]
-    - [549, 10327.7]
+    - [567, 10327.6]
   - - [1024, 4096, 1, 3510]
-    - [549, 9931.31]
+    - [567, 9931.21]
   - - [1024, 1024, 1, 3969]
-    - [546, 9020.83]
+    - [564, 9020.73]
   - - [1024, 4096, 1, 3282]
-    - [556, 9920.05]
+    - [574, 9919.95]
   - - [1024, 4096, 1, 3377]
-    - [548, 9927.34]
+    - [566, 9927.24]
   - - [1024, 4096, 1, 2935]
-    - [556, 9903.48]
+    - [574, 9903.38]
   - - [64, 41, 1552, 41]
-    - [526, 3740.48]
+    - [544, 3740.38]
   - - [1024, 4096, 1, 3498]
-    - [548, 9915.01]
+    - [566, 9914.91]
   - - [1024, 4096, 1, 3593]
-    - [555, 9925.64]
+    - [573, 9925.54]
   - - [1024, 1024, 1, 3948]
-    - [554, 9009.03]
+    - [572, 9008.93]
   - - [4096, 1024, 1, 3226]
-    - [556, 9854.75]
+    - [574, 9854.65]
   - - [1024, 4096, 1, 2499]
-    - [555, 9904.82]
+    - [573, 9904.72]
   - - [1024, 4096, 1, 3296]
-    - [548, 9926.89]
+    - [566, 9926.79]
   - - [1024, 4096, 1, 3455]
-    - [555, 9917.52]
+    - [573, 9917.42]
   - - [1024, 4096, 1, 3399]
-    - [549, 9919.7]
+    - [567, 9919.6]
   - - [1024, 4096, 1, 3205]
-    - [548, 9917.74]
+    - [566, 9917.64]
   - - [4096, 1024, 1, 4026]
-    - [556, 9897.81]
+    - [574, 9897.71]
   - - [1024, 4096, 1, 3484]
-    - [548, 9915.53]
+    - [566, 9915.43]
   - - [4096, 1024, 1, 3302]
-    - [556, 9862.8]
+    - [574, 9862.7]
   - - [1024, 4096, 1, 3485]
-    - [556, 9913.0]
+    - [574, 9912.9]
   - - [1024, 1024, 1, 3996]
-    - [554, 9008.77]
+    - [572, 9008.67]
   - - [1024, 4096, 1, 3126]
-    - [549, 9910.16]
+    - [567, 9910.06]
   - - [1024, 4096, 1, 4050]
-    - [548, 9951.21]
+    - [566, 9951.11]
   - - [4096, 1024, 1, 3235]
-    - [549, 9870.74]
+    - [567, 9870.64]
   - - [1024, 33708, 1, 3955]
-    - [548, 10336.1]
+    - [566, 10336.0]
   - - [1024, 4096, 1, 3342]
-    - [548, 9903.85]
+    - [566, 9903.75]
   - - [1024, 1024, 1, 3900]
-    - [553, 9082.92]
+    - [571, 9082.82]
   - - [1024, 4096, 1, 3397]
-    - [556, 9922.7]
+    - [574, 9922.6]
   - - [4096, 1024, 1, 3491]
-    - [556, 9880.75]
+    - [574, 9880.65]
   - - [1024, 4096, 1, 3503]
-    - [548, 9923.28]
+    - [566, 9923.18]
   - - [1024, 4096, 1, 3140]
-    - [549, 9908.41]
+    - [567, 9908.31]
   - - [4096, 1024, 1, 3121]
-    - [555, 9860.32]
+    - [573, 9860.22]
   - - [4096, 1024, 1, 3276]
-    - [555, 9854.19]
+    - [573, 9854.09]
   - - [1024, 4096, 1, 3321]
-    - [556, 9917.86]
+    - [574, 9917.76]
   - - [1024, 4096, 1, 3870]
-    - [556, 9931.07]
+    - [574, 9930.97]
   - - [4096, 1024, 1, 3475]
-    - [555, 9877.58]
+    - [573, 9877.48]
   - - [1024, 4096, 1, 2984]
-    - [555, 9895.59]
+    - [573, 9895.49]
   - - [4096, 1024, 1, 3363]
-    - [549, 9873.44]
+    - [567, 9873.34]
   - - [1024, 4096, 1, 3582]
-    - [555, 9920.87]
+    - [573, 9920.77]
   - - [4096, 1024, 1, 3509]
-    - [555, 9886.86]
+    - [573, 9886.76]
   - - [1024, 4096, 1, 3426]
-    - [548, 9928.86]
+    - [566, 9928.76]
   - - [4096, 1024, 1, 3136]
-    - [555, 9872.61]
+    - [573, 9872.51]
   - - [1024, 4096, 1, 3232]
-    - [556, 9926.29]
+    - [574, 9926.19]
   - - [4096, 1024, 1, 3103]
-    - [555, 9839.03]
+    - [573, 9838.93]
   - - [1024, 4096, 1, 3335]
-    - [549, 9913.37]
+    - [567, 9913.27]
   - - [1024, 4096, 1, 3900]
-    - [548, 9938.01]
+    - [566, 9937.91]
   - - [4096, 1024, 1, 3512]
-    - [549, 9877.26]
+    - [567, 9877.16]
   - - [4096, 1024, 1, 3222]
-    - [555, 9859.77]
+    - [573, 9859.67]
   - - [1024, 4096, 1, 3165]
-    - [555, 9899.71]
+    - [573, 9899.61]
   - - [4096, 1024, 1, 3408]
-    - [555, 9899.68]
+    - [573, 9899.58]
   - - [4096, 1024, 1, 3751]
-    - [555, 9891.49]
+    - [573, 9891.39]
   - - [1024, 4096, 1, 3318]
-    - [548, 9913.42]
+    - [566, 9913.32]
   - - [4096, 1024, 1, 3442]
-    - [556, 9880.21]
+    - [574, 9880.11]
   - - [1024, 4096, 1, 3413]
-    - [555, 9921.9]
+    - [573, 9921.8]
   - - [4096, 1024, 1, 3524]
-    - [555, 9879.22]
+    - [573, 9879.12]
   - - [1024, 4096, 1, 3976]
-    - [556, 9945.57]
+    - [574, 9945.47]
   - - [1024, 4096, 1, 3475]
-    - [556, 9932.51]
+    - [574, 9932.41]
   - - [1024, 4096, 1, 3534]
-    - [548, 9911.49]
+    - [566, 9911.39]
   - - [4096, 1024, 1, 3301]
-    - [555, 9872.75]
+    - [573, 9872.65]
   - - [4096, 1024, 1, 3248]
-    - [555, 9878.22]
+    - [573, 9878.12]
   - - [1024, 4096, 1, 2977]
-    - [549, 9899.93]
+    - [567, 9899.83]
   - - [4096, 1024, 1, 3346]
-    - [555, 9876.07]
+    - [573, 9875.97]
   - - [1024, 4096, 1, 3451]
-    - [548, 9920.16]
+    - [566, 9920.06]
   - - [1024, 4096, 1, 3257]
-    - [549, 9905.02]
+    - [567, 9904.92]
   - - [1024, 1024, 1, 3640]
-    - [547, 8983.39]
+    - [565, 8983.29]
   - - [1024, 4096, 1, 3356]
-    - [548, 9904.48]
+    - [566, 9904.38]
   - - [4096, 1024, 1, 3348]
-    - [556, 9872.53]
+    - [574, 9872.43]
   - - [4096, 1024, 1, 3335]
-    - [555, 9865.82]
+    - [573, 9865.72]
   - - [4096, 1024, 1, 3505]
-    - [555, 9888.88]
+    - [573, 9888.78]
   - - [1024, 4096, 1, 3490]
-    - [548, 9938.0]
+    - [566, 9937.9]
   - - [4096, 1024, 1, 3447]
-    - [555, 9865.39]
+    - [573, 9865.29]
   - - [1024, 4096, 1, 3267]
-    - [556, 9919.32]
+    - [574, 9919.22]
   - - [4096, 1024, 1, 3230]
-    - [555, 9853.2]
+    - [573, 9853.1]
   - - [4096, 1024, 1, 3455]
-    - [555, 9862.44]
+    - [573, 9862.34]
   - - [1024, 4096, 1, 3925]
-    - [548, 9945.64]
+    - [566, 9945.54]
   - - [1024, 4096, 1, 3362]
-    - [549, 9921.63]
+    - [567, 9921.53]
   - - [4096, 1024, 1, 3969]
-    - [556, 9911.98]
+    - [574, 9911.88]
   - - [4096, 1024, 1, 3527]
-    - [555, 9882.87]
+    - [573, 9882.77]
   - - [1024, 4096, 1, 3585]
-    - [549, 9946.52]
+    - [567, 9946.42]
   - - [4096, 1024, 1, 3063]
-    - [555, 9854.03]
+    - [573, 9853.93]
   - - [4096, 1024, 1, 3435]
-    - [555, 9867.13]
+    - [573, 9867.03]
   - - [4096, 1024, 1, 3366]
-    - [556, 9864.02]
+    - [574, 9863.92]
   - - [4096, 1024, 1, 3581]
-    - [548, 9868.57]
+    - [566, 9868.47]
   - - [1024, 33708, 1, 3906]
-    - [548, 10339.3]
+    - [566, 10339.2]
   - - [1024, 4096, 1, 3464]
-    - [556, 9916.21]
+    - [574, 9916.11]
   - - [1024, 4096, 1, 3440]
-    - [555, 9945.25]
+    - [573, 9945.15]
   - - [4096, 1024, 1, 3143]
-    - [555, 9846.76]
+    - [573, 9846.66]
   - - [1024, 4096, 1, 3349]
-    - [549, 9912.83]
+    - [567, 9912.73]
   - - [4096, 1024, 1, 3416]
-    - [555, 9885.13]
+    - [573, 9885.03]
   - - [4096, 1024, 1, 3365]
-    - [555, 9876.0]
+    - [573, 9875.9]
   - - [1024, 4096, 1, 3470]
-    - [556, 9914.98]
+    - [574, 9914.88]
   - - [4096, 1024, 1, 3287]
-    - [555, 9860.69]
+    - [573, 9860.59]
   - - [1024, 4096, 1, 3441]
-    - [556, 9928.98]
+    - [574, 9928.88]
   - - [4096, 1024, 1, 3224]
-    - [555, 9857.83]
+    - [573, 9857.73]
   - - [1024, 4096, 1, 3387]
-    - [548, 9911.72]
+    - [566, 9911.62]
   - - [1024, 4096, 1, 3547]
-    - [548, 9920.36]
+    - [566, 9920.26]
   - - [4096, 1024, 1, 3478]
-    - [549, 9882.9]
+    - [567, 9882.8]
   - - [4096, 1024, 1, 3548]
-    - [556, 9869.45]
+    - [574, 9869.35]
   - - [1024, 33708, 1, 4020]
-    - [548, 10345.3]
+    - [566, 10345.2]
   - - [4096, 1024, 1, 3320]
-    - [555, 9863.74]
+    - [573, 9863.64]
   - - [1024, 4096, 1, 3906]
-    - [555, 9942.67]
+    - [573, 9942.57]
   - - [4096, 1024, 1, 3796]
-    - [555, 9899.13]
+    - [573, 9899.03]
   - - [1024, 4096, 1, 3306]
-    - [548, 9902.4]
+    - [566, 9902.3]
   - - [1024, 4096, 1, 3401]
-    - [556, 9913.95]
+    - [574, 9913.85]
   - - [64, 147, 432, 147]
-    - [539, 6626.6]
+    - [557, 6626.5]
   - - [1024, 4096, 1, 3215]
-    - [556, 9911.24]
+    - [574, 9911.14]
   - - [4096, 1024, 1, 4012]
-    - [556, 9898.2]
+    - [574, 9898.1]
   - - [1024, 4096, 1, 2765]
-    - [556, 9863.73]
+    - [574, 9863.63]
   - - [4096, 1024, 1, 3554]
-    - [549, 9883.52]
+    - [567, 9883.42]
   - - [4096, 1024, 1, 3423]
-    - [555, 9866.72]
+    - [573, 9866.62]
   - - [1024, 1024, 1, 3751]
-    - [553, 9006.36]
+    - [571, 9006.26]
   - - [1024, 4096, 1, 3562]
-    - [549, 9922.08]
+    - [567, 9921.98]
   - - [1024, 4096, 1, 3489]
-    - [548, 9936.78]
+    - [566, 9936.68]
   - - [4096, 1024, 1, 3358]
-    - [555, 9858.22]
+    - [573, 9858.12]
   - - [4096, 1024, 1, 3270]
-    - [556, 9850.84]
+    - [574, 9850.74]
   - - [1024, 4096, 1, 3293]
-    - [548, 9905.33]
+    - [566, 9905.23]
   - - [1024, 4096, 1, 3376]
-    - [548, 9934.98]
+    - [566, 9934.88]
   - - [4096, 1024, 1, 3245]
-    - [555, 9852.52]
+    - [573, 9852.42]
   - - [4096, 1024, 1, 3541]
-    - [555, 9887.22]
+    - [573, 9887.12]
   - - [4096, 1024, 1, 3443]
-    - [555, 9871.73]
+    - [573, 9871.63]
   - - [4096, 1024, 1, 3438]
-    - [556, 9863.86]
+    - [574, 9863.76]
   - - [4096, 1024, 1, 3244]
-    - [555, 9859.76]
+    - [573, 9859.66]
   - - [1024, 4096, 1, 3365]
-    - [555, 9922.1]
+    - [573, 9922.0]
   - - [1024, 4096, 1, 3299]
-    - [549, 9923.38]
+    - [567, 9923.28]
   - - [4096, 1024, 1, 3840]
-    - [555, 9914.75]
+    - [573, 9914.65]
   - - [1024, 4096, 1, 3471]
-    - [556, 9918.38]
+    - [574, 9918.28]
   - - [1024, 4096, 1, 3398]
-    - [548, 9918.99]
+    - [566, 9918.89]
   - - [4096, 1024, 1, 3162]
-    - [555, 9843.93]
+    - [573, 9843.83]
   - - [1024, 4096, 1, 4005]
-    - [549, 9947.87]
+    - [567, 9947.77]
   - - [4096, 1024, 1, 3579]
-    - [555, 9868.25]
+    - [573, 9868.15]
   - - [64, 18, 3440, 18]
-    - [531, 2059.33]
+    - [549, 2059.23]
   - - [64, 177, 352, 177]
-    - [550, 7315.4]
+    - [568, 7315.3]
   - - [1024, 4096, 1, 3121]
-    - [556, 9930.34]
+    - [574, 9930.24]
   - - [4096, 1024, 1, 3441]
-    - [555, 9883.28]
+    - [573, 9883.18]
   - - [4096, 1024, 1, 3422]
-    - [555, 9858.41]
+    - [573, 9858.31]
   - - [4096, 1024, 1, 3444]
-    - [555, 9887.03]
+    - [573, 9886.93]
   - - [1024, 4096, 1, 3337]
-    - [549, 9911.45]
+    - [567, 9911.35]
   - - [4096, 1024, 1, 3550]
-    - [548, 9871.87]
+    - [566, 9871.77]
   - - [1024, 4096, 1, 3477]
-    - [548, 9930.65]
+    - [566, 9930.55]
   - - [4096, 1024, 1, 3490]
-    - [555, 9878.45]
+    - [573, 9878.35]
   - - [4096, 1024, 1, 3585]
-    - [555, 9893.63]
+    - [573, 9893.53]
   - - [1024, 4096, 1, 3143]
-    - [548, 9901.19]
+    - [566, 9901.09]
   - - [1024, 33708, 1, 3876]
-    - [549, 10330.8]
+    - [567, 10330.7]
   - - [1024, 4096, 1, 3320]
-    - [556, 9913.18]
+    - [574, 9913.08]
   - - [1024, 4096, 1, 3423]
-    - [556, 9914.14]
+    - [574, 9914.04]
   - - [1024, 4096, 1, 3894]
-    - [548, 9944.47]
+    - [566, 9944.37]
   - - [4096, 1024, 1, 3410]
-    - [555, 9878.67]
+    - [573, 9878.57]
   - - [1024, 4096, 1, 3561]
-    - [548, 9926.68]
+    - [566, 9926.58]
   - - [4096, 1024, 1, 3492]
-    - [549, 9872.92]
+    - [567, 9872.82]
   - - [64, 85, 752, 85]
-    - [526, 5734.35]
+    - [544, 5734.25]
   - - [36548, 1024, 1, 3712]
-    - [558, 10367.6]
+    - [576, 10367.5]
   - - [4096, 2048, 1, 128]
-    - [559, 8743.93]
+    - [577, 8743.83]
   - - [1024, 1024, 1, 3712]
-    - [560, 9976.29]
+    - [578, 9976.19]
   - - [1024, 1024, 1, 128]
-    - [557, 5765.47]
+    - [575, 5765.37]
   - - [4096, 3072, 1, 128]
-    - [559, 8869.11]
+    - [577, 8869.01]
   - - [768, 3072, 1, 4096]
-    - [571, 10028.8]
+    - [589, 10028.7]
   - - [64, 256, 192, 256]
-    - [565, 8791.65]
+    - [583, 8791.55]
   - - [768, 2, 1, 16]
-    - [568, 5.05484]
+    - [586, 4.95484]
   - - [768, 768, 1, 64]
-    - [564, 3469.65]
+    - [582, 3469.55]
   - - [768, 768, 1, 4096]
-    - [572, 7475.1]
+    - [590, 7475.0]
   - - [768, 30522, 1, 1280]
-    - [575, 10297.0]
+    - [593, 10296.9]
   - - [64, 128, 384, 128]
-    - [565, 7660.93]
+    - [583, 7660.83]
   - - [768, 30522, 1, 320]
-    - [573, 10008.0]
+    - [591, 10007.9]
   - - [768, 768, 1, 32]
-    - [562, 2359.4]
+    - [580, 2359.3]
   - - [3072, 768, 1, 4096]
-    - [571, 10033.8]
+    - [589, 10033.7]
   - - [768, 30522, 1, 640]
-    - [574, 10206.8]
+    - [592, 10206.7]
   - - [64, 64, 768, 64]
-    - [563, 5494.82]
+    - [581, 5494.72]
   - - [768, 768, 1, 640]
-    - [572, 6721.74]
+    - [590, 6721.64]
   - - [768, 768, 1, 16]
-    - [561, 1203.82]
+    - [579, 1203.72]
   - - [768, 768, 1, 1280]
-    - [570, 7138.67]
+    - [588, 7138.57]
   - - [768, 2, 1, 32]
-    - [566, 11.9154]
+    - [584, 11.8154]
   - - [2048, 2048, 1, 512]
-    - [586, 9607.67]
+    - [604, 9607.57]
   - - [512, 32, 1, 200]
-    - [579, 422.368]
+    - [597, 422.268]
   - - [1024, 1, 1, 200]
-    - [582, 24.7154]
+    - [600, 24.6154]
   - - [1600, 1024, 1, 512]
-    - [577, 8116.01]
+    - [595, 8115.91]
   - - [560, 1024, 1, 200]
-    - [576, 4810.84]
+    - [594, 4810.74]
   - - [1024, 1024, 1, 512]
-    - [585, 8614.84]
+    - [603, 8614.74]
   - - [2048, 1, 1, 512]
-    - [580, 81.0086]
+    - [598, 80.9086]
   - - [512, 512, 1, 200]
-    - [578, 4398.49]
+    - [596, 4398.39]
   - - [100, 2048, 1, 512]
-    - [583, 4443.22]
+    - [601, 4443.12]
   - - [1024, 1024, 1, 200]
-    - [584, 6990.61]
+    - [602, 6990.51]
   - - [1024, 64, 1, 512]
-    - [581, 2853.37]
+    - [599, 2853.27]
   - - [1024, 256, 1, 18944]
-    - [605, 9196.51]
+    - [623, 9196.41]
   - - [256, 3328, 1, 8976]
-    - [595, 8299.36]
+    - [613, 8299.26]
   - - [1024, 256, 1, 4352]
-    - [603, 8813.84]
+    - [621, 8813.74]
   - - [256, 9728, 1, 8976]
-    - [598, 9638.58]
+    - [616, 9638.48]
   - - [1024, 256, 1, 3072]
-    - [605, 8640.73]
+    - [623, 8640.63]
   - - [768, 2048, 1, 256]
-    - [597, 8663.03]
+    - [615, 8662.93]
   - - [1024, 256, 1, 19968]
-    - [602, 9220.96]
+    - [620, 9220.86]
   - - [256, 12800, 1, 8976]
-    - [592, 9418.52]
+    - [610, 9418.42]
   - - [1024, 256, 1, 3328]
-    - [606, 8682.58]
+    - [624, 8682.48]
   - - [256, 10240, 1, 8976]
-    - [599, 10137.8]
+    - [617, 10137.7]
   - - [1024, 256, 1, 15104]
-    - [604, 9167.13]
+    - [622, 9167.03]
   - - [256, 10496, 1, 8976]
-    - [592, 9858.48]
+    - [610, 9858.38]
   - - [1024, 256, 1, 2816]
-    - [607, 8575.81]
+    - [625, 8575.71]
   - - [1024, 256, 1, 4608]
-    - [602, 8861.31]
+    - [620, 8861.21]
   - - [256, 11264, 1, 8976]
-    - [589, 9627.79]
+    - [607, 9627.69]
   - - [1024, 256, 1, 6400]
-    - [602, 8985.33]
+    - [620, 8985.23]
   - - [1024, 256, 1, 16128]
-    - [602, 9170.36]
+    - [620, 9170.26]
   - - [256, 44505, 1, 8976]
-    - [596, 10331.9]
+    - [614, 10331.8]
   - - [256, 6144, 1, 8976]
-    - [599, 10395.1]
+    - [617, 10395.0]
   - - [1024, 256, 1, 5120]
-    - [604, 8881.63]
+    - [622, 8881.53]
   - - [1024, 256, 1, 7936]
-    - [607, 9023.24]
+    - [625, 9023.14]
   - - [256, 3840, 1, 8976]
-    - [594, 9541.38]
+    - [612, 9541.28]
   - - [1024, 256, 1, 21248]
-    - [602, 9209.82]
+    - [620, 9209.72]
   - - [1024, 256, 1, 12032]
-    - [604, 9156.27]
+    - [622, 9156.17]
   - - [256, 8192, 1, 8976]
-    - [601, 10374.5]
+    - [619, 10374.4]
   - - [1024, 256, 1, 3584]
-    - [603, 8712.3]
+    - [621, 8712.2]
   - - [1024, 256, 1, 14336]
-    - [604, 9162.61]
+    - [622, 9162.51]
   - - [256, 7168, 1, 8976]
-    - [590, 9554.96]
+    - [608, 9554.86]
   - - [1024, 256, 1, 13568]
-    - [602, 9165.14]
+    - [620, 9165.04]
   - - [256, 4096, 1, 8976]
-    - [594, 10146.7]
+    - [612, 10146.6]
   - - [1024, 256, 1, 4096]
-    - [603, 8783.98]
+    - [621, 8783.88]
   - - [256, 2560, 1, 8976]
-    - [593, 8381.66]
+    - [611, 8381.56]
   - - [256, 20992, 1, 8976]
-    - [592, 9989.96]
+    - [610, 9989.86]
   - - [256, 4352, 1, 8976]
-    - [593, 9635.02]
+    - [611, 9634.92]
   - - [256, 33536, 1, 8976]
-    - [592, 10218.2]
+    - [610, 10218.1]
   - - [256, 3584, 1, 8976]
-    - [594, 8924.6]
+    - [612, 8924.5]
   - - [256, 26112, 1, 8976]
-    - [593, 10272.4]
+    - [611, 10272.3]
   - - [256, 14336, 1, 8976]
-    - [597, 10217.4]
+    - [615, 10217.3]
   - - [1024, 256, 1, 14848]
-    - [604, 9185.29]
+    - [622, 9185.19]
   - - [1024, 256, 1, 8448]
-    - [605, 9025.99]
+    - [623, 9025.89]
   - - [1024, 256, 1, 28672]
-    - [602, 9256.5]
+    - [620, 9256.4]
   - - [1024, 256, 1, 5632]
-    - [602, 8932.79]
+    - [620, 8932.69]
   - - [256, 22016, 1, 8976]
-    - [597, 10152.0]
+    - [615, 10151.9]
   - - [1024, 256, 1, 33536]
-    - [602, 9243.17]
+    - [620, 9243.07]
   - - [256, 5120, 1, 8976]
-    - [588, 9418.15]
+    - [606, 9418.05]
   - - [256, 11520, 1, 8976]
-    - [595, 9701.1]
+    - [613, 9701.0]
   - - [256, 19968, 1, 8976]
-    - [593, 10228.1]
+    - [611, 10228.0]
   - - [1024, 256, 1, 5376]
-    - [604, 8892.62]
+    - [622, 8892.52]
   - - [1024, 256, 1, 22016]
-    - [602, 9244.34]
+    - [620, 9244.24]
   - - [256, 8960, 1, 8976]
-    - [593, 9841.41]
+    - [611, 9841.31]
   - - [1024, 256, 1, 15872]
-    - [602, 9223.25]
+    - [620, 9223.15]
   - - [256, 17408, 1, 8976]
-    - [597, 9785.87]
+    - [615, 9785.77]
   - - [256, 5632, 1, 8976]
-    - [597, 9564.32]
+    - [615, 9564.22]
   - - [256, 32512, 1, 8976]
-    - [596, 10358.0]
+    - [614, 10357.9]
   - - [256, 11008, 1, 8976]
-    - [589, 9445.23]
+    - [607, 9445.13]
   - - [1024, 256, 1, 6144]
-    - [604, 8955.91]
+    - [622, 8955.81]
   - - [256, 4864, 1, 8976]
-    - [589, 8979.45]
+    - [607, 8979.35]
   - - [256, 15104, 1, 8976]
-    - [592, 10007.1]
+    - [610, 10007.0]
   - - [1024, 256, 1, 9984]
-    - [602, 9110.53]
+    - [620, 9110.43]
   - - [256, 1280, 1, 8976]
-    - [588, 5944.44]
+    - [606, 5944.34]
   - - [1024, 256, 1, 1024]
-    - [604, 7005.2]
+    - [622, 7005.1]
   - - [1024, 256, 1, 9728]
-    - [604, 9066.29]
+    - [622, 9066.19]
   - - [1024, 256, 1, 10496]
-    - [602, 9118.15]
+    - [620, 9118.05]
   - - [256, 11776, 1, 8976]
-    - [599, 9911.74]
+    - [617, 9911.64]
   - - [256, 12544, 1, 8976]
-    - [592, 9235.35]
+    - [610, 9235.25]
   - - [1024, 256, 1, 17152]
-    - [602, 9152.31]
+    - [620, 9152.21]
   - - [1024, 256, 1, 11520]
-    - [604, 9146.87]
+    - [622, 9146.77]
   - - [1024, 256, 1, 21504]
-    - [604, 9207.52]
+    - [622, 9207.42]
   - - [256, 17152, 1, 8976]
-    - [591, 9654.81]
+    - [609, 9654.71]
   - - [1024, 256, 1, 17408]
-    - [602, 9181.27]
+    - [620, 9181.17]
   - - [256, 15872, 1, 8976]
-    - [600, 10086.5]
+    - [618, 10086.4]
   - - [256, 18688, 1, 8976]
-    - [593, 9612.57]
+    - [611, 9612.47]
   - - [256, 5888, 1, 8976]
-    - [597, 9988.43]
+    - [615, 9988.33]
   - - [512, 2048, 1, 256]
-    - [587, 7678.46]
+    - [605, 7678.36]
   - - [1024, 256, 1, 7680]
-    - [605, 9033.06]
+    - [623, 9032.96]
   - - [1024, 256, 1, 1280]
-    - [607, 7767.33]
+    - [625, 7767.23]
   - - [256, 14848, 1, 8976]
-    - [593, 9852.76]
+    - [611, 9852.66]
   - - [256, 9984, 1, 8976]
-    - [599, 9908.97]
+    - [617, 9908.87]
   - - [256, 20480, 1, 8976]
-    - [597, 10337.2]
+    - [615, 10337.1]
   - - [1024, 256, 1, 8192]
-    - [604, 9044.42]
+    - [622, 9044.32]
   - - [1024, 256, 1, 19712]
-    - [603, 9184.28]
+    - [621, 9184.18]
   - - [256, 13568, 1, 8976]
-    - [593, 9927.92]
+    - [611, 9927.82]
   - - [256, 13312, 1, 8976]
-    - [592, 9758.01]
+    - [610, 9757.91]
   - - [256, 2816, 1, 8976]
-    - [592, 9191.53]
+    - [610, 9191.43]
   - - [1024, 256, 1, 2304]
-    - [603, 8445.01]
+    - [621, 8444.91]
   - - [256, 21248, 1, 8976]
-    - [593, 10127.6]
+    - [611, 10127.5]
   - - [256, 16128, 1, 8976]
-    - [601, 10238.5]
+    - [619, 10238.4]
   - - [256, 512, 36, 98]
-    - [624, 7994.95]
+    - [642, 7994.85]
   - - [64, 192, 36, 25088]
-    - [693, 8613.99]
+    - [711, 8613.89]
   - - [128, 128, 64, 25]
-    - [623, 2540.25]
+    - [641, 2540.15]
   - - [256, 256, 64, 56]
-    - [624, 6924.66]
+    - [642, 6924.56]
   - - [512, 486, 36, 800]
-    - [631, 8994.94]
+    - [649, 8994.84]
   - - [512, 512, 36, 1568]
-    - [642, 9872.48]
+    - [660, 9872.38]
   - - [64, 192, 64, 3200]
-    - [687, 9295.99]
+    - [705, 9295.89]
   - - [256, 384, 36, 4096]
-    - [687, 9334.71]
+    - [705, 9334.61]
   - - [128, 256, 64, 32]
-    - [626, 4280.0]
+    - [644, 4279.9]
   - - [64, 128, 64, 23104]
-    - [693, 10103.2]
+    - [711, 10103.1]
   - - [128, 256, 64, 9]
-    - [617, 1709.73]
+    - [635, 1709.63]
   - - [256, 512, 36, 784]
-    - [627, 9520.83]
+    - [645, 9520.73]
   - - [256, 324, 36, 32]
-    - [665, 4473.48]
+    - [683, 4473.38]
   - - [512, 512, 36, 33]
-    - [636, 5925.27]
+    - [654, 5925.17]
   - - [16, 32, 36, 5760]
-    - [640, 1448.9]
+    - [658, 1448.8]
   - - [192, 384, 64, 128]
-    - [687, 8618.53]
+    - [705, 8618.43]
   - - [512, 512, 64, 72]
-    - [643, 8260.22]
+    - [661, 8260.12]
   - - [128, 128, 64, 1600]
-    - [616, 9008.48]
+    - [634, 9008.38]
   - - [512, 512, 36, 128]
-    - [687, 8871.72]
+    - [705, 8871.62]
   - - [192, 384, 64, 2304]
-    - [616, 9657.26]
+    - [634, 9657.16]
   - - [384, 256, 64, 450]
-    - [652, 9539.03]
+    - [670, 9538.93]
   - - [3, 64, 36, 6272]
-    - [640, 509.884]
+    - [658, 509.784]
   - - [3, 64, 64, 2888]
-    - [669, 708.721]
+    - [687, 708.621]
   - - [384, 256, 64, 2304]
-    - [652, 10287.6]
+    - [670, 10287.5]
   - - [512, 512, 64, 144]
-    - [687, 9226.8]
+    - [705, 9226.7]
   - - [256, 256, 36, 6272]
-    - [627, 9607.38]
+    - [645, 9607.28]
   - - [80, 192, 64, 4608]
-    - [688, 7348.03]
+    - [706, 7347.93]
   - - [64, 64, 36, 3136]
-    - [675, 5959.15]
+    - [693, 5959.05]
   - - [256, 384, 64, 2304]
-    - [652, 10283.5]
+    - [670, 10283.4]
   - - [512, 512, 36, 66]
-    - [636, 7618.18]
+    - [654, 7618.08]
   - - [128, 256, 64, 800]
-    - [662, 9611.25]
+    - [680, 9611.15]
   - - [64, 128, 36, 30]
-    - [618, 1242.71]
+    - [636, 1242.61]
   - - [192, 256, 36, 512]
-    - [687, 8658.07]
+    - [705, 8657.97]
   - - [256, 512, 64, 200]
-    - [687, 9153.97]
+    - [705, 9153.87]
   - - [256, 512, 64, 25]
-    - [665, 5349.98]
+    - [683, 5349.88]
   - - [3, 64, 64, 46208]
-    - [668, 808.662]
+    - [686, 808.562]
   - - [128, 256, 36, 1568]
-    - [660, 8528.72]
+    - [678, 8528.62]
   - - [64, 128, 64, 11552]
-    - [693, 9997.1]
+    - [711, 9997.0]
   - - [128, 192, 64, 946]
-    - [687, 9198.48]
+    - [705, 9198.38]
   - - [64, 192, 64, 12800]
-    - [648, 9000.76]
+    - [666, 9000.66]
   - - [224, 224, 64, 128]
-    - [625, 6312.17]
+    - [643, 6312.07]
   - - [128, 256, 64, 288]
-    - [687, 8697.97]
+    - [705, 8697.87]
   - - [64, 64, 64, 826]
-    - [630, 6650.31]
+    - [648, 6650.21]
   - - [256, 384, 64, 1152]
-    - [662, 10106.9]
+    - [680, 10106.8]
   - - [3, 64, 64, 92416]
-    - [668, 812.131]
+    - [686, 812.031]
   - - [32, 32, 36, 43808]
-    - [609, 2813.19]
+    - [627, 2813.09]
   - - [160, 320, 64, 288]
-    - [619, 8090.96]
+    - [637, 8090.86]
   - - [1, 16, 36, 23040]
-    - [656, 42.7667]
+    - [674, 42.6667]
   - - [128, 256, 36, 128]
-    - [634, 6049.58]
+    - [652, 6049.48]
   - - [128, 128, 64, 3360]
-    - [687, 9200.06]
+    - [705, 9199.96]
   - - [128, 128, 64, 420]
-    - [687, 8131.6]
+    - [705, 8131.5]
   - - [64, 128, 64, 361]
-    - [624, 6938.08]
+    - [642, 6937.98]
   - - [512, 512, 36, 16]
-    - [680, 3797.76]
+    - [698, 3797.66]
   - - [384, 256, 36, 800]
-    - [621, 9151.75]
+    - [639, 9151.65]
   - - [192, 384, 36, 4096]
-    - [621, 8867.67]
+    - [639, 8867.57]
   - - [64, 64, 64, 1600]
-    - [673, 7931.84]
+    - [691, 7931.74]
   - - [256, 384, 64, 576]
-    - [653, 9745.9]
+    - [671, 9745.8]
   - - [512, 512, 64, 14]
-    - [636, 3638.28]
+    - [654, 3638.18]
   - - [512, 512, 36, 8]
-    - [611, 2279.61]
+    - [629, 2279.51]
   - - [512, 486, 64, 128]
-    - [627, 8337.93]
+    - [645, 8337.83]
   - - [1, 16, 64, 640]
-    - [661, 50.0512]
+    - [679, 49.9512]
   - - [64, 96, 64, 288]
-    - [686, 5708.07]
+    - [704, 5707.97]
   - - [96, 96, 36, 1568]
-    - [655, 6866.85]
+    - [673, 6866.75]
   - - [256, 256, 36, 128]
-    - [659, 7703.92]
+    - [677, 7703.82]
   - - [64, 128, 36, 53824]
-    - [647, 6331.41]
+    - [665, 6331.31]
   - - [256, 256, 36, 32]
-    - [643, 4648.96]
+    - [661, 4648.86]
   - - [192, 256, 64, 288]
-    - [687, 8987.89]
+    - [705, 8987.79]
   - - [256, 256, 36, 16]
-    - [657, 2912.81]
+    - [675, 2912.71]
   - - [128, 256, 36, 3200]
-    - [660, 8680.37]
+    - [678, 8680.27]
   - - [160, 320, 64, 512]
-    - [619, 8449.54]
+    - [637, 8449.44]
   - - [128, 160, 36, 512]
-    - [630, 7215.07]
+    - [648, 7214.97]
   - - [96, 96, 36, 2592]
-    - [625, 7104.89]
+    - [643, 7104.79]
   - - [64, 96, 64, 800]
-    - [655, 7268.42]
+    - [673, 7268.32]
   - - [147, 64, 36, 18816]
-    - [671, 7116.36]
+    - [689, 7116.26]
   - - [160, 320, 36, 512]
-    - [625, 7874.92]
+    - [643, 7874.82]
   - - [256, 512, 36, 4]
-    - [664, 1034.88]
+    - [682, 1034.78]
   - - [96, 128, 64, 946]
-    - [647, 7901.17]
+    - [665, 7901.07]
   - - [256, 324, 64, 1568]
-    - [652, 8589.63]
+    - [670, 8589.53]
   - - [128, 128, 64, 50]
-    - [643, 4070.66]
+    - [661, 4070.56]
   - - [35, 96, 36, 8960]
-    - [637, 4207.4]
+    - [655, 4207.3]
   - - [32, 64, 36, 43808]
-    - [678, 4390.91]
+    - [696, 4390.81]
   - - [160, 224, 36, 128]
-    - [625, 5447.02]
+    - [643, 5446.92]
   - - [64, 64, 64, 81]
-    - [650, 2391.28]
+    - [668, 2391.18]
   - - [256, 256, 36, 3200]
-    - [616, 9559.65]
+    - [634, 9559.55]
   - - [256, 256, 36, 210]
-    - [627, 8414.71]
+    - [645, 8414.61]
   - - [192, 384, 64, 576]
-    - [687, 9468.85]
+    - [705, 9468.75]
   - - [512, 512, 64, 800]
-    - [662, 10096.5]
+    - [680, 10096.4]
   - - [512, 24, 36, 800]
-    - [613, 4761.87]
+    - [631, 4761.77]
   - - [64, 64, 64, 13216]
-    - [674, 8491.51]
+    - [692, 8491.41]
   - - [192, 224, 64, 1152]
-    - [630, 8769.16]
+    - [648, 8769.06]
   - - [256, 256, 64, 1152]
-    - [652, 9988.19]
+    - [670, 9988.09]
   - - [512, 486, 64, 512]
-    - [662, 9254.77]
+    - [680, 9254.67]
   - - [128, 128, 36, 784]
-    - [625, 7468.16]
+    - [643, 7468.06]
   - - [256, 512, 64, 1600]
-    - [649, 10232.6]
+    - [667, 10232.5]
   - - [512, 512, 64, 9]
-    - [643, 2599.88]
+    - [661, 2599.78]
   - - [96, 128, 64, 288]
-    - [655, 6599.53]
+    - [673, 6599.43]
   - - [64, 96, 36, 512]
-    - [655, 5073.85]
+    - [673, 5073.75]
   - - [256, 512, 36, 1568]
-    - [687, 9637.91]
+    - [705, 9637.81]
   - - [128, 128, 64, 400]
-    - [687, 8192.1]
+    - [705, 8192.0]
   - - [128, 128, 64, 800]
-    - [687, 8716.44]
+    - [705, 8716.34]
   - - [96, 128, 36, 512]
-    - [675, 6757.03]
+    - [693, 6756.93]
   - - [16, 32, 36, 360]
-    - [638, 754.136]
+    - [656, 754.036]
   - - [128, 256, 64, 3200]
-    - [652, 10222.6]
+    - [670, 10222.5]
   - - [96, 128, 64, 800]
-    - [655, 7968.0]
+    - [673, 7967.9]
   - - [256, 512, 64, 4]
-    - [617, 1098.09]
+    - [635, 1097.99]
   - - [256, 256, 64, 450]
-    - [662, 9347.55]
+    - [680, 9347.45]
   - - [64, 64, 64, 3200]
-    - [673, 8518.18]
+    - [691, 8518.08]
   - - [192, 224, 64, 128]
-    - [633, 7035.27]
+    - [651, 7035.17]
   - - [128, 128, 64, 288]
-    - [687, 7751.38]
+    - [705, 7751.28]
   - - [256, 256, 64, 72]
-    - [643, 7489.93]
+    - [661, 7489.83]
   - - [96, 208, 36, 512]
-    - [655, 6939.21]
+    - [673, 6939.11]
   - - [128, 256, 36, 3136]
-    - [630, 8669.43]
+    - [648, 8669.33]
   - - [64, 64, 36, 3520]
-    - [625, 6007.57]
+    - [643, 6007.47]
   - - [64, 128, 36, 1568]
-    - [688, 6897.8]
+    - [706, 6897.7]
   - - [160, 320, 64, 242]
-    - [614, 7873.27]
+    - [632, 7873.17]
   - - [192, 192, 36, 512]
-    - [625, 7707.42]
+    - [643, 7707.32]
   - - [512, 512, 36, 512]
-    - [687, 9582.52]
+    - [705, 9582.42]
   - - [1, 16, 64, 10240]
-    - [639, 71.4511]
+    - [657, 71.3511]
   - - [128, 128, 36, 512]
-    - [625, 7149.48]
+    - [643, 7149.38]
   - - [512, 512, 36, 256]
-    - [616, 9384.5]
+    - [634, 9384.4]
   - - [512, 512, 36, 1024]
-    - [610, 9777.99]
+    - [628, 9777.89]
   - - [96, 208, 64, 1152]
-    - [688, 7851.0]
+    - [706, 7850.9]
   - - [128, 192, 64, 3200]
-    - [616, 9490.92]
+    - [634, 9490.82]
   - - [256, 256, 36, 4096]
-    - [621, 9585.56]
+    - [639, 9585.46]
   - - [160, 160, 64, 288]
-    - [655, 7299.9]
+    - [673, 7299.8]
   - - [256, 256, 64, 896]
-    - [652, 9850.43]
+    - [670, 9850.33]
   - - [128, 256, 64, 242]
-    - [687, 8391.48]
+    - [705, 8391.38]
   - - [128, 128, 36, 440]
-    - [630, 6274.82]
+    - [648, 6274.72]
   - - [96, 128, 36, 1568]
-    - [675, 7875.13]
+    - [693, 7875.03]
   - - [192, 384, 36, 1024]
-    - [621, 8715.82]
+    - [639, 8715.72]
   - - [64, 96, 36, 10368]
-    - [692, 7478.69]
+    - [710, 7478.59]
   - - [128, 256, 64, 100]
-    - [636, 7085.07]
+    - [654, 7084.97]
   - - [112, 224, 36, 2048]
-    - [629, 7556.02]
+    - [647, 7555.92]
   - - [384, 256, 64, 1152]
-    - [652, 10102.4]
+    - [670, 10102.3]
   - - [192, 384, 36, 128]
-    - [687, 7543.14]
+    - [705, 7543.04]
   - - [128, 128, 36, 7040]
-    - [660, 7600.7]
+    - [678, 7600.6]
   - - [128, 256, 64, 1568]
-    - [652, 10006.0]
+    - [670, 10005.9]
   - - [128, 128, 36, 1568]
-    - [644, 7848.4]
+    - [662, 7848.3]
   - - [128, 256, 64, 72]
-    - [667, 6553.7]
+    - [685, 6553.6]
   - - [256, 256, 36, 12544]
-    - [681, 9365.14]
+    - [699, 9365.04]
   - - [256, 256, 36, 105]
-    - [643, 7286.16]
+    - [661, 7286.06]
   - - [128, 256, 36, 392]
-    - [630, 7625.79]
+    - [648, 7625.69]
   - - [64, 64, 64, 5408]
-    - [673, 8882.77]
+    - [691, 8882.67]
   - - [3, 64, 36, 25088]
-    - [640, 529.042]
+    - [658, 528.942]
   - - [384, 256, 36, 1024]
-    - [687, 9182.85]
+    - [705, 9182.75]
   - - [35, 96, 36, 13440]
-    - [694, 4110.39]
+    - [712, 4110.29]
   - - [128, 256, 64, 1152]
-    - [652, 9804.97]
+    - [670, 9804.87]
   - - [256, 324, 64, 32]
-    - [665, 5043.73]
+    - [683, 5043.63]
   - - [160, 224, 64, 128]
-    - [679, 6046.25]
+    - [697, 6046.15]
   - - [192, 224, 36, 2592]
-    - [677, 8878.78]
+    - [695, 8878.68]
   - - [96, 96, 64, 1152]
-    - [655, 8035.55]
+    - [673, 8035.45]
   - - [32, 64, 36, 90]
-    - [612, 964.565]
+    - [630, 964.465]
   - - [64, 128, 64, 2888]
-    - [627, 9047.33]
+    - [645, 9047.23]
   - - [256, 384, 36, 800]
-    - [687, 9154.12]
+    - [705, 9154.02]
   - - [512, 512, 64, 4]
-    - [684, 1233.72]
+    - [702, 1233.62]
   - - [192, 320, 36, 128]
-    - [624, 7388.29]
+    - [642, 7388.19]
   - - [64, 128, 36, 480]
-    - [688, 5653.37]
+    - [706, 5653.27]
   - - [192, 384, 64, 242]
-    - [687, 9080.09]
+    - [705, 9079.99]
   - - [256, 486, 64, 32]
-    - [680, 5909.28]
+    - [698, 5909.18]
   - - [147, 64, 64, 9702]
-    - [689, 7319.79]
+    - [707, 7319.69]
   - - [512, 512, 64, 64]
-    - [623, 8179.12]
+    - [641, 8179.02]
   - - [64, 192, 64, 3698]
-    - [616, 9287.99]
+    - [634, 9287.89]
   - - [73, 192, 64, 10439]
-    - [647, 6668.12]
+    - [665, 6668.02]
   - - [1, 16, 36, 1440]
-    - [663, 33.5452]
+    - [681, 33.4452]
   - - [128, 256, 36, 512]
-    - [630, 7989.25]
+    - [648, 7989.15]
   - - [512, 512, 64, 576]
-    - [662, 9951.99]
+    - [680, 9951.89]
   - - [64, 64, 36, 12544]
-    - [678, 5872.87]
+    - [696, 5872.77]
   - - [128, 128, 36, 880]
-    - [675, 7597.36]
+    - [693, 7597.26]
   - - [192, 224, 36, 128]
-    - [633, 6451.3]
+    - [651, 6451.2]
   - - [64, 64, 64, 800]
-    - [673, 6916.83]
+    - [691, 6916.73]
   - - [64, 128, 36, 12544]
-    - [651, 6395.98]
+    - [669, 6395.88]
   - - [64, 64, 36, 1568]
-    - [625, 5536.76]
+    - [643, 5536.66]
   - - [160, 160, 36, 512]
-    - [625, 7345.36]
+    - [643, 7345.26]
   - - [512, 24, 64, 512]
-    - [615, 5242.98]
+    - [633, 5242.88]
   - - [3, 64, 36, 3136]
-    - [640, 475.452]
+    - [658, 475.352]
   - - [256, 256, 64, 9]
-    - [665, 2106.61]
+    - [683, 2106.51]
   - - [3, 64, 64, 11552]
-    - [668, 785.227]
+    - [686, 785.127]
   - - [128, 256, 36, 12544]
-    - [683, 8792.23]
+    - [701, 8792.13]
   - - [128, 128, 36, 3136]
-    - [644, 8098.56]
+    - [662, 8098.46]
   - - [256, 512, 36, 3136]
-    - [627, 9694.49]
+    - [645, 9694.39]
   - - [64, 64, 36, 196]
-    - [641, 2757.86]
+    - [659, 2757.76]
   - - [144, 288, 36, 512]
-    - [675, 7077.99]
+    - [693, 7077.89]
   - - [256, 24, 64, 32]
-    - [654, 1483.93]
+    - [672, 1483.83]
   - - [384, 384, 36, 800]
-    - [616, 9246.6]
+    - [634, 9246.5]
   - - [512, 512, 64, 1600]
-    - [662, 10277.4]
+    - [680, 10277.3]
   - - [112, 224, 36, 512]
-    - [630, 6744.88]
+    - [648, 6744.78]
   - - [128, 128, 36, 49]
-    - [636, 2716.39]
+    - [654, 2716.29]
   - - [512, 512, 36, 4]
-    - [664, 1156.62]
+    - [682, 1156.52]
   - - [35, 96, 64, 4235]
-    - [625, 4631.38]
+    - [643, 4631.28]
   - - [192, 384, 64, 450]
-    - [616, 9372.3]
+    - [634, 9372.2]
   - - [256, 256, 36, 1024]
-    - [687, 9346.74]
+    - [705, 9346.64]
   - - [112, 224, 64, 1152]
-    - [630, 7524.05]
+    - [648, 7523.95]
   - - [256, 512, 64, 400]
-    - [649, 9598.05]
+    - [667, 9597.95]
   - - [149, 32, 36, 19072]
-    - [694, 5811.9]
+    - [712, 5811.8]
   - - [128, 256, 36, 6272]
-    - [630, 8754.78]
+    - [648, 8754.68]
   - - [128, 192, 36, 1568]
-    - [655, 8195.2]
+    - [673, 8195.1]
   - - [256, 256, 36, 512]
-    - [687, 9074.32]
+    - [705, 9074.22]
   - - [256, 256, 64, 112]
-    - [687, 8305.65]
+    - [705, 8305.55]
   - - [512, 512, 64, 18]
-    - [680, 4324.12]
+    - [698, 4324.02]
   - - [256, 256, 64, 18]
-    - [643, 3547.91]
+    - [661, 3547.81]
   - - [256, 256, 64, 1568]
-    - [652, 10141.8]
+    - [670, 10141.7]
   - - [64, 96, 36, 1568]
-    - [673, 6805.76]
+    - [691, 6805.66]
   - - [384, 256, 36, 4096]
-    - [687, 9311.2]
+    - [705, 9311.1]
   - - [256, 512, 64, 800]
-    - [662, 9998.45]
+    - [680, 9998.35]
   - - [256, 384, 36, 2048]
-    - [687, 9285.44]
+    - [705, 9285.34]
   - - [3, 64, 36, 200704]
-    - [669, 547.475]
+    - [687, 547.375]
   - - [384, 384, 64, 2304]
-    - [610, 9901.78]
+    - [628, 9901.68]
   - - [160, 320, 64, 128]
-    - [646, 7113.91]
+    - [664, 7113.81]
   - - [512, 512, 36, 528]
-    - [616, 9567.75]
+    - [634, 9567.65]
   - - [160, 320, 36, 128]
-    - [647, 6411.23]
+    - [665, 6411.13]
   - - [96, 96, 64, 800]
-    - [655, 7690.11]
+    - [673, 7690.01]
   - - [256, 512, 36, 49]
-    - [643, 6721.35]
+    - [661, 6721.25]
   - - [384, 384, 64, 450]
-    - [616, 9523.63]
+    - [634, 9523.53]
   - - [3, 64, 64, 23104]
-    - [668, 801.721]
+    - [686, 801.621]
   - - [256, 256, 64, 3200]
-    - [652, 10300.5]
+    - [670, 10300.4]
   - - [128, 192, 36, 512]
-    - [630, 7499.85]
+    - [648, 7499.75]
   - - [192, 192, 64, 288]
-    - [687, 8774.34]
+    - [705, 8774.24]
   - - [96, 208, 64, 242]
-    - [647, 5902.09]
+    - [665, 5901.99]
   - - [256, 16, 36, 3200]
-    - [676, 3807.87]
+    - [694, 3807.77]
   - - [512, 512, 64, 8]
-    - [654, 2379.85]
+    - [672, 2379.75]
   - - [64, 128, 64, 5776]
-    - [627, 9332.84]
+    - [645, 9332.74]
   - - [512, 512, 64, 288]
-    - [616, 9522.09]
+    - [634, 9521.99]
   - - [256, 16, 36, 32]
-    - [672, 766.105]
+    - [690, 766.005]
   - - [128, 192, 64, 288]
-    - [687, 8527.68]
+    - [705, 8527.58]
   - - [32, 64, 64, 640]
-    - [655, 4660.44]
+    - [673, 4660.34]
   - - [64, 64, 36, 392]
-    - [655, 3686.5]
+    - [673, 3686.4]
   - - [384, 384, 36, 1024]
-    - [621, 9282.58]
+    - [639, 9282.48]
   - - [64, 64, 36, 11552]
-    - [685, 5904.88]
+    - [703, 5904.78]
   - - [96, 128, 36, 6272]
-    - [675, 8351.09]
+    - [693, 8350.99]
   - - [128, 256, 36, 16]
-    - [657, 2144.91]
+    - [675, 2144.81]
   - - [256, 256, 64, 288]
-    - [687, 9140.23]
+    - [705, 9140.13]
   - - [64, 64, 64, 1652]
-    - [673, 7766.63]
+    - [691, 7766.53]
   - - [256, 384, 36, 1024]
-    - [621, 9203.37]
+    - [639, 9203.27]
   - - [96, 128, 64, 3200]
-    - [690, 8866.3]
+    - [708, 8866.2]
   - - [256, 324, 36, 3200]
-    - [629, 8194.35]
+    - [647, 8194.25]
   - - [128, 192, 64, 800]
-    - [687, 9198.13]
+    - [705, 9198.03]
   - - [64, 128, 64, 10]
-    - [628, 851.217]
+    - [646, 851.117]
   - - [96, 208, 64, 288]
-    - [655, 6667.68]
+    - [673, 6667.58]
   - - [64, 96, 36, 2592]
-    - [637, 7216.98]
+    - [655, 7216.88]
   - - [64, 128, 64, 160]
-    - [666, 5191.07]
+    - [684, 5190.97]
   - - [192, 384, 64, 512]
-    - [616, 9446.14]
+    - [634, 9446.04]
   - - [64, 64, 36, 6272]
-    - [625, 6212.11]
+    - [643, 6212.01]
   - - [512, 24, 36, 288]
-    - [622, 3922.57]
+    - [640, 3922.47]
   - - [128, 128, 64, 1568]
-    - [616, 9037.96]
+    - [634, 9037.86]
   - - [112, 224, 64, 242]
-    - [686, 6399.36]
+    - [704, 6399.26]
   - - [128, 256, 64, 1600]
-    - [652, 10010.4]
+    - [670, 10010.3]
   - - [32, 32, 64, 20000]
-    - [620, 4378.51]
+    - [638, 4378.41]
   - - [160, 192, 64, 288]
-    - [647, 7803.73]
+    - [665, 7803.63]
   - - [512, 24, 64, 128]
-    - [608, 3733.9]
+    - [626, 3733.8]
   - - [512, 512, 36, 32]
-    - [643, 5935.44]
+    - [661, 5935.34]
   - - [3, 64, 36, 100352]
-    - [640, 542.883]
+    - [658, 542.783]
   - - [3, 64, 64, 1444]
-    - [669, 674.259]
+    - [687, 674.159]
   - - [512, 512, 36, 3136]
-    - [610, 9921.2]
+    - [628, 9921.1]
   - - [128, 256, 64, 6400]
-    - [670, 10349.4]
+    - [688, 10349.3]
   - - [256, 256, 36, 2048]
-    - [687, 9519.09]
+    - [705, 9518.99]
   - - [128, 160, 64, 288]
-    - [630, 7549.85]
+    - [648, 7549.75]
   - - [256, 256, 64, 6400]
-    - [652, 10392.7]
+    - [670, 10392.6]
   - - [32, 64, 64, 20000]
-    - [678, 6493.96]
+    - [696, 6493.86]
   - - [256, 256, 36, 1680]
-    - [627, 9513.39]
+    - [645, 9513.29]
   - - [128, 128, 64, 210]
-    - [687, 7094.2]
+    - [705, 7094.1]
   - - [192, 384, 36, 2048]
-    - [616, 8818.75]
+    - [634, 8818.65]
   - - [256, 256, 64, 144]
-    - [687, 8608.71]
+    - [705, 8608.61]
   - - [384, 384, 36, 4096]
-    - [621, 9357.04]
+    - [639, 9356.94]
   - - [160, 320, 64, 1152]
-    - [647, 8749.58]
+    - [665, 8749.48]
   - - [384, 256, 36, 2048]
-    - [687, 9279.73]
+    - [705, 9279.63]
   - - [256, 512, 36, 392]
-    - [687, 9252.24]
+    - [705, 9252.14]
   - - [256, 512, 64, 50]
-    - [643, 7511.39]
+    - [661, 7511.29]
   - - [73, 192, 36, 23360]
-    - [691, 5803.03]
+    - [709, 5802.93]
   - - [3, 64, 36, 50176]
-    - [640, 542.137]
+    - [658, 542.037]
   - - [384, 384, 36, 2048]
-    - [616, 9325.9]
+    - [634, 9325.8]
   - - [256, 384, 64, 450]
-    - [662, 9528.76]
+    - [680, 9528.66]
   - - [192, 320, 64, 128]
-    - [621, 8399.91]
+    - [639, 8399.81]
   - - [128, 256, 36, 32]
-    - [636, 3276.9]
+    - [654, 3276.8]
   - - [160, 192, 36, 512]
-    - [675, 7752.44]
+    - [693, 7752.34]
   - - [512, 512, 64, 256]
-    - [627, 9473.74]
+    - [645, 9473.64]
   - - [256, 512, 64, 32]
-    - [665, 6391.42]
+    - [683, 6391.32]
   - - [384, 384, 64, 576]
-    - [616, 9614.89]
+    - [634, 9614.79]
   - - [64, 64, 64, 648]
-    - [673, 6282.25]
+    - [691, 6282.15]
   - - [512, 486, 36, 288]
-    - [687, 8625.03]
+    - [705, 8624.93]
   - - [32, 64, 36, 1440]
-    - [625, 3961.6]
+    - [643, 3961.5]
   - - [144, 288, 64, 242]
-    - [647, 6347.12]
+    - [665, 6347.02]
   - - [384, 256, 64, 576]
-    - [652, 9775.34]
+    - [670, 9775.24]
   - - [512, 512, 36, 64]
-    - [623, 7791.38]
+    - [641, 7791.28]
   - - [448, 384, 64, 128]
-    - [616, 9132.33]
+    - [634, 9132.23]
   - - [64, 128, 64, 722]
-    - [666, 8047.21]
+    - [684, 8047.11]
   - - [144, 288, 64, 288]
-    - [675, 6859.5]
+    - [693, 6859.4]
   - - [512, 512, 64, 224]
-    - [687, 9427.39]
+    - [705, 9427.29]
   - - [112, 224, 64, 288]
-    - [686, 6737.02]
+    - [704, 6736.92]
   - - [384, 384, 64, 1152]
-    - [610, 9820.56]
+    - [628, 9820.46]
   - - [448, 384, 36, 128]
-    - [687, 8761.41]
+    - [705, 8761.31]
   - - [64, 64, 64, 100]
-    - [633, 2708.2]
+    - [651, 2708.1]
   - - [256, 486, 36, 128]
-    - [659, 7640.14]
+    - [677, 7640.04]
   - - [64, 96, 64, 4608]
-    - [688, 8351.59]
+    - [706, 8351.49]
   - - [16, 32, 64, 160]
-    - [612, 736.46]
+    - [630, 736.36]
   - - [64, 192, 36, 6272]
-    - [688, 8041.29]
+    - [706, 8041.19]
   - - [64, 64, 64, 200]
-    - [641, 3924.41]
+    - [659, 3924.31]
   - - [256, 256, 36, 800]
-    - [687, 9299.65]
+    - [705, 9299.55]
   - - [64, 128, 36, 6272]
-    - [685, 6816.46]
+    - [703, 6816.36]
   - - [32, 64, 64, 40]
-    - [632, 885.722]
+    - [650, 885.622]
   - - [256, 16, 64, 32]
-    - [682, 1205.36]
+    - [700, 1205.26]
   - - [192, 384, 36, 800]
-    - [621, 8673.98]
+    - [639, 8673.88]
   - - [128, 128, 36, 3200]
-    - [655, 8538.99]
+    - [673, 8538.89]
   - - [256, 256, 36, 256]
-    - [627, 8454.46]
+    - [645, 8454.36]
   - - [192, 384, 64, 1152]
-    - [616, 9589.11]
+    - [634, 9589.01]
   - - [128, 256, 64, 200]
-    - [626, 8141.22]
+    - [644, 8141.12]
   - - [64, 96, 64, 1152]
-    - [655, 7620.98]
+    - [673, 7620.88]
   - - [128, 128, 36, 392]
-    - [630, 6175.61]
+    - [648, 6175.51]
   - - [80, 192, 36, 10368]
-    - [678, 6497.26]
+    - [696, 6497.16]
   - - [224, 224, 36, 128]
-    - [688, 5826.99]
+    - [706, 5826.89]
   - - [512, 512, 64, 28]
-    - [643, 5728.91]
+    - [661, 5728.81]
   - - [256, 16, 64, 1568]
-    - [658, 4637.3]
+    - [676, 4637.2]
   - - [144, 288, 64, 1152]
-    - [675, 7784.34]
+    - [693, 7784.24]
   - - [256, 256, 64, 576]
-    - [652, 9596.22]
+    - [670, 9596.12]
   - - [64, 128, 36, 784]
-    - [688, 6059.09]
+    - [706, 6058.99]
   - - [256, 24, 36, 128]
-    - [622, 2239.94]
+    - [640, 2239.84]
   - - [256, 256, 64, 2304]
-    - [652, 10225.8]
+    - [670, 10225.7]
   - - [192, 384, 36, 512]
-    - [687, 8549.13]
+    - [705, 8549.03]
   - - [16, 32, 64, 2560]
-    - [640, 2153.23]
+    - [658, 2153.13]
   - - [256, 512, 36, 32]
-    - [665, 5702.33]
+    - [683, 5702.23]
   - - [512, 512, 64, 128]
-    - [687, 9084.21]
+    - [705, 9084.11]
   - - [128, 128, 64, 200]
-    - [624, 6972.01]
+    - [642, 6971.91]
   - - [512, 512, 64, 32]
-    - [636, 6248.6]
+    - [654, 6248.5]
   - - [128, 256, 36, 196]
-    - [636, 6628.86]
+    - [654, 6628.76]
   - - [8, 384, 64, 6600]
-    - [668, 2733.99]
+    - [686, 2733.89]
   - - [149, 32, 64, 8195]
-    - [630, 6051.01]
+    - [648, 6050.91]
   - - [35, 96, 64, 6160]
-    - [675, 4689.45]
+    - [693, 4689.35]
   - - [64, 64, 36, 1760]
-    - [625, 5622.34]
+    - [643, 5622.24]
   - - [196, 528, 32, 32]
-    - [708, 4088.51]
+    - [726, 4088.41]
   - - [5329, 64, 32, 80]
-    - [701, 8331.24]
+    - [719, 8331.14]
   - - [64, 2880, 1, 320]
-    - [752, 4362.7]
+    - [770, 4362.6]
   - - [49, 832, 32, 256]
-    - [715, 5618.73]
-  - - [3136, 64, 64, 64]
-    - [701, 8457.75]
+    - [733, 5618.63]
   - - [196, 512, 32, 24]
-    - [702, 3621.83]
+    - [720, 3621.73]
   - - [289, 1120, 1, 160]
-    - [698, 3302.96]
+    - [716, 3302.86]
   - - [1225, 192, 32, 32]
-    - [706, 6194.67]
+    - [724, 6194.57]
   - - [64, 2048, 32, 384]
-    - [729, 9541.64]
+    - [747, 9541.54]
   - - [1001, 1536, 1, 32]
-    - [700, 3575.77]
+    - [718, 3575.67]
   - - [289, 1792, 1, 320]
-    - [723, 5140.43]
-  - - [3136, 256, 64, 64]
-    - [724, 9310.22]
+    - [741, 5140.33]
   - - [1001, 1024, 1, 32]
-    - [695, 2733.5]
+    - [713, 2733.4]
   - - [196, 480, 32, 64]
-    - [756, 5070.52]
+    - [774, 5070.42]
   - - [64, 1728, 1, 320]
-    - [753, 3205.67]
+    - [771, 3205.57]
   - - [49, 832, 32, 160]
-    - [757, 4988.92]
-  - - [49, 2048, 64, 512]
-    - [727, 7370.41]
+    - [775, 4988.82]
   - - [49, 832, 32, 384]
-    - [715, 5902.05]
+    - [733, 5901.95]
   - - [289, 896, 1, 192]
-    - [741, 3452.69]
+    - [759, 3452.59]
   - - [289, 1024, 32, 384]
-    - [760, 8902.52]
+    - [778, 8902.42]
   - - [784, 192, 32, 96]
-    - [771, 7853.73]
+    - [789, 7853.63]
   - - [50176, 256, 1, 128]
-    - [734, 9041.93]
+    - [752, 9041.83]
   - - [289, 1024, 32, 256]
-    - [769, 8660.82]
+    - [787, 8660.72]
   - - [289, 1024, 32, 192]
-    - [758, 8433.45]
+    - [776, 8433.35]
   - - [12544, 512, 1, 256]
-    - [718, 9187.44]
+    - [736, 9187.34]
   - - [1225, 1728, 1, 192]
-    - [722, 7720.95]
+    - [740, 7720.85]
   - - [196, 480, 32, 96]
-    - [767, 5662.6]
+    - [785, 5662.5]
   - - [196, 512, 32, 144]
-    - [761, 6531.48]
+    - [779, 6531.38]
   - - [784, 400, 1, 32]
-    - [696, 1280.1]
+    - [714, 1280.0]
   - - [289, 768, 32, 128]
-    - [762, 7913.71]
+    - [780, 7913.61]
   - - [5329, 576, 1, 96]
-    - [705, 7563.56]
+    - [723, 7563.46]
   - - [49, 1200, 1, 128]
-    - [749, 1011.71]
+    - [767, 1011.61]
   - - [64, 1536, 32, 256]
-    - [763, 9159.64]
+    - [781, 9159.54]
   - - [289, 2592, 1, 384]
-    - [731, 6002.81]
+    - [749, 6002.71]
   - - [196, 528, 32, 128]
-    - [766, 5987.2]
+    - [784, 5987.1]
   - - [64, 2048, 32, 448]
-    - [729, 9669.97]
-  - - [196, 1024, 64, 256]
-    - [768, 7819.04]
+    - [747, 9669.87]
   - - [5329, 448, 1, 64]
-    - [701, 6201.12]
+    - [719, 6201.02]
   - - [784, 256, 32, 64]
-    - [703, 7623.28]
+    - [721, 7623.18]
   - - [784, 192, 32, 32]
-    - [708, 5874.36]
+    - [726, 5874.26]
   - - [21609, 288, 1, 32]
-    - [721, 5296.6]
+    - [739, 5296.5]
   - - [784, 256, 32, 32]
-    - [699, 6235.56]
+    - [717, 6235.46]
   - - [5041, 720, 1, 192]
-    - [717, 8141.08]
+    - [735, 8140.98]
   - - [289, 2016, 1, 256]
-    - [714, 5404.15]
+    - [732, 5404.05]
   - - [196, 512, 32, 128]
-    - [759, 6366.92]
+    - [777, 6366.82]
   - - [289, 768, 32, 160]
-    - [761, 8253.98]
+    - [779, 8253.88]
   - - [64, 1536, 32, 384]
-    - [732, 9508.6]
+    - [750, 9508.5]
   - - [64, 1280, 32, 320]
-    - [732, 9070.83]
+    - [750, 9070.73]
   - - [289, 896, 1, 128]
-    - [742, 2917.78]
+    - [760, 2917.68]
   - - [289, 3456, 1, 384]
-    - [722, 7275.01]
+    - [740, 7274.91]
   - - [196, 800, 1, 64]
-    - [744, 1393.88]
+    - [762, 1393.78]
   - - [64, 1280, 32, 384]
-    - [728, 9225.11]
+    - [746, 9225.01]
   - - [64, 1344, 1, 512]
-    - [747, 3041.55]
+    - [765, 3041.45]
   - - [1001, 4096, 1, 512]
-    - [728, 9391.87]
+    - [746, 9391.77]
   - - [1225, 192, 32, 64]
-    - [701, 7729.39]
+    - [719, 7729.29]
   - - [64, 1152, 1, 384]
-    - [751, 2440.75]
+    - [769, 2440.65]
   - - [729, 1600, 1, 192]
-    - [713, 6827.81]
+    - [731, 6827.71]
   - - [289, 1344, 1, 192]
-    - [711, 4439.14]
+    - [729, 4439.04]
   - - [784, 192, 32, 16]
-    - [738, 3663.14]
+    - [756, 3663.04]
   - - [3136, 1024, 1, 2048]
-    - [720, 9071.87]
+    - [738, 9071.77]
   - - [64, 1152, 1, 448]
-    - [748, 2564.55]
+    - [766, 2564.45]
   - - [49, 832, 32, 128]
-    - [711, 4733.26]
+    - [729, 4733.16]
   - - [784, 256, 32, 128]
-    - [724, 8471.7]
+    - [742, 8471.6]
   - - [49, 800, 1, 128]
-    - [746, 633.635]
+    - [764, 633.535]
   - - [196, 512, 32, 32]
-    - [708, 4354.36]
+    - [726, 4354.26]
   - - [1225, 384, 32, 96]
-    - [725, 8751.73]
+    - [743, 8751.63]
   - - [5041, 576, 1, 96]
-    - [707, 7067.73]
+    - [725, 7067.63]
   - - [49, 832, 32, 48]
-    - [740, 3316.82]
-  - - [3136, 64, 64, 256]
-    - [762, 9722.0]
+    - [758, 3316.72]
   - - [5329, 160, 32, 64]
-    - [764, 8159.94]
+    - [782, 8159.84]
   - - [1225, 288, 32, 48]
-    - [754, 6673.75]
+    - [772, 6673.65]
   - - [4096, 9216, 1, 512]
-    - [736, 10117.0]
+    - [754, 10116.9]
   - - [196, 480, 32, 192]
-    - [765, 6388.56]
+    - [783, 6388.46]
   - - [64, 1152, 1, 256]
-    - [752, 1982.7]
+    - [770, 1982.6]
   - - [3136, 1024, 1, 512]
-    - [720, 8745.67]
+    - [738, 8745.57]
   - - [49, 832, 32, 32]
-    - [739, 2717.97]
+    - [757, 2717.87]
   - - [784, 192, 32, 64]
-    - [703, 7216.42]
+    - [721, 7216.32]
   - - [289, 1024, 32, 128]
-    - [726, 7970.6]
+    - [744, 7970.5]
   - - [289, 768, 32, 192]
-    - [770, 8327.37]
+    - [788, 8327.27]
   - - [289, 1120, 1, 192]
-    - [710, 3717.0]
+    - [728, 3716.9]
   - - [196, 512, 32, 112]
-    - [716, 6252.91]
+    - [734, 6252.81]
   - - [1001, 2048, 1, 32]
-    - [704, 4000.19]
+    - [722, 4000.09]
   - - [1225, 288, 32, 64]
-    - [764, 7208.14]
+    - [782, 7208.04]
   - - [196, 600, 1, 64]
-    - [743, 1094.05]
+    - [761, 1093.95]
   - - [1225, 384, 32, 192]
-    - [725, 9332.76]
+    - [743, 9332.66]
   - - [50176, 256, 1, 512]
-    - [735, 9833.64]
+    - [753, 9833.54]
   - - [196, 512, 32, 160]
-    - [762, 6614.44]
+    - [780, 6614.34]
   - - [4096, 4096, 1, 512]
-    - [733, 10032.3]
+    - [751, 10032.2]
   - - [49, 832, 32, 192]
-    - [711, 5244.63]
+    - [729, 5244.53]
   - - [1225, 256, 32, 64]
-    - [701, 7972.45]
+    - [719, 7972.35]
   - - [64, 2048, 32, 320]
-    - [729, 9404.37]
+    - [747, 9404.27]
   - - [196, 480, 32, 16]
-    - [755, 2724.59]
+    - [773, 2724.49]
   - - [1225, 256, 32, 48]
-    - [703, 7100.48]
+    - [721, 7100.38]
   - - [64, 1280, 32, 448]
-    - [728, 9344.51]
+    - [746, 9344.41]
   - - [1225, 1200, 1, 64]
-    - [697, 5157.99]
+    - [715, 5157.89]
   - - [1225, 384, 32, 64]
-    - [701, 8220.06]
+    - [719, 8219.96]
   - - [12544, 512, 1, 1024]
-    - [720, 9672.82]
+    - [738, 9672.72]
   - - [64, 1280, 32, 192]
-    - [716, 8525.11]
+    - [734, 8525.01]
   - - [196, 512, 32, 64]
-    - [701, 5489.44]
+    - [719, 5489.34]
   - - [289, 1792, 1, 256]
-    - [719, 4831.71]
+    - [737, 4831.61]
   - - [196, 528, 32, 256]
-    - [737, 6453.92]
-  - - [49, 512, 64, 2048]
-    - [772, 7549.08]
+    - [755, 6453.82]
   - - [64, 2048, 32, 192]
-    - [724, 8955.91]
-  - - [784, 512, 64, 128]
-    - [724, 9160.83]
-  - - [784, 128, 64, 512]
-    - [731, 9280.79]
+    - [742, 8955.81]
   - - [196, 528, 32, 160]
-    - [765, 6161.25]
+    - [783, 6161.15]
   - - [1225, 192, 32, 48]
-    - [701, 7237.02]
+    - [719, 7236.92]
   - - [64, 1728, 1, 192]
-    - [751, 2480.67]
+    - [769, 2480.57]
   - - [1001, 2048, 1, 64]
-    - [777, 5714.52]
+    - [795, 5714.42]
   - - [5329, 64, 128, 80]
-    - [784, 8835.39]
+    - [802, 8835.29]
   - - [64, 1280, 128, 448]
-    - [782, 10020.6]
+    - [800, 10020.5]
   - - [289, 768, 128, 128]
-    - [785, 8542.81]
+    - [803, 8542.71]
   - - [1225, 192, 128, 64]
-    - [774, 8444.87]
+    - [792, 8444.77]
   - - [1225, 288, 128, 48]
-    - [787, 7244.76]
+    - [805, 7244.66]
   - - [289, 768, 128, 192]
-    - [789, 8794.59]
+    - [807, 8794.49]
   - - [289, 768, 128, 160]
-    - [786, 8705.43]
+    - [804, 8705.33]
   - - [64, 2048, 128, 192]
-    - [780, 9780.36]
+    - [798, 9780.26]
   - - [64, 1280, 128, 384]
-    - [783, 9951.0]
+    - [801, 9950.9]
   - - [1225, 256, 128, 48]
-    - [775, 8273.71]
+    - [793, 8273.61]
   - - [1225, 192, 128, 48]
-    - [775, 8140.42]
+    - [793, 8140.32]
   - - [1225, 288, 128, 64]
-    - [787, 7886.31]
+    - [805, 7886.21]
   - - [64, 1280, 128, 320]
-    - [779, 9894.66]
+    - [797, 9894.56]
   - - [1225, 256, 128, 64]
-    - [780, 8572.61]
+    - [798, 8572.51]
   - - [1001, 2048, 1, 128]
-    - [781, 7289.16]
+    - [799, 7289.06]
   - - [1225, 192, 128, 32]
-    - [776, 7104.67]
+    - [794, 7104.57]
   - - [64, 1280, 128, 192]
-    - [788, 9642.18]
+    - [806, 9642.08]
   - - [1001, 1536, 1, 64]
-    - [778, 5146.66]
+    - [796, 5146.56]
+  - - [2048, 2048, 1, 1024]
+    - [810, 9940.21]
+  - - [3200, 2048, 1, 1024]
+    - [809, 9899.24]
+  - - [4096, 4096, 1, 1024]
+    - [811, 10222.2]
+  - - [2048, 256, 1, 1024]
+    - [808, 8452.0]
+  - - [257, 4096, 1, 1024]
+    - [809, 8353.5]
+  - - [64, 2048, 64, 192]
+    - [814, 9434.24]
+  - - [1225, 192, 64, 48]
+    - [817, 7799.38]
+  - - [1225, 288, 64, 48]
+    - [819, 7030.37]
+  - - [3136, 64, 64, 64]
+    - [812, 7941.3]
+  - - [1225, 192, 64, 32]
+    - [818, 6772.91]
+  - - [1225, 256, 64, 48]
+    - [817, 8022.81]
+  - - [64, 2048, 64, 384]
+    - [813, 9859.28]
+  - - [64, 1280, 64, 384]
+    - [813, 9675.44]
+  - - [64, 1280, 64, 192]
+    - [813, 9320.68]
+  - - [1225, 192, 64, 64]
+    - [817, 8180.87]
+  - - [3136, 256, 64, 64]
+    - [814, 8966.88]
+  - - [1225, 288, 64, 64]
+    - [819, 7567.39]
+  - - [5329, 64, 64, 80]
+    - [816, 8634.33]
+  - - [64, 1280, 64, 448]
+    - [813, 9702.62]
+  - - [1225, 256, 64, 64]
+    - [817, 8306.43]
+  - - [3136, 64, 64, 256]
+    - [815, 9431.89]
+  - - [64, 1280, 64, 320]
+    - [813, 9754.2]
+  - - [64, 2048, 64, 320]
+    - [813, 9765.55]
+  - - [64, 2048, 64, 448]
+    - [813, 9948.37]
 - null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Ailk_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Ailk_Bljk_CB.yaml
new file mode 100644
index 000000000..86c4c6789
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Ailk_Bljk_CB.yaml
@@ -0,0 +1,493 @@
+- MinimumRequiredVersion: 4.10.0
+- vega20
+- gfx906
+- - Device 66a0
+  - Device 66a1
+  - Device 66a7
+  - Vega 20
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA:
+  - 0
+  - 3
+  - 2
+  IndexAssignmentsB:
+  - 3
+  - 1
+  - 2
+  IndexAssignmentsLD:
+  - 4
+  - 5
+  - 6
+  - 7
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 0
+  IndicesBatch:
+  - 2
+  IndicesFree:
+  - 0
+  - 1
+  IndicesSummation:
+  - 3
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 0
+      - 3
+      - 2
+      IndexAssignmentsB:
+      - 3
+      - 1
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bljk_CB_MT64x64x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 4
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 4
+    LVPB: 64
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 0
+      - 3
+      - 2
+      IndexAssignmentsB:
+      - 3
+      - 1
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bljk_CB_MT64x64x4_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+- - 2
+  - 3
+  - 0
+  - 1
+- - - - 64
+      - 64
+      - 1
+      - 256
+      - 64
+      - 64
+      - 64
+      - 256
+    - - 0
+      - 117.685
+  - - - 1
+      - 1
+      - 1
+      - 256
+      - 1
+      - 1
+      - 1
+      - 256
+    - - 1
+      - 0.0265836
+  - - - 1
+      - 64
+      - 1
+      - 256
+      - 1
+      - 1
+      - 1
+      - 256
+    - - 1
+      - 1.2911
+  - - - 64
+      - 1
+      - 1
+      - 256
+      - 64
+      - 64
+      - 64
+      - 256
+    - - 1
+      - 1.6996
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Ailk_Bljk_SB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Ailk_Bljk_SB.yaml
index 3a6e9917c..9af2a05c1 100644
--- a/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Ailk_Bljk_SB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Ailk_Bljk_SB.yaml
@@ -172,7 +172,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id001 [8, 2]
+    ThreadTile: [8, 2]
     ThreadTile0: 8
     ThreadTile1: 2
     ThreadTileA: 8
@@ -183,7 +183,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id002 [16, 8, 2]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -320,7 +320,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [8, 2]
     ThreadTile0: 8
     ThreadTile1: 2
     ThreadTileA: 8
@@ -331,7 +331,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -468,7 +468,7 @@
     SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: &id005 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -479,7 +479,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id004 [32, 4, 2]
+    WorkGroup: [32, 4, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -612,7 +612,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id003 [4, 2]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -623,7 +623,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -756,7 +756,7 @@
     SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -767,7 +767,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
+    WorkGroup: [32, 4, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -900,7 +900,7 @@
     SubGroupA: 32
     SubGroupB: 2
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -911,7 +911,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id007 [32, 2, 4]
+    WorkGroup: [32, 2, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1044,7 +1044,7 @@
     SubGroupA: 16
     SubGroupB: 2
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -1055,7 +1055,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id006 [16, 2, 8]
+    WorkGroup: [16, 2, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1192,7 +1192,7 @@
     SubGroupA: 16
     SubGroupB: 2
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -1203,7 +1203,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id006
+    WorkGroup: [16, 2, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1336,7 +1336,7 @@
     SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: &id008 [2, 2]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -1347,7 +1347,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
+    WorkGroup: [32, 4, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1480,7 +1480,7 @@
     SubGroupA: 32
     SubGroupB: 2
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -1491,7 +1491,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id007
+    WorkGroup: [32, 2, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1628,7 +1628,7 @@
     SubGroupA: 8
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [8, 2]
     ThreadTile0: 8
     ThreadTile1: 2
     ThreadTileA: 8
@@ -1772,7 +1772,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id008
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -1916,7 +1916,7 @@
     SubGroupA: 32
     SubGroupB: 2
     SuppresssNoLoadLoop: false
-    ThreadTile: *id008
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -1927,7 +1927,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id007
+    WorkGroup: [32, 2, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2060,7 +2060,7 @@
     SubGroupA: 16
     SubGroupB: 2
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -2071,7 +2071,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006
+    WorkGroup: [16, 2, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2356,7 +2356,7 @@
     SubGroupA: 12
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id009 [3, 3]
+    ThreadTile: [3, 3]
     ThreadTile0: 3
     ThreadTile1: 3
     ThreadTileA: 3
@@ -2504,7 +2504,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [3, 3]
     ThreadTile0: 3
     ThreadTile1: 3
     ThreadTileA: 3
@@ -2652,7 +2652,7 @@
     SubGroupA: 8
     SubGroupB: 6
     SuppresssNoLoadLoop: false
-    ThreadTile: &id011 [6, 4]
+    ThreadTile: [6, 4]
     ThreadTile0: 6
     ThreadTile1: 4
     ThreadTileA: 6
@@ -2663,7 +2663,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id010 [8, 6, 4]
+    WorkGroup: [8, 6, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2811,7 +2811,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: *id010
+    WorkGroup: [8, 6, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2948,7 +2948,7 @@
     SubGroupA: 8
     SubGroupB: 6
     SuppresssNoLoadLoop: false
-    ThreadTile: *id011
+    ThreadTile: [6, 4]
     ThreadTile0: 6
     ThreadTile1: 4
     ThreadTileA: 6
@@ -2959,7 +2959,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id010
+    WorkGroup: [8, 6, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3096,7 +3096,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: &id012 [2, 2]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -3107,7 +3107,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id017 [16, 4, 1]
+    WorkGroup: [16, 4, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3244,7 +3244,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -3255,7 +3255,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id013 [8, 8, 1]
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3392,7 +3392,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id016 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -3403,7 +3403,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3551,7 +3551,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3688,7 +3688,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -3699,7 +3699,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id014 [16, 8, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3836,7 +3836,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id015 [4, 2]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -3847,7 +3847,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3984,7 +3984,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -3995,7 +3995,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4132,7 +4132,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -4143,7 +4143,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4280,7 +4280,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -4291,7 +4291,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4428,7 +4428,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -4439,7 +4439,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4576,7 +4576,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -4587,7 +4587,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4724,7 +4724,7 @@
     SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -4872,7 +4872,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -4883,7 +4883,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5020,7 +5020,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -5031,7 +5031,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5168,7 +5168,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -5179,7 +5179,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5316,7 +5316,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -5327,7 +5327,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5464,7 +5464,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -5475,7 +5475,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5612,7 +5612,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -5623,7 +5623,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5760,7 +5760,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -5771,7 +5771,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5908,7 +5908,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -5919,7 +5919,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id017
+    WorkGroup: [16, 4, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6056,7 +6056,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id018 [2, 2]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -6067,7 +6067,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id019 [8, 8, 2]
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6204,7 +6204,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id021 [8, 4]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -6215,7 +6215,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id024 [16, 8, 2]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6352,7 +6352,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -6363,7 +6363,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6500,7 +6500,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -6511,7 +6511,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6648,7 +6648,7 @@
     SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: &id020 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -6659,7 +6659,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id025 [32, 4, 2]
+    WorkGroup: [32, 4, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6796,7 +6796,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -6807,7 +6807,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id026 [16, 4, 4]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6944,7 +6944,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -6955,7 +6955,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7092,7 +7092,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id022 [4, 2]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -7103,7 +7103,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7240,7 +7240,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -7251,7 +7251,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7388,7 +7388,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -7399,7 +7399,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7536,7 +7536,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -7547,7 +7547,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id023 [8, 8, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7684,7 +7684,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -7695,7 +7695,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7832,7 +7832,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -7843,7 +7843,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id024
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7980,7 +7980,7 @@
     SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -7991,7 +7991,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id025
+    WorkGroup: [32, 4, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8128,7 +8128,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -8139,7 +8139,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8276,7 +8276,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -8287,7 +8287,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8424,7 +8424,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -8435,7 +8435,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8572,7 +8572,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -8583,7 +8583,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8720,7 +8720,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -8731,7 +8731,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8868,7 +8868,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -8879,7 +8879,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9016,7 +9016,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -9027,7 +9027,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9164,7 +9164,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -9175,7 +9175,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id024
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9312,7 +9312,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -9323,7 +9323,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id024
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9460,7 +9460,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id027 [8, 8]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -9471,7 +9471,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id024
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9608,7 +9608,7 @@
     SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -9619,7 +9619,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id025
+    WorkGroup: [32, 4, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9756,7 +9756,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -9767,7 +9767,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9904,7 +9904,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -9915,7 +9915,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10052,7 +10052,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -10063,7 +10063,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10200,7 +10200,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -10211,7 +10211,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10348,7 +10348,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -10359,7 +10359,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10496,7 +10496,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -10507,7 +10507,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10644,7 +10644,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -10655,7 +10655,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10792,7 +10792,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -10803,7 +10803,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10940,7 +10940,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -10951,7 +10951,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11088,7 +11088,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -11099,7 +11099,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11236,7 +11236,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -11247,7 +11247,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11384,7 +11384,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -11395,7 +11395,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11532,7 +11532,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -11543,7 +11543,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11680,7 +11680,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -11691,7 +11691,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11828,7 +11828,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -11839,7 +11839,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11976,7 +11976,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -11987,7 +11987,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12124,7 +12124,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -12135,7 +12135,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12272,7 +12272,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -12283,7 +12283,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12420,7 +12420,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -12431,7 +12431,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id024
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12568,7 +12568,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -12579,7 +12579,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12716,7 +12716,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -12727,7 +12727,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12864,7 +12864,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -12875,7 +12875,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13012,7 +13012,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -13023,7 +13023,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13160,7 +13160,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -13171,7 +13171,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13308,7 +13308,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -13319,7 +13319,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id024
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13456,7 +13456,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -13467,7 +13467,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id024
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13604,7 +13604,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -13615,7 +13615,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13752,7 +13752,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -13763,7 +13763,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13900,7 +13900,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -13911,7 +13911,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14048,7 +14048,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -14059,7 +14059,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14196,7 +14196,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -14207,7 +14207,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14344,7 +14344,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -14355,7 +14355,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14492,7 +14492,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -14503,7 +14503,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id024
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14640,7 +14640,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -14651,7 +14651,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14788,7 +14788,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -14799,7 +14799,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14943,7 +14943,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id028 [16, 16, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -15076,7 +15076,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id029 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -15087,7 +15087,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -15224,7 +15224,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id029
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -15235,7 +15235,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -15372,7 +15372,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id031 [4, 8]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -15383,7 +15383,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -15516,7 +15516,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id032 [6, 8]
+    ThreadTile: [6, 8]
     ThreadTile0: 6
     ThreadTile1: 8
     ThreadTileA: 6
@@ -15527,7 +15527,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -15660,7 +15660,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id030 [8, 4]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -15671,7 +15671,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -15808,7 +15808,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id030
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -15819,7 +15819,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -15952,7 +15952,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id029
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -15963,7 +15963,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -16100,7 +16100,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id029
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -16111,7 +16111,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -16248,7 +16248,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id031
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -16259,7 +16259,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -16392,7 +16392,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id032
+    ThreadTile: [6, 8]
     ThreadTile0: 6
     ThreadTile1: 8
     ThreadTileA: 6
@@ -16403,7 +16403,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -16540,7 +16540,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id030
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -16551,7 +16551,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -16684,7 +16684,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id029
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -16695,7 +16695,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -16828,7 +16828,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id031
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -16839,7 +16839,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -16972,7 +16972,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id030
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -16983,7 +16983,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -17116,7 +17116,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id029
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -17127,7 +17127,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -17264,7 +17264,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id029
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -17275,7 +17275,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -17412,7 +17412,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: &id033 [8, 8]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -17423,7 +17423,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id034 [16, 16, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -17560,7 +17560,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -17571,7 +17571,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -17704,7 +17704,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id035 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -17715,7 +17715,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -17852,7 +17852,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id035
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -17863,7 +17863,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -17996,7 +17996,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id036 [4, 8]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -18007,7 +18007,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -18144,7 +18144,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id036
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -18155,7 +18155,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -18292,7 +18292,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: &id038 [6, 8]
+    ThreadTile: [6, 8]
     ThreadTile0: 6
     ThreadTile1: 8
     ThreadTileA: 6
@@ -18303,7 +18303,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -18436,7 +18436,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id037 [8, 4]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -18447,7 +18447,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -18584,7 +18584,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id037
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -18595,7 +18595,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -18732,7 +18732,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: &id039 [8, 6]
+    ThreadTile: [8, 6]
     ThreadTile0: 8
     ThreadTile1: 6
     ThreadTileA: 8
@@ -18743,7 +18743,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -18876,7 +18876,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -18887,7 +18887,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -19024,7 +19024,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -19035,7 +19035,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -19168,7 +19168,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id035
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -19179,7 +19179,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -19316,7 +19316,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id035
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -19327,7 +19327,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -19460,7 +19460,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id036
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -19471,7 +19471,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -19608,7 +19608,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id036
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -19619,7 +19619,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -19756,7 +19756,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id038
+    ThreadTile: [6, 8]
     ThreadTile0: 6
     ThreadTile1: 8
     ThreadTileA: 6
@@ -19767,7 +19767,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -19900,7 +19900,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id037
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -19911,7 +19911,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -20048,7 +20048,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id037
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -20059,7 +20059,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -20196,7 +20196,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id039
+    ThreadTile: [8, 6]
     ThreadTile0: 8
     ThreadTile1: 6
     ThreadTileA: 8
@@ -20207,7 +20207,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -20340,7 +20340,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -20351,7 +20351,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -20488,7 +20488,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -20499,7 +20499,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -20632,7 +20632,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -20643,7 +20643,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -20780,7 +20780,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -20791,7 +20791,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -20924,7 +20924,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -20935,7 +20935,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -21072,7 +21072,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -21083,7 +21083,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -21216,7 +21216,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id035
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -21227,7 +21227,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -21364,7 +21364,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id035
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -21375,7 +21375,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -21508,7 +21508,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id037
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -21519,7 +21519,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -21656,7 +21656,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id037
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -21667,7 +21667,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -21800,7 +21800,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -21811,7 +21811,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -21948,7 +21948,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -21959,7 +21959,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -22092,7 +22092,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id035
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -22103,7 +22103,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -22240,7 +22240,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id035
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -22251,7 +22251,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -22384,7 +22384,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id037
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -22395,7 +22395,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -22532,7 +22532,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id037
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -22543,7 +22543,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -22676,7 +22676,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -22687,7 +22687,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -22824,7 +22824,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -22835,7 +22835,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -22983,7 +22983,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id040 [8, 8, 1]
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -23131,7 +23131,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id040
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -23268,7 +23268,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: true
-    ThreadTile: &id041 [2, 2]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -23279,7 +23279,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id044 [8, 8, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -23416,7 +23416,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id041
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -23427,7 +23427,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id042 [8, 8, 1]
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -23564,7 +23564,7 @@
     SubGroupA: 4
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id041
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -23575,7 +23575,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id043 [4, 4, 4]
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -23712,7 +23712,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id041
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -23723,7 +23723,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id042
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -23860,7 +23860,7 @@
     SubGroupA: 4
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id041
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -23871,7 +23871,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id043
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -24008,7 +24008,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id041
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -24156,7 +24156,7 @@
     SubGroupA: 4
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id041
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -24167,7 +24167,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id043
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -24304,7 +24304,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id041
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -24315,7 +24315,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id044
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -24452,7 +24452,7 @@
     SubGroupA: 32
     SubGroupB: 8
     SuppresssNoLoadLoop: true
-    ThreadTile: &id045 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -24463,7 +24463,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id046 [32, 8, 1]
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -24600,7 +24600,7 @@
     SubGroupA: 32
     SubGroupB: 8
     SuppresssNoLoadLoop: true
-    ThreadTile: *id045
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -24611,7 +24611,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id046
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -24748,7 +24748,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id045
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -24907,7 +24907,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id046
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -25040,7 +25040,7 @@
     SubGroupA: 8
     SubGroupB: 32
     SuppresssNoLoadLoop: false
-    ThreadTile: &id047 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -25184,7 +25184,7 @@
     SubGroupA: 32
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id047
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -25195,7 +25195,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id048 [32, 8, 1]
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -25328,7 +25328,7 @@
     SubGroupA: 32
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id050 [8, 4]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -25339,7 +25339,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id048
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -25472,7 +25472,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id047
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -25616,7 +25616,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id047
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -25627,7 +25627,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id049 [16, 16, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -25760,7 +25760,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id047
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -25771,7 +25771,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id049
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -25904,7 +25904,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id050
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -25915,7 +25915,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id049
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: false
@@ -26047,7 +26047,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: &id051 [8, 4]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -26058,7 +26058,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: &id052 [16, 16, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -26188,7 +26188,7 @@
     SubGroup1: 8
     SubGroupA: 32
     SubGroupB: 8
-    ThreadTile: *id051
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -26199,7 +26199,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id053 [32, 8, 1]
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -26333,7 +26333,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id051
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -26344,7 +26344,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id052
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -26478,7 +26478,7 @@
     SubGroup1: 8
     SubGroupA: 32
     SubGroupB: 8
-    ThreadTile: &id054 [4, 8]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -26489,7 +26489,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id053
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -26623,7 +26623,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    ThreadTile: *id054
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -26634,7 +26634,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id055 [16, 8, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -26768,7 +26768,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    ThreadTile: *id054
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -26779,7 +26779,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id055
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -26909,7 +26909,7 @@
     SubGroup1: 32
     SubGroupA: 8
     SubGroupB: 32
-    ThreadTile: *id051
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -27065,7 +27065,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id052
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -27195,7 +27195,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id054
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -27206,7 +27206,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id052
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -27336,7 +27336,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id051
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -27347,7 +27347,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id052
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -27481,7 +27481,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id051
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -27492,7 +27492,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id052
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -27626,7 +27626,7 @@
     SubGroup1: 8
     SubGroupA: 32
     SubGroupB: 8
-    ThreadTile: *id054
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -27637,7 +27637,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id053
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -27771,7 +27771,7 @@
     SubGroup1: 8
     SubGroupA: 32
     SubGroupB: 8
-    ThreadTile: *id054
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -27782,7 +27782,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id053
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -111313,9 +111313,9 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -111328,77 +111328,88 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 16
-    MacroTileA: 128
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -111406,6 +111417,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -111415,6 +111427,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -111424,62 +111437,77 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 695
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT08_02_USFGRO0_VW02_WG16_08_02
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001 
-    ThreadTile0: 8
-    ThreadTile1: 2
-    ThreadTileA: 8
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id002 
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -111487,36 +111515,38 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 32
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 4
-    LSPB: 16
+    LSPB: 64
     LVCA: 64
-    LVCB: 16
+    LVCB: 4
     LVPA: 2
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -111525,36 +111555,46 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -111564,6 +111604,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -111573,62 +111614,77 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 696
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT08_02_USFGRO0_VW02_WG16_08_02
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_NLCA1_PGR1_PLR0_TT8_4_USFGRO0_VW2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -111636,36 +111692,38 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 32
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 16
+    LSPB: 64
     LVCA: 32
-    LVCB: 16
+    LVCB: 4
     LVPA: 2
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -111674,29 +111732,38 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -111704,6 +111771,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -111713,6 +111781,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -111722,31 +111791,43 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 697
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005 
-    ThreadTile0: 4
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -111754,63 +111835,72 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id004 
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 2560
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -111819,36 +111909,45 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -111858,6 +111957,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -111867,95 +111967,116 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 698
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x32_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id003 
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id002
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 2
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 4352
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -111963,37 +112084,46 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 8
-    MacroTileA: 128
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 8
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -112003,6 +112133,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -112012,62 +112143,77 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 699
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x008x32_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT04_02_USFGRO0_VW02_WG32_04_02
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id004
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -112075,32 +112221,38 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 16
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
+    LSCA: 64
+    LSCB: 8
     LSPA: 8
-    LSPB: 8
+    LSPB: 64
     LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 4352
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3104
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -112108,37 +112260,46 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 8
-    MacroTileA: 128
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -112148,6 +112309,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -112157,133 +112319,163 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 700
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x008x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG32_02_04
-    SubGroup0: 32
-    SubGroup1: 2
-    SubGroupA: 32
-    SubGroupB: 2
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id007 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
     LVPA: 4
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 6688
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1600
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -112293,6 +112485,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -112302,130 +112495,155 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 701
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_02_08
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_AMAS3_DTL0_EPS1_GRVW2_LPB2_NLCA1_PBD1_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 2
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 2
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id006 
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
     LVPA: 4
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 6688
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1600
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -112433,6 +112651,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -112442,6 +112661,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -112451,62 +112671,77 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 702
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_02_08
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_AMAS3_DTL0_EPS1_GRVW2_LPB2_NLCA1_PBD1_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 2
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 2
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id006
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -112514,70 +112749,85 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 32
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 2304
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3344
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -112587,6 +112837,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -112596,62 +112847,77 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 703
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT02_02_USFGRO0_VW02_WG32_04_02
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id008 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_AMAS3_DTL0_EPS1_GRVW2_LPB2_NLCA1_PBD1_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -112659,32 +112925,6591 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 32
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
+    LSCA: 64
+    LSCB: 8
     LSPA: 8
-    LSPB: 8
+    LSPB: 128
     LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 4352
-    LdsOffsetA: 0
-    LdsOffsetB: 4096
-    LdsPadA: 0
-    LdsPadB: 0
+    LVCB: 2
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 704
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD1_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 705
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 706
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 707
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD0_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 708
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 32
+    LVCB: 2
+    LVPA: 1
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 709
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD1_PGR1_PLR1_TT8_8_USFGRO0_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 1928
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 448
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 48
+    MacroTileA: 64
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 710
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x48x8_SE_AMAS1_DTL0_EPS1_GRVW1_LPB1_NLCA1_PBD1_PGR1_PLR1_TT4_6_USFGRO0_VW1_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: true
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 1
+    LSPB: 16
+    LVCA: 128
+    LVCB: 8
+    LVPA: 1
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 3592
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: true
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 64
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 711
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS1_DTL1_EPS1_GRVW1_LPB1_NLCA1_PBD1_PGR1_PLR0_TT8_8_USFGRO0_VW1_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 712
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW1_LPB4_NLCA1_PBD0_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 713
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 1928
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 448
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 48
+    MacroTileA: 64
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 714
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x48x8_SE_AMAS1_DTL0_EPS1_GRVW1_LPB1_NLCA1_PBD1_PGR1_PLR1_TT4_6_USFGRO0_VW1_WG16_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 16
+    LVCB: 2
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 715
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3360
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 716
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3848
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 3584
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 192
+    MacroTile1: 32
+    MacroTileA: 192
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 6
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 717
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT192x32x8_SE_AMAS1_DTL0_EPS1_GRVW1_LPB1_NLCA3_PBD1_PGR1_PLR1_TT6_4_USFGRO0_VW1_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 2
+    LSPB: 16
+    LVCA: 128
+    LVCB: 16
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 2832
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 48
+    MacroTileA: 128
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 8
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 718
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x48x16_SE_AMAS1_DTL0_EPS0_GRVW1_LPB1_NLCA1_PBD0_PGR0_PLR0_TT4_6_USFGRO1_VW1_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 2
+    LSPB: 32
+    LVCA: 128
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3592
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 719
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS1_DTL0_EPS1_GRVW1_LPB1_NLCA1_PBD1_PGR1_PLR0_TT4_8_USFGRO0_VW1_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 2
+    LSPB: 32
+    LVCA: 128
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3592
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 720
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS1_DTL0_EPS1_GRVW1_LPB1_NLCA1_PBD1_PGR1_PLR0_TT4_8_USFGRO0_VW1_WG32_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 721
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 16
+    MacroTileA: 128
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 722
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT08_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [8, 2]
+    ThreadTile0: 8
+    ThreadTile1: 2
+    ThreadTileA: 8
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 16
+    MacroTileA: 128
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 723
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT08_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [8, 2]
+    ThreadTile0: 8
+    ThreadTile1: 2
+    ThreadTileA: 8
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 16
+    MacroTileA: 128
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 724
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 4, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2560
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 725
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x32_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4352
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 8
+    MacroTileA: 128
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 8
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 726
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x008x32_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT04_02_USFGRO0_VW02_WG32_04_02
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [32, 4, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4352
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 8
+    MacroTileA: 128
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 727
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x008x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG32_02_04
+    SubGroup0: 32
+    SubGroup1: 2
+    SubGroupA: 32
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 2, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 728
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_02_08
+    SubGroup0: 16
+    SubGroup1: 2
+    SubGroupA: 16
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 2, 8]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 729
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_02_08
+    SubGroup0: 16
+    SubGroup1: 2
+    SubGroupA: 16
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 2, 8]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2304
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 730
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT02_02_USFGRO0_VW02_WG32_04_02
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [32, 4, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4352
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 8
+    MacroTileA: 128
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 731
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x008x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG32_02_04
+    SubGroup0: 32
+    SubGroup1: 2
+    SubGroupA: 32
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 2, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 732
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT08_02_USFGRO0_VW02_WG08_04_08
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [8, 2]
+    ThreadTile0: 8
+    ThreadTile1: 2
+    ThreadTileA: 8
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 4, 8]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 64
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2560
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 733
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x64_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 64
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4352
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 4
+    MacroTileA: 64
+    MacroTileB: 4
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 8
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 734
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x004x64_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT02_02_USFGRO0_VW02_WG32_02_04
+    SubGroup0: 32
+    SubGroup1: 2
+    SubGroupA: 32
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [32, 2, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 64
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4352
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 4
+    MacroTileA: 64
+    MacroTileB: 4
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 8
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 735
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x004x64_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT04_02_USFGRO0_VW02_WG16_02_08
+    SubGroup0: 16
+    SubGroup1: 2
+    SubGroupA: 16
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 2, 8]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 48
+    LSCB: 16
+    LSPA: 4
+    LSPB: 12
+    LVCA: 48
+    LVCB: 16
+    LVPA: 4
+    LVPB: 12
+    LdcEqualsLdd: false
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 48
+    MacroTile1: 36
+    MacroTileA: 48
+    MacroTileB: 36
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 9
+    NumGlobalWriteVectorsPerThread: 9
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 736
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x036x16_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT06_03_USFGRO01_VW01_WG08_12_02
+    SubGroup0: 8
+    SubGroup1: 12
+    SubGroupA: 8
+    SubGroupB: 12
+    SuppresssNoLoadLoop: false
+    ThreadTile: [6, 3]
+    ThreadTile0: 6
+    ThreadTile1: 3
+    ThreadTileA: 6
+    ThreadTileB: 3
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [8, 12, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 12
+    LSCB: 16
+    LSPA: 16
+    LSPB: 12
+    LVCA: 12
+    LVCB: 16
+    LVPA: 16
+    LVPB: 12
+    LdcEqualsLdd: false
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 36
+    MacroTile1: 48
+    MacroTileA: 36
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 9
+    NumGlobalWriteVectorsPerThread: 9
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 737
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT036x048x16_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT03_03_USFGRO01_VW01_WG12_16_01
+    SubGroup0: 12
+    SubGroup1: 16
+    SubGroupA: 12
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: [3, 3]
+    ThreadTile0: 3
+    ThreadTile1: 3
+    ThreadTileA: 3
+    ThreadTileB: 3
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [12, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 48
+    MacroTile1: 48
+    MacroTileA: 48
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 9
+    NumGlobalWriteVectorsPerThread: 9
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 738
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x048x16_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT03_03_USFGRO01_VW01_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: [3, 3]
+    ThreadTile0: 3
+    ThreadTile1: 3
+    ThreadTileA: 3
+    ThreadTileB: 3
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 48
+    LSCB: 32
+    LSPA: 8
+    LSPB: 12
+    LVCA: 24
+    LVCB: 16
+    LVPA: 4
+    LVPB: 6
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 48
+    MacroTile1: 24
+    MacroTileA: 48
+    MacroTileB: 24
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 6
+    NumGlobalWriteVectorsPerThread: 3
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 739
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x024x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT06_04_USFGRO0_VW02_WG08_06_04
+    SubGroup0: 8
+    SubGroup1: 6
+    SubGroupA: 8
+    SubGroupB: 6
+    SuppresssNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 6, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 24
+    LSCB: 32
+    LSPA: 8
+    LSPB: 6
+    LVCA: 24
+    LVCB: 32
+    LVPA: 8
+    LVPB: 6
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 24
+    MacroTile1: 24
+    MacroTileA: 24
+    MacroTileB: 24
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 3
+    NumGlobalWriteVectorsPerThread: 3
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 740
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT024x024x32_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT03_04_USFGRO01_VW01_WG08_06_04
+    SubGroup0: 8
+    SubGroup1: 6
+    SubGroupA: 8
+    SubGroupB: 6
+    SuppresssNoLoadLoop: false
+    ThreadTile: [3, 4]
+    ThreadTile0: 3
+    ThreadTile1: 4
+    ThreadTileA: 3
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [8, 6, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 48
+    LSCB: 32
+    LSPA: 8
+    LSPB: 12
+    LVCA: 24
+    LVCB: 16
+    LVPA: 4
+    LVPB: 6
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 48
+    MacroTile1: 24
+    MacroTileA: 48
+    MacroTileB: 24
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 6
+    NumGlobalWriteVectorsPerThread: 3
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 741
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x024x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT06_04_USFGRO0_VW02_WG08_06_04
+    SubGroup0: 8
+    SubGroup1: 6
+    SubGroupA: 8
+    SubGroupB: 6
+    SuppresssNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 6, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 832
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 742
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 16
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 743
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 8
+    LVCB: 2
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 744
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x08_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 16
+    LVCB: 2
+    LVPA: 1
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -112692,10 +119517,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 8
-    MacroTileA: 128
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -112703,20 +119528,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -112755,46 +119580,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 704
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x008x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG32_02_04
-    SubGroup0: 32
-    SubGroup1: 2
-    SubGroupA: 32
-    SubGroupB: 2
+    SolutionIndex: 745
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x08_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO00_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id007
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -112804,47 +119629,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 32
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
     LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -112852,15 +119677,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -112904,48 +119729,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 705
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT08_02_USFGRO0_VW02_WG08_04_08
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SolutionIndex: 746
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 8]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 64
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -112953,43 +119778,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 4
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2560
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -112997,20 +119826,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -113049,48 +119878,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 706
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x64_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SolutionIndex: 747
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id008
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 64
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -113098,43 +119927,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
+    LSPB: 16
+    LVCA: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4352
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 4
-    MacroTileA: 64
-    MacroTileB: 4
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113142,20 +119975,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -113194,48 +120027,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 707
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x004x64_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT02_02_USFGRO0_VW02_WG32_02_04
-    SubGroup0: 32
-    SubGroup1: 2
-    SubGroupA: 32
-    SubGroupB: 2
+    SolutionIndex: 748
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id008
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id007
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 64
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -113243,32 +120076,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4352
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -113276,10 +120113,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 4
-    MacroTileA: 64
-    MacroTileB: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113287,20 +120124,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -113339,85 +120176,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 708
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x004x64_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT04_02_USFGRO0_VW02_WG16_02_08
-    SubGroup0: 16
-    SubGroup1: 2
-    SubGroupA: 16
-    SubGroupB: 2
+    SolutionIndex: 749
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 48
-    LSCB: 16
-    LSPA: 4
-    LSPB: 12
-    LVCA: 48
-    LVCB: 16
-    LVPA: 4
-    LVPB: 12
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 8
+    LVCB: 2
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -113425,10 +120262,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 48
-    MacroTile1: 36
-    MacroTileA: 48
-    MacroTileB: 36
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113436,15 +120273,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 9
-    NumGlobalWriteVectorsPerThread: 9
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 3
-    NumThreads: 192
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -113488,47 +120325,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 709
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x036x16_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT06_03_USFGRO01_VW01_WG08_12_02
+    SolutionIndex: 750
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x08_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
     SubGroup0: 8
-    SubGroup1: 12
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 12
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: [6, 3]
-    ThreadTile0: 6
-    ThreadTile1: 3
-    ThreadTileA: 6
-    ThreadTileB: 3
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 12, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -113536,31 +120373,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 12
-    LSCB: 16
-    LSPA: 16
-    LSPB: 12
-    LVCA: 12
-    LVCB: 16
-    LVPA: 16
-    LVPB: 12
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -113573,11 +120410,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 36
-    MacroTile1: 48
-    MacroTileA: 36
-    MacroTileB: 48
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113585,15 +120422,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 9
-    NumGlobalWriteVectorsPerThread: 9
-    NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
-    NumThreads: 192
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -113637,47 +120474,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 710
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT036x048x16_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT03_03_USFGRO01_VW01_WG12_16_01
-    SubGroup0: 12
-    SubGroup1: 16
-    SubGroupA: 12
-    SubGroupB: 16
+    SolutionIndex: 751
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009 
-    ThreadTile0: 3
-    ThreadTile1: 3
-    ThreadTileA: 3
-    ThreadTileB: 3
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [12, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -113685,31 +120522,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
     LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -113722,11 +120559,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 48
-    MacroTile1: 48
-    MacroTileA: 48
-    MacroTileB: 48
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113734,15 +120571,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 9
-    NumGlobalWriteVectorsPerThread: 9
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 3
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -113786,48 +120623,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 711
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x048x16_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT03_03_USFGRO01_VW01_WG16_16_01
+    SolutionIndex: 752
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 3
-    ThreadTile1: 3
-    ThreadTileA: 3
-    ThreadTileB: 3
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -113835,47 +120672,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 48
-    LSCB: 32
-    LSPA: 8
-    LSPB: 12
-    LVCA: 24
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 32
     LVCB: 16
-    LVPA: 4
-    LVPB: 6
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 48
-    MacroTile1: 24
-    MacroTileA: 48
-    MacroTileB: 24
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113883,15 +120720,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 6
-    NumGlobalWriteVectorsPerThread: 3
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 192
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -113935,96 +120772,96 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 712
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x024x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT06_04_USFGRO0_VW02_WG08_06_04
-    SubGroup0: 8
-    SubGroup1: 6
-    SubGroupA: 8
-    SubGroupB: 6
+    SolutionIndex: 753
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG32_04_01
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id011 
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id010 
+    WorkGroup: [32, 4, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 24
-    LSCB: 32
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
     LSPA: 8
-    LSPB: 6
-    LVCA: 24
-    LVCB: 32
-    LVPA: 8
-    LVPB: 6
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 24
-    MacroTile1: 24
-    MacroTileA: 24
-    MacroTileB: 24
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114032,15 +120869,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 3
-    NumGlobalWriteVectorsPerThread: 3
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 192
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -114084,46 +120921,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 713
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT024x024x32_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT03_04_USFGRO01_VW01_WG08_06_04
+    SolutionIndex: 754
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
     SubGroup0: 8
-    SubGroup1: 6
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 6
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: [3, 4]
-    ThreadTile0: 3
-    ThreadTile1: 4
-    ThreadTileA: 3
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id010
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -114133,47 +120970,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 48
-    LSCB: 32
-    LSPA: 8
-    LSPB: 12
-    LVCA: 24
-    LVCB: 16
-    LVPA: 4
-    LVPB: 6
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 48
-    MacroTile1: 24
-    MacroTileA: 48
-    MacroTileB: 24
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114181,15 +121018,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 6
-    NumGlobalWriteVectorsPerThread: 3
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
-    NumThreads: 192
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -114233,25 +121070,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 714
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x024x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT06_04_USFGRO0_VW02_WG08_06_04
+    SolutionIndex: 755
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG08_08_01
     SubGroup0: 8
-    SubGroup1: 6
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 6
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id011
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id010
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -114265,7 +121102,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -114273,39 +121110,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Source
     LSCA: 32
-    LSCB: 8
-    LSPA: 4
-    LSPB: 8
-    LVCA: 16
-    LVCB: 8
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 8
+    LVCB: 4
     LVPA: 2
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 832
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114318,11 +121155,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 32
-    MacroTile1: 8
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114330,14 +121167,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -114382,25 +121219,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 715
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_04_01
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 756
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id017 
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -114414,7 +121251,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -114439,22 +121276,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Source
-    LSCA: 16
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
     LSPB: 16
-    LVCA: 8
-    LVCB: 4
-    LVPA: 4
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114467,10 +121304,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -114479,15 +121316,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -114531,17 +121368,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 716
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 757
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 0
@@ -114549,7 +121386,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013 
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -114563,7 +121400,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -114588,22 +121425,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Source
-    LSCA: 32
-    LSCB: 8
+    LSCA: 64
+    LSCB: 16
     LSPA: 8
     LSPB: 32
-    LVCA: 8
-    LVCB: 2
+    LVCA: 16
+    LVCB: 4
     LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114616,10 +121453,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -114630,13 +121467,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -114680,14 +121517,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 717
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x08_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 758
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_08_01
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016 
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -114698,7 +121535,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -114712,7 +121549,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -114720,39 +121557,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Source
     LSCA: 64
-    LSCB: 8
+    LSCB: 16
     LSPA: 4
-    LSPB: 32
-    LVCA: 16
-    LVCB: 2
-    LVPA: 1
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114765,11 +121602,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114777,15 +121614,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -114829,26 +121666,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 718
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x08_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO00_VW04_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 759
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id013
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -114861,7 +121698,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -114870,7 +121707,7 @@
     ExpandPointerSwap: false
     FractionalLoad: false
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -114883,25 +121720,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Source
     LSCA: 32
     LSCB: 8
-    LSPA: 8
+    LSPA: 4
     LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 384
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114914,7 +121751,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 24
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -114926,15 +121763,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 6
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 6
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -114978,17 +121815,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 719
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 760
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x24_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG08_08_01
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 0
@@ -114996,7 +121833,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014 
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -115010,7 +121847,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -115019,7 +121856,7 @@
     ExpandPointerSwap: false
     FractionalLoad: false
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -115032,25 +121869,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Source
-    LSCA: 64
-    LSCB: 8
+    LSCA: 32
+    LSCB: 32
     LSPA: 4
-    LSPB: 16
-    LVCA: 32
-    LVCB: 8
+    LSPB: 4
+    LVCA: 16
+    LVCB: 16
     LVPA: 2
-    LVPB: 16
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -115063,11 +121900,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115075,15 +121912,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -115127,17 +121964,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 720
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
+    SolutionIndex: 761
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_04_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015 
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 0
@@ -115145,17 +121982,17 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 4, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -115165,10 +122002,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -115176,22 +122013,22 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 8
     LSPA: 8
     LSPB: 16
-    LVCA: 8
-    LVCB: 4
-    LVPA: 4
-    LVPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 512
     LdsNumElementsAlignedA: 128
@@ -115205,14 +122042,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 16
     MacroTile1: 16
     MacroTileA: 16
@@ -115224,15 +122061,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -115276,35 +122113,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 721
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
+    SolutionIndex: 762
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -115314,58 +122151,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 128
     LSCB: 8
-    LSPA: 4
-    LSPB: 16
-    LVCA: 16
-    LVCB: 4
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
     LVPA: 2
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 4
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115373,15 +122210,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -115425,35 +122262,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 722
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 763
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x08_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -115463,58 +122300,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 16
     LSCB: 8
     LSPA: 8
-    LSPB: 32
-    LVCA: 8
-    LVCB: 2
-    LVPA: 2
-    LVPB: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115522,15 +122359,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -115574,35 +122411,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 723
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x08_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
+    SolutionIndex: 764
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -115612,9 +122449,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -115623,46 +122460,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 16
     LSCB: 8
     LSPA: 8
     LSPB: 16
     LVCA: 16
     LVCB: 8
-    LVPA: 4
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
     LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -115671,8 +122508,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -115723,47 +122560,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 724
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 765
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -115771,37 +122608,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 8
-    LSPA: 4
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
     LSPB: 16
     LVCA: 32
-    LVCB: 8
+    LVCB: 16
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -115809,9 +122646,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 16
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -115821,14 +122658,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -115872,35 +122709,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 725
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SolutionIndex: 766
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id014
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [32, 4, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -115910,9 +122747,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -115920,27 +122757,27 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 4
-    LSPB: 8
-    LVCA: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3200
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 128
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -115950,18 +122787,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115970,14 +122807,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -116021,35 +122858,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 726
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG32_04_01
-    SubGroup0: 32
+    SolutionIndex: 767
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_04_04
+    SubGroup0: 16
     SubGroup1: 4
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 4, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -116059,8 +122896,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -116070,22 +122907,22 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
+    LSPA: 16
+    LSPB: 16
     LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 1024
     LdsNumElementsAlignedA: 256
@@ -116099,14 +122936,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 16
     MacroTile1: 16
     MacroTileA: 16
@@ -116118,15 +122955,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -116170,35 +123007,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 727
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
+    SolutionIndex: 768
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -116208,8 +123045,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -116219,22 +123056,22 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 32
     LSCB: 16
-    LSPA: 4
-    LSPB: 8
+    LSPA: 8
+    LSPB: 16
     LVCA: 16
     LVCB: 8
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
@@ -116248,14 +123085,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -116267,15 +123104,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -116319,35 +123156,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 728
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG08_08_01
+    SolutionIndex: 769
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -116357,8 +123194,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -116368,22 +123205,22 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 16
+    LSPA: 16
+    LSPB: 32
     LVCA: 8
     LVCB: 4
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
@@ -116397,14 +123234,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 32
     MacroTileA: 32
@@ -116416,15 +123253,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -116468,35 +123305,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 729
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
+    SolutionIndex: 770
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -116506,37 +123343,37 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 32
-    LVCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
     LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -116546,18 +123383,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116565,13 +123402,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -116617,35 +123454,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 730
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 771
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id014
+    VectorWidth: 4
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -116655,58 +123492,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116714,15 +123551,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -116766,35 +123603,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 731
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 772
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id014
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -116804,10 +123641,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -116815,46 +123652,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 32
     LSCB: 16
-    LSPA: 4
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -116863,15 +123700,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -116915,48 +123752,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 732
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 773
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -116964,46 +123801,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 8
-    LSPA: 4
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3200
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 384
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -117012,15 +123849,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 6
-    NumLoadsB: 3
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 6
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -117064,96 +123901,96 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 733
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x24_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 774
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 32
-    LSPA: 4
-    LSPB: 4
-    LVCA: 16
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
     LVCB: 16
     LVPA: 2
-    LVPB: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 16
+    MacroTileA: 128
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117161,15 +123998,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -117213,26 +124050,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 734
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_04_01
-    SubGroup0: 16
+    SolutionIndex: 775
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
+    SubGroup0: 32
     SubGroup1: 4
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id017
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 4, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -117245,7 +124082,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117253,7 +124090,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -117261,37 +124098,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -117299,9 +124136,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 16
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -117310,7 +124147,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -117318,7 +124155,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -117362,26 +124199,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 735
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 776
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id019 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -117394,7 +124231,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117420,27 +124257,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 8
+    LSCB: 16
     LSPA: 8
-    LSPB: 32
+    LSPB: 16
     LVCA: 32
-    LVCB: 8
+    LVCB: 16
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -117449,9 +124286,9 @@
     LoopTail: true
     LoopUnroll: 4
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117459,13 +124296,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -117511,14 +124348,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 736
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x08_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG16_08_02
+    SolutionIndex: 777
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG16_04_04
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021 
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -117529,7 +124366,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id024 
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -117543,7 +124380,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117551,8 +124388,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -117560,30 +124397,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 8
+    LSCA: 32
+    LSCB: 16
     LSPA: 8
     LSPB: 16
     LVCA: 16
     LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -117596,10 +124433,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -117608,13 +124445,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -117660,26 +124497,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 737
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
+    SolutionIndex: 778
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -117692,7 +124529,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117700,39 +124537,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 8
-    LSPA: 8
-    LSPB: 16
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -117745,11 +124582,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117757,8 +124594,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -117809,26 +124646,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 738
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
+    SolutionIndex: 779
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -117850,7 +124687,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -117863,25 +124700,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
     LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -117895,10 +124732,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 16
-    MacroTileA: 128
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117906,15 +124743,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -117958,17 +124795,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 739
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
+    SolutionIndex: 780
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020 
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -117976,8 +124813,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id025 
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -117998,7 +124835,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -118006,31 +124843,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 16
     LSPA: 16
     LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 4
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -118044,9 +124881,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 64
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -118055,7 +124892,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -118107,26 +124944,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 740
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_04_04
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 781
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026 
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -118148,7 +124985,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -118161,41 +124998,41 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 16
     LSPA: 16
     LSPB: 16
-    LVCA: 8
-    LVCB: 8
+    LVCA: 16
+    LVCB: 16
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -118212,7 +125049,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -118256,17 +125093,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 741
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG08_08_02
+    SolutionIndex: 782
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -118274,8 +125111,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -118297,7 +125134,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -118310,17 +125147,17 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
@@ -118353,15 +125190,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -118405,17 +125242,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 742
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
-    SubGroup0: 8
+    SolutionIndex: 783
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022 
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -118423,8 +125260,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -118445,39 +125282,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 8
-    LVCB: 4
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -118491,10 +125328,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118502,15 +125339,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -118554,26 +125391,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 743
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
-    SubGroup0: 8
+    SolutionIndex: 784
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -118611,22 +125448,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
     LSPA: 8
-    LSPB: 32
-    LVCA: 16
+    LSPB: 64
+    LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -118640,10 +125477,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118651,15 +125488,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -118703,26 +125540,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 744
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_02
-    SubGroup0: 8
+    SolutionIndex: 785
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -118743,7 +125580,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -118751,47 +125588,47 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
+    LVCA: 32
     LVCB: 16
-    LVPA: 16
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 128
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -118800,13 +125637,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -118852,25 +125689,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 745
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 786
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023 
+    VectorWidth: 4
+    WorkGroup: [32, 4, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -118893,7 +125730,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -118901,24 +125738,24 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 16
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
@@ -118930,14 +125767,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -118949,15 +125786,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -119001,14 +125838,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 746
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
+    SolutionIndex: 787
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -119019,7 +125856,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -119041,39 +125878,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -119087,10 +125924,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119098,15 +125935,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -119150,25 +125987,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 747
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 788
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id024
+    VectorWidth: 4
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -119191,7 +126028,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -119199,30 +126036,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
     LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -119236,10 +126073,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 16
-    MacroTileA: 128
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119247,15 +126084,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -119299,17 +126136,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 748
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
+    SolutionIndex: 789
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -119317,8 +126154,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id025
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -119339,7 +126176,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -119347,31 +126184,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 16
     LSPA: 16
     LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 4
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -119385,9 +126222,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 64
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -119396,7 +126233,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -119448,26 +126285,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 749
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_04_04
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 790
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -119488,7 +126325,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -119496,31 +126333,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
+    LVCA: 16
     LVCB: 16
-    LVPA: 2
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -119534,9 +126371,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 128
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -119545,13 +126382,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -119597,26 +126434,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 750
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG16_04_04
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 791
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -119637,55 +126474,55 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
     LVCA: 16
-    LVCB: 8
+    LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -119695,14 +126532,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -119746,25 +126583,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 751
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 792
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id019
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -119795,7 +126632,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -119895,14 +126732,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 752
+    SolutionIndex: 793
     SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -119913,7 +126750,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -119935,56 +126772,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119992,15 +126829,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -120044,25 +126881,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 753
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_02
+    SolutionIndex: 794
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id019
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -120093,7 +126930,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -120193,14 +127030,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 754
+    SolutionIndex: 795
     SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -120211,8 +127048,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -120225,7 +127062,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120233,56 +127070,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LVCB: 2
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 12
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120290,15 +127127,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 3
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 3
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -120342,26 +127179,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 755
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
+    SolutionIndex: 796
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -120374,7 +127211,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120382,39 +127219,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LVCB: 2
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -120427,11 +127264,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 12
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120439,15 +127276,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 3
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 3
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -120491,25 +127328,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 756
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 797
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id024
+    VectorWidth: 4
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -120523,7 +127360,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120543,19 +127380,19 @@
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 3328
     LdsNumElementsAlignedA: 1024
@@ -120569,7 +127406,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120577,10 +127414,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120588,8 +127425,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -120640,17 +127477,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 757
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SolutionIndex: 798
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -120658,8 +127495,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id024
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -120672,7 +127509,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120680,35 +127517,35 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 8
-    LSPB: 64
+    LSPB: 8
     LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
+    LdsNumElements: 6400
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -120718,7 +127555,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120726,10 +127563,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120737,13 +127574,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -120789,26 +127626,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 758
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_08_02
+    SolutionIndex: 799
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_04_04
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027 
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id024
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -120821,7 +127658,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120830,7 +127667,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -120838,36 +127675,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 32
     LSPA: 8
-    LSPB: 16
+    LSPB: 32
     LVCA: 32
-    LVCB: 16
+    LVCB: 8
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120876,9 +127713,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120886,13 +127723,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -120938,25 +127775,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 759
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
-    SubGroup0: 32
+    SolutionIndex: 800
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_04_04
+    SubGroup0: 16
     SubGroup1: 4
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id025
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -120970,7 +127807,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120987,7 +127824,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -120996,21 +127833,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 32
     LSPA: 8
-    LSPB: 16
+    LSPB: 8
     LVCA: 16
-    LVCB: 8
+    LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -121023,7 +127860,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -121037,12 +127874,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -121087,14 +127924,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 760
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
+    SolutionIndex: 801
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -121105,7 +127942,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -121119,7 +127956,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121127,30 +127964,30 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
     LVCA: 8
-    LVCB: 4
-    LVPA: 4
+    LVCB: 16
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 2048
@@ -121165,7 +128002,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -121173,10 +128010,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121184,15 +128021,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -121236,25 +128073,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 761
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
+    SolutionIndex: 802
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id019
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -121268,7 +128105,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121285,7 +128122,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -121293,18 +128130,18 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 8
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 16
-    LVCB: 4
-    LVPA: 2
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -121314,7 +128151,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -121322,9 +128159,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -121333,15 +128170,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -121385,17 +128222,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 762
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_02
+    SolutionIndex: 803
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -121403,7 +128240,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -121417,7 +128254,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121425,39 +128262,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -121470,11 +128307,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121482,13 +128319,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -121534,25 +128371,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 763
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
+    SolutionIndex: 804
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -121566,7 +128403,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121575,7 +128412,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -121583,46 +128420,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
+    LVCA: 32
     LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -121631,13 +128468,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -121683,14 +128520,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 764
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
-    SubGroup0: 8
+    SolutionIndex: 805
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -121701,7 +128538,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -121715,7 +128552,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121723,7 +128560,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -121731,25 +128568,25 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 8
     LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
@@ -121768,11 +128605,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121780,13 +128617,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -121832,25 +128669,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 765
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_04_04
+    SolutionIndex: 806
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
     SubGroup0: 16
     SubGroup1: 4
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -121864,7 +128701,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121881,7 +128718,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -121889,28 +128726,28 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
     LSPB: 32
-    LVCA: 8
-    LVCB: 4
-    LVPA: 4
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -121918,9 +128755,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 128
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 128
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -121929,15 +128766,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -121981,25 +128818,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 766
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 807
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -122013,7 +128850,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -122022,7 +128859,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -122030,30 +128867,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
     LSPB: 16
     LVCA: 16
     LVCB: 16
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -122066,7 +128903,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -122080,11 +128917,11 @@
     NonTemporalC: 0
     NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -122130,14 +128967,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 767
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
+    SolutionIndex: 808
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -122148,7 +128985,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -122162,7 +128999,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -122170,39 +129007,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -122215,11 +129052,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122227,7 +129064,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -122279,26 +129116,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 768
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
+    SolutionIndex: 809
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -122311,7 +129148,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -122337,38 +129174,38 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 2
-    LVPA: 2
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1536
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 12
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122376,15 +129213,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -122428,26 +129265,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 769
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG08_08_02
+    SolutionIndex: 810
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -122460,7 +129297,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -122486,21 +129323,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 2
-    LVPA: 2
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -122513,11 +129350,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 12
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122525,15 +129362,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -122577,25 +129414,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 770
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG08_08_02
-    SubGroup0: 8
+    SolutionIndex: 811
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -122617,56 +129454,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 128
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122674,14 +129511,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -122726,26 +129563,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 771
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SolutionIndex: 812
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_08_02
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -122775,30 +129612,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
-    LSPA: 8
+    LSPA: 16
     LSPB: 8
-    LVCA: 32
+    LVCA: 16
     LVCB: 32
-    LVPA: 4
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -122812,9 +129649,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 8
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -122823,13 +129660,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -122875,17 +129712,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 772
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_04_04
+    SolutionIndex: 813
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
     SubGroup0: 16
     SubGroup1: 4
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -122893,7 +129730,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -122915,39 +129752,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 32
     LSPA: 8
-    LSPB: 32
+    LSPB: 8
     LVCA: 32
-    LVCB: 8
-    LVPA: 2
+    LVCB: 32
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -122961,10 +129798,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122972,8 +129809,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -123024,25 +129861,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 773
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_04_04
+    SolutionIndex: 814
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_04_04
     SubGroup0: 16
     SubGroup1: 4
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -123064,35 +129901,35 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -123102,18 +129939,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123122,14 +129959,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -123173,25 +130010,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 774
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
+    SolutionIndex: 815
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id019
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -123214,7 +130051,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -123222,30 +130059,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -123259,10 +130096,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123272,11 +130109,11 @@
     NonTemporalC: 0
     NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -123322,14 +130159,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 775
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 816
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -123340,8 +130177,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -123371,7 +130208,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -123471,14 +130308,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 776
+    SolutionIndex: 817
     SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -123489,8 +130326,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -123520,7 +130357,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -123620,14 +130457,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 777
+    SolutionIndex: 818
     SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -123638,8 +130475,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -123669,7 +130506,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -123769,14 +130606,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 778
+    SolutionIndex: 819
     SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
     SubGroup0: 16
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -123787,8 +130624,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id024
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -123818,7 +130655,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -123918,14 +130755,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 779
+    SolutionIndex: 820
     SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
     SubGroup0: 16
     SubGroup1: 4
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -123936,8 +130773,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -123958,6 +130795,155 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 821
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -123967,36 +130953,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 128
-    LSCB: 32
+    LSCB: 8
     LSPA: 8
-    LSPB: 32
+    LSPB: 128
     LVCA: 32
-    LVCB: 8
+    LVCB: 2
     LVPA: 2
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -124005,9 +130987,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124015,20 +130997,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -124067,96 +131049,92 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 780
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_04_04
+    SolutionIndex: 822
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x08_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO00_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124164,20 +131142,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -124216,46 +131194,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 781
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 823
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -124265,22 +131243,22 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
@@ -124294,18 +131272,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124313,8 +131291,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -124365,46 +131343,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 782
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 824
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -124414,47 +131392,192 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 825
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_08_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsOffsetA: 0
+    LdsOffsetB: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124462,20 +131585,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -124514,46 +131637,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 783
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 826
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT06_08_USFGRO00_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [6, 8]
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -124563,36 +131686,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    KernelLanguage: Source
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -124600,10 +131719,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124611,8 +131730,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -124624,7 +131743,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -124663,46 +131782,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 784
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_08_02
+    SolutionIndex: 827
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id024
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -124712,36 +131831,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 128
-    LSCB: 32
+    LSCB: 16
     LSPA: 8
-    LSPB: 32
+    LSPB: 64
     LVCA: 32
-    LVCB: 8
+    LVCB: 4
     LVPA: 2
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -124762,12 +131881,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -124812,96 +131931,92 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 785
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_08_02
+    SolutionIndex: 828
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id024
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 64
     LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124909,20 +132024,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -124961,96 +132076,96 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 786
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SolutionIndex: 829
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125058,13 +132173,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -125110,46 +132225,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 787
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_04_04
+    SolutionIndex: 830
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -125159,47 +132274,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125207,14 +132322,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -125259,48 +132374,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 788
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 831
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_08_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -125308,47 +132423,43 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 32
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 32
     LVCA: 16
-    LVCB: 32
+    LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125356,20 +132467,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -125408,46 +132519,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 789
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SolutionIndex: 832
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT06_08_USFGRO00_VW02_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [6, 8]
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -125457,47 +132568,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    KernelLanguage: Source
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125505,13 +132616,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -125557,35 +132668,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 790
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 833
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -125595,8 +132706,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -125606,14 +132717,14 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 64
     LSCB: 32
     LSPA: 16
@@ -125623,30 +132734,26 @@
     LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 32
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125654,20 +132761,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -125706,35 +132813,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 791
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 834
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -125744,58 +132851,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 64
     LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 6144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125803,20 +132906,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -125855,35 +132958,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 792
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SolutionIndex: 835
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_08_USFGRO00_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id024
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -125893,58 +132996,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
+    KernelLanguage: Source
+    LSCA: 128
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 6144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 4096
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125952,20 +133051,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -126004,35 +133103,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 793
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SolutionIndex: 836
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -126042,58 +133141,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
+    KernelLanguage: Source
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 8
+    LSPB: 32
     LVCA: 16
-    LVCB: 32
-    LVPA: 8
+    LVCB: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126101,20 +133196,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -126153,25 +133248,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 794
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SolutionIndex: 837
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -126185,7 +133280,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -126210,18 +133305,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Source
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126234,11 +133333,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126246,20 +133345,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -126298,46 +133397,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 795
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x08_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 838
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028 
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -126354,19 +133453,23 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126379,11 +133482,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126391,8 +133494,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -126404,7 +133507,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -126443,46 +133546,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 796
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 839
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x08_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id029 
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -126499,15 +133602,15 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
@@ -126528,11 +133631,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126540,8 +133643,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -126592,35 +133695,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 797
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 840
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x08_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id029
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -126631,7 +133734,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -126648,7 +133751,7 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
     LSPA: 16
@@ -126658,13 +133761,9 @@
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126679,9 +133778,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126689,20 +133788,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -126741,35 +133840,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 798
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_08_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 841
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id031 
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -126779,37 +133878,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126823,10 +133926,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126834,20 +133937,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -126886,35 +133989,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 799
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT06_08_USFGRO00_VW02_WG16_16_01
+    SolutionIndex: 842
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id032 
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id028
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -126925,7 +134028,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -126942,19 +134045,19 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 128
+    KernelLanguage: Assembly
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126968,10 +134071,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126981,12 +134084,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -127031,35 +134134,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 800
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 843
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id030 
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -127069,8 +134172,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -127087,23 +134190,23 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 128
+    KernelLanguage: Assembly
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -127117,10 +134220,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127130,12 +134233,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -127180,35 +134283,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 801
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 844
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id030
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -127218,37 +134321,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 32
     LSCB: 16
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -127262,10 +134369,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127273,20 +134380,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -127325,35 +134432,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 802
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 845
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT06_08_USFGRO0_VW02_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id029
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppresssNoLoadLoop: true
+    ThreadTile: [6, 8]
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id028
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -127364,7 +134471,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -127381,23 +134488,19 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -127411,9 +134514,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -127422,20 +134525,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -127474,35 +134577,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 803
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 846
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id029
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -127512,8 +134615,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -127530,23 +134633,23 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -127560,10 +134663,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127573,12 +134676,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -127623,35 +134726,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 804
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_08_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 847
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id031
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -127661,8 +134764,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -127679,19 +134782,23 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 4
     LSPB: 32
-    LVCA: 16
+    LVCA: 64
     LVCB: 8
-    LVPA: 8
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetB: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -127705,10 +134812,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 96
+    MacroTileA: 128
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127718,18 +134825,18 @@
     NonTemporalC: 0
     NumElementsPerThread: 48
     NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -127768,35 +134875,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 805
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT06_08_USFGRO00_VW02_WG16_16_01
+    SolutionIndex: 848
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x096x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT08_06_USFGRO0_VW02_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id032
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 6]
+    ThreadTile0: 8
+    ThreadTile1: 6
+    ThreadTileA: 8
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id028
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -127807,7 +134914,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -127824,7 +134931,7 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 128
     LSCB: 16
     LSPA: 8
@@ -127834,13 +134941,9 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -127855,9 +134958,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127865,20 +134968,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -127917,46 +135020,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 806
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 849
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id030
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -127973,19 +135076,23 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -127998,11 +135105,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128010,8 +135117,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -128023,7 +135130,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -128062,46 +135169,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 807
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 850
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id029
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -128118,19 +135225,19 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6144
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128143,11 +135250,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128155,14 +135262,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -128207,46 +135314,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 808
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_08_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 851
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id031
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -128263,19 +135370,23 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 128
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6144
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128288,10 +135399,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -128300,20 +135411,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -128352,46 +135463,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 809
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 852
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id030
-    ThreadTile0: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -128408,19 +135519,19 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128433,11 +135544,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128445,13 +135556,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -128497,46 +135608,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 810
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 853
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id029
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -128553,23 +135664,23 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128582,11 +135693,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128594,13 +135705,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -128646,25 +135757,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 811
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 854
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id029
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -128678,7 +135789,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -128686,39 +135797,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128731,10 +135842,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 96
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 96
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -128743,14 +135854,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -128795,26 +135906,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 812
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x08_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 855
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT06_08_USFGRO0_VW02_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033 
-    ThreadTile0: 8
+    ThreadTile: [6, 8]
+    ThreadTile0: 6
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 6
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034 
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -128827,13 +135938,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -128853,21 +135964,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 8
+    LSCB: 16
     LSPA: 8
-    LSPB: 128
+    LSPB: 64
     LVCA: 32
-    LVCB: 2
+    LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128880,11 +135987,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128892,20 +135999,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -128944,25 +136051,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 813
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x08_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 856
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    SuppresssNoLoadLoop: false
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -128982,7 +136089,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -129001,18 +136108,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129026,9 +136137,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -129037,20 +136148,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129089,17 +136200,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 814
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 857
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id035 
-    ThreadTile0: 4
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -129107,8 +136218,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -129129,39 +136240,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129175,10 +136286,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 96
+    MacroTileA: 128
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129186,14 +136297,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -129238,26 +136349,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 815
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 858
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x096x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT08_06_USFGRO0_VW02_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id035
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 6]
+    ThreadTile0: 8
+    ThreadTile1: 6
+    ThreadTileA: 8
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -129295,18 +136406,18 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129320,9 +136431,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -129331,13 +136442,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -129383,17 +136494,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 816
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 859
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id036 
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -129401,8 +136512,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -129440,22 +136551,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129469,9 +136580,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -129480,13 +136591,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -129532,17 +136643,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 817
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 860
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id036
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -129550,8 +136661,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -129564,47 +136675,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 6144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129617,10 +136724,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
+    LoopUnroll: 24
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -129629,20 +136736,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129681,25 +136788,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 818
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT06_08_USFGRO0_VW02_WG16_16_01
+    SolutionIndex: 861
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id038 
-    ThreadTile0: 6
+    SuppresssNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id034
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -129713,13 +136820,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -129739,17 +136846,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 128
     LVCA: 32
-    LVCB: 4
+    LVCB: 2
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 3072
+    LdsNumElementsAlignedB: 3072
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 3072
+    LdsOffsetB_Blk: 11264
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129762,11 +136873,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 24
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129774,20 +136885,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 3
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 3
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129826,25 +136937,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 819
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 862
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id037 
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -129858,13 +136969,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -129884,21 +136995,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 128
     LVCA: 32
-    LVCB: 4
+    LVCB: 2
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129911,11 +137018,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 24
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129923,20 +137030,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 3
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 3
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129975,26 +137082,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 820
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 863
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id037
+    SuppresssNoLoadLoop: false
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -130007,7 +137114,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -130015,39 +137122,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
-    LSPA: 4
-    LSPB: 32
-    LVCA: 64
-    LVCB: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 3072
+    LdsNumElementsAlignedB: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 3072
+    LdsOffsetB_Blk: 11264
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -130060,11 +137167,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 24
     MacroTile0: 128
-    MacroTile1: 96
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 96
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130072,14 +137179,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 3
     NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 3
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -130124,26 +137231,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 821
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x096x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT08_06_USFGRO0_VW02_WG16_16_01
+    SolutionIndex: 864
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id039 
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 6
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 6
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -130156,7 +137263,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -130181,14 +137288,14 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsOffsetA: 0
@@ -130205,11 +137312,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130217,8 +137324,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -130269,25 +137376,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 822
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 865
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -130301,7 +137408,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -130326,14 +137433,14 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
@@ -130354,11 +137461,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130366,8 +137473,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -130418,25 +137525,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 823
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 866
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -130450,7 +137557,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -130475,18 +137582,18 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 6144
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 4096
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -130499,10 +137606,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 32
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -130511,14 +137618,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -130563,17 +137670,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 824
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 867
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id035
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -130581,8 +137688,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -130595,7 +137702,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -130620,22 +137727,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -130648,10 +137755,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 32
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -130660,14 +137767,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -130712,17 +137819,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 825
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 868
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id035
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -130730,8 +137837,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -130744,7 +137851,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -130769,18 +137876,18 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 8192
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 4096
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -130793,10 +137900,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 32
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -130805,14 +137912,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -130857,17 +137964,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 826
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 869
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id036
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -130875,8 +137982,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -130889,7 +137996,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -130914,22 +138021,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -130942,10 +138049,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 32
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -130954,14 +138061,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -131006,17 +138113,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 827
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 870
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id036
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -131024,8 +138131,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -131038,47 +138145,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
     LSPB: 32
     LVCA: 16
     LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -131091,11 +138194,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131103,20 +138206,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -131155,25 +138258,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 828
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT06_08_USFGRO0_VW02_WG16_16_01
+    SolutionIndex: 871
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id038
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id034
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -131187,13 +138290,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -131212,18 +138315,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -131236,10 +138343,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -131248,20 +138355,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -131300,17 +138407,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 829
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 872
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id037
-    ThreadTile0: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -131318,7 +138425,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -131332,13 +138439,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -131358,21 +138465,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 32
     LSPA: 8
-    LSPB: 64
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
+    LVCB: 8
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 4096
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -131385,7 +138488,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -131399,18 +138502,18 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -131449,14 +138552,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 830
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 873
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id037
+    SuppresssNoLoadLoop: false
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -131467,7 +138570,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -131481,7 +138584,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -131489,39 +138592,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
-    LSPA: 4
+    LSCB: 32
+    LSPA: 8
     LSPB: 32
-    LVCA: 64
+    LVCA: 32
     LVCB: 8
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -131534,11 +138637,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 128
-    MacroTile1: 96
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131546,14 +138649,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 4
-    NumLoadsB: 3
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -131598,25 +138701,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 831
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x096x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT08_06_USFGRO0_VW02_WG16_16_01
+    SolutionIndex: 874
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id039
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 6
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id034
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -131630,7 +138733,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -131656,17 +138759,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 32
     LSPA: 8
-    LSPB: 64
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
+    LVCB: 8
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 8192
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 4096
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -131679,7 +138782,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 128
     MacroTile1: 128
     MacroTileA: 128
@@ -131693,12 +138796,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -131743,14 +138846,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 832
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 875
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -131761,7 +138864,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -131775,7 +138878,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -131801,21 +138904,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 32
     LSPA: 8
-    LSPB: 64
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
+    LVCB: 8
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -131828,7 +138931,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 128
     MacroTile1: 128
     MacroTileA: 128
@@ -131842,12 +138945,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -131892,14 +138995,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 833
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 876
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -131910,57 +139013,61 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 4
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 4
+    LSPA: 4
+    LSPB: 16
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6144
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetB: 3072
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -131973,11 +139080,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131985,20 +139092,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -132037,48 +139144,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 834
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 877
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x04_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 2
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -132090,26 +139197,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 2
+    LSPA: 2
+    LSPB: 32
     LVCA: 32
     LVCB: 2
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 3072
-    LdsNumElementsAlignedB: 3072
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 3072
-    LdsOffsetB_Blk: 11264
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -132122,11 +139229,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132134,15 +139241,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -132186,25 +139293,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 835
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SolutionIndex: 878
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x02_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -132218,60 +139325,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6144
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132279,20 +139390,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -132331,26 +139442,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 836
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SolutionIndex: 879
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT02_02_USFGRO01_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -132363,7 +139474,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 4
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -132371,39 +139482,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 16
+    LSCB: 4
+    LSPA: 4
+    LSPB: 16
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 3072
-    LdsNumElementsAlignedB: 3072
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 3072
-    LdsOffsetB_Blk: 11264
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -132416,11 +139527,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132428,15 +139539,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -132480,26 +139591,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 837
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SolutionIndex: 880
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x04_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -132512,60 +139623,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132573,20 +139688,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -132625,25 +139740,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 838
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 881
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT008x008x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id035
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -132657,7 +139772,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 4
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -132665,39 +139780,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
+    LSCA: 16
+    LSCB: 4
+    LSPA: 4
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -132710,11 +139825,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132722,15 +139837,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -132774,25 +139889,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 839
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id035
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SolutionIndex: 882
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x04_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -132806,60 +139921,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
+    LSCA: 8
+    LSCB: 8
     LSPA: 8
-    LSPB: 32
-    LVCA: 32
+    LSPB: 8
+    LVCA: 8
     LVCB: 8
-    LVPA: 2
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6144
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132867,20 +139986,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -132919,25 +140038,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 840
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 883
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT008x008x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id037
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -132951,7 +140070,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -132959,56 +140078,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
+    LSCA: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 32
-    LVCA: 32
+    LSPB: 16
+    LVCA: 16
     LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -133016,15 +140135,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -133068,25 +140187,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 841
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id037
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SolutionIndex: 884
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -133100,60 +140219,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
+    LSCA: 8
+    LSCB: 8
     LSPA: 8
-    LSPB: 32
-    LVCA: 32
+    LSPB: 8
+    LVCA: 8
     LVCB: 8
-    LVPA: 2
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -133161,20 +140284,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -133213,25 +140336,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 842
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 885
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT008x008x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -133245,7 +140368,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -133253,56 +140376,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 4096
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -133310,14 +140433,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -133362,25 +140485,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 843
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SolutionIndex: 886
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -133394,16 +140517,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -133416,23 +140539,27 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 16
+    LVCA: 32
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3360
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -133443,11 +140570,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -133457,18 +140584,18 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -133507,14 +140634,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 844
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id035
+    SolutionIndex: 887
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x08_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG32_08_01
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -133525,8 +140652,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -133539,7 +140666,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -133548,7 +140675,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -133561,27 +140688,27 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 16
+    LVCA: 32
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3360
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -133592,11 +140719,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -133606,12 +140733,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -133656,14 +140783,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 845
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 888
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x08_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG32_08_01
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppresssNoLoadLoop: true
-    ThreadTile: *id035
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -133674,7 +140801,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -133688,13 +140815,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -133713,20 +140840,24 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6144
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -133737,10 +140868,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -133749,20 +140880,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -133801,17 +140932,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 846
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 889
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id037
-    ThreadTile0: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -133819,8 +140950,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -133833,7 +140964,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -133859,23 +140990,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 32
+    LSCB: 16
     LSPA: 8
-    LSPB: 32
+    LSPB: 64
     LVCA: 32
-    LVCB: 8
+    LVCB: 4
     LVPA: 2
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -133886,7 +141017,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -133900,12 +141031,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -133950,26 +141081,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 847
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 890
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_08_USFGRO0_VW04_WG32_08_01
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppresssNoLoadLoop: true
-    ThreadTile: *id037
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -133982,7 +141113,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -133990,37 +141121,37 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
+    LSCA: 32
+    LSCB: 16
     LSPA: 8
-    LSPB: 32
+    LSPB: 16
     LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 2592
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -134031,10 +141162,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -134043,21 +141174,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsA: 2
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 8
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134095,25 +141226,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 848
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 891
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x128x16_DTL0_EPS0_GRVW01_LPB02_PGR0_SNLL0_TT04_04_USFGRO01_VW01_WG08_32_01
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 1
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -134127,49 +141258,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
+    LSCB: 16
+    LSPA: 2
+    LSPB: 16
+    LVCA: 128
+    LVCB: 16
     LVPA: 2
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 4096
+    LdsNumElements: 2592
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -134180,11 +141307,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134192,21 +141319,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134244,46 +141371,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 849
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SolutionIndex: 892
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x16_DTL0_EPS0_GRVW01_LPB02_PGR0_SNLL0_TT04_04_USFGRO01_VW02_WG32_08_01
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
-    DirectToLds: false
-    DirectToLdsA: false
+    DepthU: 16
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -134292,7 +141419,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -134300,40 +141427,36 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 4
-    LSPA: 4
+    KernelLanguage: Assembly
+    LSCA: 256
+    LSCB: 16
+    LSPA: 1
     LSPB: 16
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LVCA: 256
+    LVCB: 16
+    LVPA: 1
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 4640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 4096
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 256
+    MacroTile1: 32
+    MacroTileA: 256
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134341,21 +141464,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 16
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 16
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134393,46 +141516,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 850
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x04_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 893
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x032x16_DTL1_EPS0_GRVW01_LPB02_PGR0_SNLL0_TT08_04_USFGRO01_VW02_WG32_08_01
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 32
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id040 
-    WorkGroupMapping: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 2
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -134441,33 +141564,29 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 2
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
     LSPA: 2
-    LSPB: 32
-    LVCA: 32
-    LVCB: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
     LVPA: 2
-    LVPB: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 1600
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -134478,10 +141597,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -134491,20 +141610,20 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134542,11 +141661,11 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 851
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x02_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 894
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS0_GRVW01_LPB04_PGR0_SNLL0_TT04_04_USFGRO01_VW01_WG16_08_01
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -134555,13 +141674,13 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id040
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -134580,7 +141699,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -134590,48 +141709,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 16
-    LSPA: 16
+    LSPA: 4
     LSPB: 16
-    LVCA: 16
+    LVCA: 64
     LVCB: 16
-    LVPA: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134639,21 +141754,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134691,26 +141806,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 852
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT02_02_USFGRO01_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id041 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 895
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW01_LPB04_PGR0_SNLL0_TT04_04_USFGRO01_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id044 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -134723,49 +141838,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 4
-    LSPA: 4
-    LSPB: 16
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
     LVCA: 16
     LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -134776,11 +141887,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134788,21 +141899,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134840,26 +141951,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 853
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x04_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 896
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB04_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id042 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -134872,64 +141983,60 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 128
+    LSCB: 16
     LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3136
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134937,21 +142044,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134989,31 +142096,30 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 854
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT008x008x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SolutionIndex: 897
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB04_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id043 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -135021,14 +142127,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -135037,31 +142142,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 4
-    LSPA: 4
-    LSPB: 16
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 2
+    LSPB: 32
+    LVCA: 128
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -135074,11 +142179,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135086,15 +142191,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -135138,31 +142241,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 855
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x04_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 898
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x08_DTL0_GRVW01_GSU08_PGR1_PLR1_TT08_04_USFGRO01_VW01_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id042
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -135171,13 +142274,12 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -135186,48 +142288,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 256
     LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
+    LSPA: 1
+    LSPB: 32
+    LVCA: 256
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 1
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2304
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 256
+    MacroTile1: 32
+    MacroTileA: 256
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135235,20 +142333,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 8
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -135287,31 +142383,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 856
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT008x008x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 899
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x032x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT08_04_USFGRO01_VW04_WG32_08_01_WGM08
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id043
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -135325,10 +142421,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -135336,47 +142431,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 128
     LSCB: 8
-    LSPA: 8
-    LSPB: 16
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135384,15 +142479,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -135436,31 +142529,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 857
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 900
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x08_DTL0_GRVW02_GSU01_PGR1_PLR1_TT08_04_USFGRO0_VW02_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -135474,10 +142567,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -135485,47 +142577,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 128
     LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135533,15 +142625,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -135585,31 +142675,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 858
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT008x008x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 901
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x08_DTL0_GRVW02_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW02_WG32_08_01_WGM01
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id043
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -135617,64 +142707,63 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
-    LVPA: 16
+    LVCB: 2
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135682,15 +142771,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -135734,31 +142821,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 859
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
-    SubGroup0: 8
+    SolutionIndex: 902
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG16_08_01_WGM01
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id044
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -135772,10 +142859,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -135788,27 +142874,27 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
+    LSPB: 64
+    LVCA: 16
+    LVCB: 2
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3360
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -135820,10 +142906,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135831,15 +142917,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -135883,31 +142967,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 860
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x08_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG32_08_01
-    SubGroup0: 32
+    SolutionIndex: 903
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG16_08_01_WGM08
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id045 
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id046 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -135915,16 +142999,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -135937,27 +143020,23 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3360
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -135968,11 +143047,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135980,20 +143059,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -136032,17 +143109,16 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 861
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x08_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG32_08_01
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id045
-    ThreadTile0: 4
+    SolutionIndex: 904
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT08_04_USFGRO0_VW04_WG08_32_01_WGM01
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -136050,13 +143126,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id046
-    WorkGroupMapping: 8
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -136070,8 +143147,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -136098,15 +143174,15 @@
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6208
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136131,8 +143207,6 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -136181,14 +143255,13 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 862
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 905
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG16_16_01_WGM01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id045
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -136202,10 +143275,11 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -136219,8 +143293,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -136238,24 +143311,20 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136267,10 +143336,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -136280,18 +143349,16 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -136330,13 +143397,12 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 863
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_08_USFGRO0_VW04_WG32_08_01
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppresssNoLoadLoop: true
+    SolutionIndex: 906
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT04_08_USFGRO0_VW04_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
@@ -136348,13 +143414,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id046
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -136368,39 +143435,38 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 128
     LSCB: 16
     LSPA: 8
-    LSPB: 16
+    LSPB: 64
     LVCA: 32
-    LVCB: 16
-    LVPA: 8
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2592
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136412,10 +143478,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -136423,21 +143489,19 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 8
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 8
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -136475,31 +143539,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 864
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x128x16_DTL0_EPS0_GRVW01_LPB02_PGR0_SNLL0_TT04_04_USFGRO01_VW01_WG08_32_01
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id047 
-    ThreadTile0: 4
+    SolutionIndex: 907
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT08_04_USFGRO0_VW04_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -136513,39 +143577,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 16
-    LSPA: 2
-    LSPB: 16
-    LVCA: 128
-    LVCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2592
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136558,9 +143625,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -136568,21 +143635,19 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -136620,31 +143685,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 865
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x16_DTL0_EPS0_GRVW01_LPB02_PGR0_SNLL0_TT04_04_USFGRO01_VW02_WG32_08_01
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id047
-    ThreadTile0: 4
+    SolutionIndex: 908
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT08_04_USFGRO0_VW04_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id048 
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -136653,59 +143718,62 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 16
-    DirectToLds: true
-    DirectToLdsA: true
+    DirectToLds: false
+    DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 256
+    LSCA: 128
     LSCB: 16
-    LSPA: 1
-    LSPB: 16
-    LVCA: 256
-    LVCB: 16
-    LVPA: 1
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4640
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: true
+    LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 256
-    MacroTile1: 32
-    MacroTileA: 256
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -136714,20 +143782,18 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 16
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 16
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -136765,31 +143831,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 866
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x032x16_DTL1_EPS0_GRVW01_LPB02_PGR0_SNLL0_TT08_04_USFGRO01_VW02_WG32_08_01
+    SolutionIndex: 909
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG32_08_01_WGM01
     SubGroup0: 32
     SubGroup1: 8
     SubGroupA: 32
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id050 
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id048
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -136803,39 +143869,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
     LVPA: 2
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1600
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136847,10 +143916,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -136858,21 +143927,19 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 8
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -136910,77 +143977,82 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 867
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS0_GRVW01_LPB04_PGR0_SNLL0_TT04_04_USFGRO01_VW01_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 910
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG32_08_01_WGM08
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id047
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136991,10 +144063,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -137003,21 +144075,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -137055,33 +144130,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 868
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW01_LPB04_PGR0_SNLL0_TT04_04_USFGRO01_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 911
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id047
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id049 
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -137093,8 +144178,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -137109,23 +144194,27 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -137137,10 +144226,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -137148,21 +144237,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -137200,48 +144292,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 869
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB04_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 912
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id047
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id049
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -137254,23 +144356,27 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
     LSPB: 64
     LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -137281,7 +144387,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -137295,19 +144401,22 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -137345,14 +144454,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 870
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB04_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 913
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id050
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -137363,59 +144479,64 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id049
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: false
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 8
-    LSPA: 2
-    LSPB: 32
-    LVCA: 128
-    LVCB: 8
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -137428,11 +144549,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -137440,13 +144561,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -137490,74 +144616,89 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 871
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x08_DTL0_GRVW01_GSU08_PGR1_PLR1_TT08_04_USFGRO01_VW01_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 914
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id051 
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id052 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
-    DirectToLds: true
-    DirectToLdsA: true
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 256
-    LSCB: 8
-    LSPA: 1
-    LSPB: 32
-    LVCA: 256
-    LVCB: 8
-    LVPA: 1
-    LVPB: 32
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2304
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -137566,15 +144707,15 @@
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: true
+    LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 256
-    MacroTile1: 32
-    MacroTileA: 256
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -137582,18 +144723,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -137632,44 +144778,55 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 872
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x032x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT08_04_USFGRO01_VW04_WG32_08_01_WGM08
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    ThreadTile: *id051
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 915
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM32
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id053 
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -137685,42 +144842,42 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -137728,13 +144885,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -137778,16 +144940,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 873
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x08_DTL0_GRVW02_GSU01_PGR1_PLR1_TT08_04_USFGRO0_VW02_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 916
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW2_GSU1_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_8_2_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    ThreadTile: *id051
-    ThreadTile0: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -137795,16 +144965,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id052
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -137816,8 +144988,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -137825,33 +144998,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 4
+    LSPA: 8
     LSPB: 64
-    LVCA: 64
+    LVCA: 32
     LVCB: 4
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -137875,12 +145048,17 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -137924,44 +145102,55 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 874
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x08_DTL0_GRVW02_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW02_WG32_08_01_WGM01
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    ThreadTile: *id054 
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 917
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id053
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -137977,31 +145166,31 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
+    LSCA: 32
+    LSCB: 16
     LSPA: 8
-    LSPB: 64
-    LVCA: 16
-    LVCB: 2
+    LSPB: 16
+    LVCA: 8
+    LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1856
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
     LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -138009,10 +145198,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -138020,13 +145209,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -138070,44 +145264,55 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 875
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG16_08_01_WGM01
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    ThreadTile: *id054
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 918
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_4_2_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id055 
-    WorkGroupMapping: 1
+    WorkGroup: [8, 4, 2]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -138123,27 +145328,27 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
+    LSCA: 128
+    LSCB: 16
     LSPA: 8
     LSPB: 64
-    LVCA: 16
-    LVCB: 2
+    LVCA: 32
+    LVCB: 4
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -138154,10 +145359,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -138170,9 +145375,14 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -138216,33 +145426,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 876
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG16_08_01_WGM08
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 919
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    ThreadTile: *id054
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id055
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -138254,9 +145474,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -138269,38 +145490,42 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
+    LVCB: 8
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -138308,18 +145533,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -138358,16 +145588,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 877
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT08_04_USFGRO0_VW04_WG08_32_01_WGM01
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    ThreadTile: *id051
-    ThreadTile0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 920
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -138375,16 +145613,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -138396,6 +145636,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -138411,7 +145652,7 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
@@ -138423,26 +145664,26 @@
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -138461,6 +145702,11 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -138504,44 +145750,55 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 878
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 921
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    ThreadTile: [4, 4]
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id052
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -138557,27 +145814,31 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -138585,10 +145846,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -138596,18 +145857,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -138646,44 +145912,55 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 879
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT04_08_USFGRO0_VW04_WG16_16_01_WGM01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    ThreadTile: *id054
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 922
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_4_2_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id052
-    WorkGroupMapping: 1
+    WorkGroup: [8, 4, 2]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -138699,27 +145976,31 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -138727,10 +146008,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -138738,18 +146019,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -138788,16 +146074,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 880
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT08_04_USFGRO0_VW04_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 923
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    ThreadTile: *id051
-    ThreadTile0: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -138805,16 +146099,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id052
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -138826,6 +146122,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -138841,7 +146138,7 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
@@ -138853,15 +146150,15 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 7232
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -138891,6 +146188,11 @@
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -138934,13 +146236,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 881
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT08_04_USFGRO0_VW04_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 924
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id051
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -138951,16 +146261,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id052
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -138972,9 +146284,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -138987,42 +146300,42 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -139030,13 +146343,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -139080,33 +146398,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 882
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG32_08_01_WGM01
-    SubGroup0: 32
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 925
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 8
-    ThreadTile: *id054
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id053
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -139118,6 +146446,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -139133,41 +146462,41 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -139176,13 +146505,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -139226,13 +146560,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 883
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG32_08_01_WGM08
-    SubGroup0: 32
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 926
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 8
-    ThreadTile: *id054
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -139243,9 +146585,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id053
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -139259,7 +146602,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -139285,27 +146628,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 8
+    LSCB: 16
     LSPA: 8
-    LSPB: 64
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
+    LVCB: 8
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -139314,9 +146657,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -139324,11 +146667,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -139383,15 +146726,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 884
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM4
+    SolutionIndex: 927
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -139404,10 +146747,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -139421,7 +146764,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -139446,28 +146789,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 7296
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -139475,10 +146818,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -139486,12 +146829,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -139545,31 +146888,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 885
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM4
+    SolutionIndex: 928
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -139583,7 +146926,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -139592,7 +146935,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -139609,23 +146952,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 8
+    LSCB: 16
     LSPA: 8
     LSPB: 64
     LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -139636,7 +146979,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -139652,7 +146995,7 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -139707,8 +147050,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 886
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 929
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -139729,9 +147072,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -139754,7 +147097,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -139770,39 +147113,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -139810,12 +147153,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -139869,29 +147212,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 887
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 930
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -139932,39 +147275,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -139972,12 +147315,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -140031,20 +147374,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 888
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM32
+    SolutionIndex: 931
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -140052,8 +147395,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 32
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -140069,7 +147412,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -140077,7 +147420,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -140085,33 +147428,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 128
+    LSCB: 16
     LSPA: 8
-    LSPB: 16
+    LSPB: 32
     LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -140122,10 +147465,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -140134,12 +147477,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -140193,8 +147536,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 889
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW2_GSU1_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_8_2_WGM4
+    SolutionIndex: 932
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140203,21 +147546,21 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 4
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -140231,7 +147574,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -140240,7 +147583,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -140256,39 +147599,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -140296,11 +147639,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -140355,177 +147698,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 890
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM4
+    SolutionIndex: 933
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
-    UnrollMemFence: false
-    UseSgprForGRO: false
-    Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 4
-    WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
-    AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
-    AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: false
-    AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
-    BufferStore: true
-    CheckDimOverflow: 0
-    CheckTensorDimAsserts: false
-    DepthU: 16
-    DirectToLds: false
-    DirectToLdsA: false
-    DirectToLdsB: false
-    DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
-    GlobalRead2A: true
-    GlobalRead2B: true
-    GlobalReadCoalesceGroupA: true
-    GlobalReadCoalesceGroupB: true
-    GlobalReadCoalesceVectorA: true
-    GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
-    GlobalSplitUSummationAssignmentRoundRobin: true
-    GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
-    InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 8
-    LVCB: 4
-    LVPA: 2
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 1856
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
-    LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 4
-    LocalDotLayout: 1
-    LocalRead2A: true
-    LocalRead2B: true
-    LocalSplitU: 2
-    LocalWrite2A: true
-    LocalWrite2B: true
-    LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
-    MacroTileShapeMax: 64
-    MacroTileShapeMin: 1
-    MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
-    NonTemporalA: 0
-    NonTemporalB: 0
-    NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
-    PackBatchDims: 0
-    PackFreeDims: 1
-    PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
-    PerformanceSyncLocation: -1
-    PerformanceWaitCount: -1
-    PerformanceWaitLocation: -1
-    PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
-    ProblemType:
-      AssignedDerivedParameters: true
-      Batched: true
-      ComplexConjugateA: false
-      ComplexConjugateB: false
-      DataType: 0
-      DestDataType: 0
-      HighPrecisionAccumulate: false
-      Index0: 0
-      Index01A: 0
-      Index01B: 1
-      Index1: 1
-      IndexAssignmentsA: [0, 3, 2]
-      IndexAssignmentsB: [3, 1, 2]
-      IndexUnroll: 3
-      IndexUnrollA: 1
-      IndexUnrollB: 0
-      IndicesBatch: [2]
-      IndicesFree: [0, 1]
-      IndicesSummation: [3]
-      NumIndicesBatch: 1
-      NumIndicesC: 3
-      NumIndicesFree: 2
-      NumIndicesSummation: 1
-      OperationType: GEMM
-      SilentHighPrecisionAccumulate: false
-      TLUA: true
-      TLUB: false
-      Tensor0: 0
-      Tensor1: 1
-      TileA: 0
-      TileB: 1
-      TotalIndices: 4
-      TransposeA: false
-      TransposeB: false
-      UseBeta: true
-      UseInitialStrides: false
-    ReplacementKernel: false
-    ScheduleGlobalRead: 1
-    ScheduleIterAlg: 1
-    ScheduleLocalWrite: 1
-    SolutionIndex: 891
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_4_2_WGM4
-    StaggerU: 32
-    StaggerUMapping: 0
-    StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -140538,10 +147719,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 4, 2]
-    WorkGroupMapping: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -140679,8 +147860,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 892
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM4
+    SolutionIndex: 934
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM32
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140701,7 +147882,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 4
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -140841,8 +148022,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 893
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM4
+    SolutionIndex: 935
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM32
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140863,7 +148044,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 4
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -140879,7 +148060,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -140905,21 +148086,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
+    LVCB: 8
     LVPA: 4
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -140932,11 +148113,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -140944,11 +148125,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -141003,8 +148184,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 894
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM4
+    SolutionIndex: 936
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM32
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -141013,11 +148194,11 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -141025,9 +148206,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 4
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -141041,7 +148222,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -141050,7 +148231,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -141066,39 +148247,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 128
+    LSCB: 8
     LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
     LVPA: 2
-    LVPB: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3712
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 640
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141106,13 +148287,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -141138,6 +148319,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -141147,6 +148329,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -141165,20 +148348,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 895
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_4_2_WGM4
+    SolutionIndex: 937
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM2
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -141186,10 +148369,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 4, 2]
-    WorkGroupMapping: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 2
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -141203,7 +148386,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -141212,7 +148395,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -141228,39 +148411,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141268,11 +148451,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -141300,6 +148483,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -141309,6 +148493,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -141327,31 +148512,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 896
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM4
+    SolutionIndex: 938
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM2
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 2
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -141365,7 +148550,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -141374,7 +148559,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -141390,24 +148575,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSCA: 256
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
     LVCB: 4
-    LVPA: 2
+    LVPA: 1
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
+    LdsNumElements: 6400
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -141418,11 +148603,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 256
+    MacroTile1: 32
+    MacroTileA: 256
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141462,6 +148647,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -141471,6 +148657,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -141489,31 +148676,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 897
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 939
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x32x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG64_4_1_WGM2
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 64
+    SubGroup1: 4
+    SubGroupA: 64
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [64, 4, 1]
+    WorkGroupMapping: 2
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -141527,7 +148714,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -141552,28 +148739,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -141581,9 +148768,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -141592,8 +148779,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -141624,6 +148811,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -141633,6 +148821,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -141651,14 +148840,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 898
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
+    SolutionIndex: 940
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS1_PGR1_SNLL1_TT4_4_WG32_8_1_WGM4
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -141672,10 +148861,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -141689,7 +148878,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -141698,7 +148887,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -141714,28 +148903,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -141743,9 +148932,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -141754,8 +148943,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -141786,6 +148975,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -141795,6 +148985,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -141813,14 +149004,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 899
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM8
+    SolutionIndex: 941
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM7
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 8]
@@ -141834,10 +149025,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 7
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -141851,7 +149042,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -141877,27 +149068,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 32
+    LSPB: 64
     LVCA: 32
-    LVCB: 8
+    LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -141906,9 +149097,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141916,11 +149107,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -141948,6 +149139,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -141957,6 +149149,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -141975,31 +149168,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 900
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_8_2_WGM8
+    SolutionIndex: 942
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM15
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 15
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -142013,7 +149206,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -142022,7 +149215,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -142038,39 +149231,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142078,11 +149271,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -142110,6 +149303,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -142119,6 +149313,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -142137,20 +149332,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 901
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
+    SolutionIndex: 943
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -142158,10 +149353,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -142175,7 +149370,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -142184,7 +149379,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -142201,23 +149396,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
     LSPB: 64
     LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -142228,7 +149423,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -142244,7 +149439,7 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -142272,6 +149467,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -142281,6 +149477,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -142299,8 +149496,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 902
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM16
+    SolutionIndex: 944
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM17
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -142321,9 +149518,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 17
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -142337,13 +149534,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
@@ -142362,28 +149559,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LSCA: 256
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 4
+    LVPA: 1
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -142391,10 +149584,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 256
+    MacroTile1: 16
+    MacroTileA: 256
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142402,11 +149595,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -142418,7 +149611,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -142434,6 +149627,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -142443,6 +149637,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -142461,16 +149656,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 903
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
+    SolutionIndex: 945
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x16x8_SE_EPS0_PGR0_SNLL0_TT4_4_WG64_4_1_WGM17
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroup0: 64
+    SubGroup1: 4
+    SubGroupA: 64
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -142482,10 +149677,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [64, 4, 1]
+    WorkGroupMapping: 17
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -142499,7 +149694,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -142508,7 +149703,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -142524,28 +149719,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -142553,9 +149748,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -142564,8 +149759,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -142596,6 +149791,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -142605,6 +149801,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -142623,14 +149820,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 904
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM16
+    SolutionIndex: 946
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM32
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 8]
@@ -142644,10 +149841,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -142661,13 +149858,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
@@ -142686,28 +149883,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 16
+    LSCA: 256
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 4
+    LVPA: 1
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -142715,10 +149908,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 256
+    MacroTile1: 16
+    MacroTileA: 256
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142742,7 +149935,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -142758,6 +149951,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -142767,6 +149961,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -142785,20 +149980,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 905
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_8_2_WGM16
+    SolutionIndex: 947
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x16x8_SE_EPS0_PGR0_SNLL0_TT4_4_WG64_4_1_WGM32
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 64
+    SubGroup1: 4
+    SubGroupA: 64
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -142806,10 +150001,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [64, 4, 1]
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -142823,7 +150018,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -142849,27 +150044,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -142878,9 +150073,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142888,11 +150083,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -142920,6 +150115,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -142929,6 +150125,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -142947,15 +150144,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 906
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
+    SolutionIndex: 948
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM2
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -142968,10 +150165,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 2
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -143010,38 +150207,38 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -143050,11 +150247,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -143082,6 +150279,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -143091,6 +150289,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -143109,29 +150308,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 907
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM32
+    SolutionIndex: 949
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM2
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 32
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 2
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -143156,7 +150355,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -143175,36 +150374,36 @@
     LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -143212,12 +150411,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -143244,6 +150443,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -143253,6 +150453,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -143271,29 +150472,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 908
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM32
+    SolutionIndex: 950
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_16_1_WGM7
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 32
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 7
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -143309,7 +150510,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -143335,23 +150536,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -143362,11 +150563,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -143374,11 +150575,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -143406,6 +150607,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -143415,6 +150617,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -143433,8 +150636,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 909
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM32
+    SolutionIndex: 951
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM7
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -143443,11 +150646,11 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -143455,9 +150658,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 32
+    WorkGroupMapping: 7
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -143471,7 +150674,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -143480,7 +150683,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -143496,18 +150699,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -143517,7 +150720,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -143525,9 +150728,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -143536,8 +150739,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -143597,31 +150800,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 910
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM2
+    SolutionIndex: 952
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM11
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 11
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -143635,7 +150838,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -143644,7 +150847,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -143660,18 +150863,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -143688,10 +150891,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -143700,8 +150903,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -143761,31 +150964,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 911
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM2
+    SolutionIndex: 953
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -143799,7 +151002,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -143808,7 +151011,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -143824,28 +151027,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 256
-    LSCB: 8
-    LSPA: 4
-    LSPB: 32
-    LVCA: 64
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
     LVCB: 4
-    LVPA: 1
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -143853,10 +151056,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 256
-    MacroTile1: 32
-    MacroTileA: 256
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -143864,11 +151067,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -143925,15 +151128,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 912
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x32x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG64_4_1_WGM2
+    SolutionIndex: 954
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM32
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 64
-    SubGroup1: 4
-    SubGroupA: 64
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 8]
     ThreadTile0: 4
@@ -143946,10 +151149,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [64, 4, 1]
-    WorkGroupMapping: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -143963,7 +151166,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -143988,18 +151191,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 32
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -144009,7 +151212,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -144017,9 +151220,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -144028,8 +151231,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -144089,14 +151292,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 913
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS1_PGR1_SNLL1_TT4_4_WG32_8_1_WGM4
+    SolutionIndex: 955
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_8_2_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -144110,10 +151313,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -144127,7 +151330,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -144136,7 +151339,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -144152,38 +151355,38 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -144192,12 +151395,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -144253,14 +151456,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 914
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM7
+    SolutionIndex: 956
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM32
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 8]
@@ -144274,10 +151477,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 7
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -144417,29 +151620,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 915
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM15
+    SolutionIndex: 957
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 15
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -144455,7 +151658,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -144464,7 +151667,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -144480,18 +151683,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -144508,10 +151711,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -144520,8 +151723,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -144581,8 +151784,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 916
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM16
+    SolutionIndex: 958
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -144591,10 +151794,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -144603,9 +151806,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -144619,7 +151822,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -144628,7 +151831,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -144645,21 +151848,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 8
+    LSCB: 16
     LSPA: 8
     LSPB: 64
     LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -144672,7 +151875,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -144688,7 +151891,7 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -144745,8 +151948,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 917
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM17
+    SolutionIndex: 959
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -144767,9 +151970,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 17
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -144783,16 +151986,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -144808,18 +152011,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 256
-    LSCB: 8
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
+    LSCA: 128
+    LSCB: 16
+    LSPA: 16
+    LSPB: 128
+    LVCA: 32
     LVCB: 4
-    LVPA: 1
-    LVPB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2176
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -144832,11 +152039,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 256
-    MacroTile1: 16
-    MacroTileA: 256
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -144844,13 +152051,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -144860,7 +152067,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -144905,20 +152112,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 918
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x16x8_SE_EPS0_PGR0_SNLL0_TT4_4_WG64_4_1_WGM17
+    SolutionIndex: 960
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_32_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 64
-    SubGroup1: 4
-    SubGroupA: 64
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 32
+    SubGroupA: 16
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -144926,10 +152133,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [64, 4, 1]
-    WorkGroupMapping: 17
+    WorkGroup: [16, 32, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -144943,7 +152150,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -144952,7 +152159,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -144968,18 +152175,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -144996,10 +152203,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145008,8 +152215,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -145069,31 +152276,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 919
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM32
+    SolutionIndex: 961
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 32
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -145113,8 +152320,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -145132,18 +152339,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 256
+    LSCA: 128
     LSCB: 8
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
     LVCB: 4
-    LVPA: 1
-    LVPB: 8
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2176
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -145157,10 +152368,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 256
-    MacroTile1: 16
-    MacroTileA: 256
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -145168,11 +152379,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -145184,13 +152397,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -145229,33 +152443,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 920
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x16x8_SE_EPS0_PGR0_SNLL0_TT4_4_WG64_4_1_WGM32
+    SolutionIndex: 962
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 64
-    SubGroup1: 4
-    SubGroupA: 64
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [64, 4, 1]
-    WorkGroupMapping: 32
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -145267,7 +152479,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -145276,7 +152488,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -145292,18 +152504,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -145320,10 +152532,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145332,8 +152544,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -145355,6 +152567,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -145393,8 +152606,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 921
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM2
+    SolutionIndex: 963
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -145403,21 +152616,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 2
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -145431,16 +152644,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -145456,18 +152669,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -145477,7 +152690,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -145485,9 +152698,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145496,8 +152709,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -145519,6 +152734,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -145557,33 +152773,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 922
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM2
+    SolutionIndex: 964
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -145595,7 +152809,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -145604,7 +152818,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -145620,22 +152834,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -145648,11 +152862,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -145665,7 +152879,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -145683,6 +152897,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -145721,8 +152936,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 923
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_16_1_WGM7
+    SolutionIndex: 965
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -145731,21 +152946,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 7
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -145766,7 +152981,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -145784,39 +152999,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -145824,12 +153039,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -145847,6 +153064,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -145885,33 +153103,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 924
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM7
+    SolutionIndex: 966
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 7
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -145948,39 +153164,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -145988,12 +153204,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -146011,6 +153227,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -146049,29 +153266,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 925
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM11
+    SolutionIndex: 967
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 11
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -146094,7 +153311,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -146112,22 +153329,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -146141,10 +153358,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -146152,12 +153369,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -146175,6 +153394,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -146213,8 +153433,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 926
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM16
+    SolutionIndex: 968
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -146223,23 +153443,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -146276,39 +153494,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -146316,12 +153534,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -146339,6 +153557,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -146377,29 +153596,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 927
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM32
+    SolutionIndex: 969
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 32
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -146415,53 +153634,53 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 16
+    LVCA: 32
     LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3344
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -146469,10 +153688,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -146480,12 +153699,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -146503,6 +153724,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -146541,33 +153763,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 928
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_8_2_WGM64
+    SolutionIndex: 970
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_DTL0_EPS1_FL0_GRVW1_LPB2_PGR1_PLR1_SNLL1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -146579,53 +153799,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -146646,10 +153862,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -146660,13 +153878,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -146705,33 +153924,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 929
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM32
+    SolutionIndex: 971
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 32
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -146743,49 +153960,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -146796,10 +154009,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -146808,12 +154021,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -146824,13 +154039,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -146869,8 +154085,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 930
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM8
+    SolutionIndex: 972
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -146878,14 +154094,14 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -146893,9 +154109,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -146907,7 +154121,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -146915,41 +154129,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
     LSPB: 64
-    LVCA: 16
+    LVCA: 48
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3344
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -146960,10 +154174,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -146972,11 +154186,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -146995,6 +154209,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -147033,8 +154248,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 931
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 973
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_LPB2_PGR1_PLR1_SNLL1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147043,22 +154258,22 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -147078,42 +154293,42 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6688
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -147125,9 +154340,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -147136,12 +154351,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -147153,12 +154370,13 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -147197,8 +154415,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 932
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM1
+    SolutionIndex: 974
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_DTL0_EPS1_FL0_GRVW2_LPB2_PGR1_PLR0_SNLL1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147207,23 +154425,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -147242,42 +154458,42 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 16
-    LSPB: 128
+    LSPA: 8
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
+    LVCB: 8
     LVPA: 4
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 6688
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1600
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -147289,10 +154505,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -147300,13 +154516,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 2
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -147317,12 +154535,13 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -147361,33 +154580,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 933
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_32_1_WGM1
+    SolutionIndex: 975
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_DTL0_EPS1_FL0_GRVW2_LPB2_PGR1_PLR0_SNLL1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 32
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 32
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 32, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -147407,41 +154624,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 6688
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 1600
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -147454,9 +154671,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -147464,12 +154681,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -147481,12 +154698,13 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -147525,8 +154743,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 934
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 976
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_DTL0_EPS1_FL1_GRVW2_LPB2_PGR1_PLR0_SNLL1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147535,17 +154753,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -147597,15 +154815,15 @@
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -147692,8 +154910,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 935
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 977
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147762,15 +154980,15 @@
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -147855,8 +155073,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 936
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 978
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147927,15 +155145,15 @@
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -148022,8 +155240,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 937
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 979
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148092,15 +155310,15 @@
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -148185,175 +155403,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 938
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
-    StaggerU: 32
-    StaggerUMapping: 0
-    StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
-    UnrollMemFence: false
-    UseSgprForGRO: 0
-    Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
-    WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
-    AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
-    AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: false
-    AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
-    BufferStore: true
-    CheckDimOverflow: 0
-    CheckTensorDimAsserts: false
-    DepthU: 16
-    DirectToLds: false
-    DirectToLdsA: false
-    DirectToLdsB: false
-    DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
-    GlobalRead2A: true
-    GlobalRead2B: true
-    GlobalReadCoalesceGroupA: true
-    GlobalReadCoalesceGroupB: true
-    GlobalReadCoalesceVectorA: true
-    GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
-    GlobalSplitUSummationAssignmentRoundRobin: true
-    GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
-    InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
-    LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
-    LocalDotLayout: 1
-    LocalRead2A: true
-    LocalRead2B: true
-    LocalSplitU: 1
-    LocalWrite2A: true
-    LocalWrite2B: true
-    LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
-    MacroTileShapeMax: 64
-    MacroTileShapeMin: 1
-    MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
-    NonTemporalA: 0
-    NonTemporalB: 0
-    NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
-    PackBatchDims: 0
-    PackFreeDims: 1
-    PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
-    PerformanceSyncLocation: -1
-    PerformanceWaitCount: -1
-    PerformanceWaitLocation: -1
-    PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
-    ProblemType:
-      AssignedDerivedParameters: true
-      Batched: true
-      ComplexConjugateA: false
-      ComplexConjugateB: false
-      ComputeDataType: 0
-      DataType: 0
-      DestDataType: 0
-      HighPrecisionAccumulate: false
-      Index0: 0
-      Index01A: 0
-      Index01B: 1
-      Index1: 1
-      IndexAssignmentsA: [0, 3, 2]
-      IndexAssignmentsB: [3, 1, 2]
-      IndexAssignmentsLD: [4, 5, 6, 7]
-      IndexUnroll: 3
-      IndexUnrollA: 1
-      IndexUnrollB: 0
-      IndicesBatch: [2]
-      IndicesFree: [0, 1]
-      IndicesSummation: [3]
-      NumIndicesBatch: 1
-      NumIndicesC: 3
-      NumIndicesFree: 2
-      NumIndicesLD: 4
-      NumIndicesSummation: 1
-      OperationType: GEMM
-      SilentHighPrecisionAccumulate: false
-      TLUA: true
-      TLUB: false
-      Tensor0: 0
-      Tensor1: 1
-      TileA: 0
-      TileB: 1
-      TotalIndices: 4
-      TransposeA: false
-      TransposeB: false
-      UseBeta: true
-      UseInitialStrides: false
-    ReplacementKernel: false
-    ScheduleGlobalRead: 1
-    ScheduleIterAlg: 1
-    ScheduleLocalWrite: 1
-    SolutionIndex: 939
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 980
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148362,11 +155413,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
@@ -148374,9 +155425,11 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -148394,8 +155447,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -148413,24 +155466,20 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -148442,10 +155491,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148453,12 +155502,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -148469,7 +155520,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -148515,8 +155566,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 940
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 981
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148524,12 +155575,12 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
@@ -148540,8 +155591,6 @@
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -148587,15 +155636,15 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 7232
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -148608,9 +155657,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148618,14 +155667,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -148682,8 +155731,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 941
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 982
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148692,11 +155741,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
@@ -148704,7 +155753,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -148752,15 +155801,15 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 7232
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -148773,9 +155822,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148783,12 +155832,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -148845,8 +155894,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 942
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 983
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148855,11 +155904,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
@@ -148867,7 +155916,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -148883,49 +155932,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3344
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -148936,10 +155981,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 96
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -148948,14 +155993,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 3
-    NumLoadsB: 2
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -148966,7 +156011,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -149012,8 +156057,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 943
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_DTL0_EPS1_FL0_GRVW1_LPB2_PGR1_PLR1_SNLL1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 984
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -149021,22 +156066,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -149054,37 +156099,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -149098,9 +156147,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -149109,14 +156158,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -149127,7 +156176,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -149173,8 +156222,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 944
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 985
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -149182,20 +156231,20 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -149215,37 +156264,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -149259,9 +156312,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -149270,14 +156323,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -149288,7 +156339,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -149334,8 +156385,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 945
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 986
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -149343,14 +156394,14 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -149359,6 +156410,8 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -149376,43 +156429,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 96
+    LSCA: 64
     LSCB: 8
-    LSPA: 5
-    LSPB: 64
-    LVCA: 48
-    LVCB: 4
-    LVPA: 3
-    LVPB: 32
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3344
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -149424,10 +156473,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -149435,13 +156484,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -149451,7 +156502,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -149497,33 +156548,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 946
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_LPB2_PGR1_PLR1_SNLL1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 987
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -149535,49 +156584,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
     LVCB: 8
-    LVPA: 8
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6688
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -149588,11 +156633,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -149600,15 +156645,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 3
-    NumLoadsB: 2
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -149618,7 +156663,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -149664,31 +156709,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 947
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_DTL0_EPS1_FL0_GRVW2_LPB2_PGR1_PLR0_SNLL1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 988
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -149700,49 +156745,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
+    LSCB: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
     LVCB: 8
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6688
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1600
+    LdsNumElements: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -149753,11 +156794,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 96
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 96
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -149765,15 +156806,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 2
-    NumLoadsB: 3
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 3
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -149783,8 +156824,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -149829,31 +156870,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 948
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_DTL0_EPS1_FL0_GRVW2_LPB2_PGR1_PLR0_SNLL1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 989
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 6]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 6
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -149871,43 +156912,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6688
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1600
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -149920,9 +156957,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 96
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 96
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -149930,13 +156967,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 3
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -149946,8 +156985,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -149992,33 +157031,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 949
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_DTL0_EPS1_FL1_GRVW2_LPB2_PGR1_PLR0_SNLL1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 990
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 6]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 6
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150030,49 +157067,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
+    LSCA: 64
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
     LVPA: 2
-    LVPB: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -150083,11 +157116,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150095,15 +157128,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -150113,7 +157146,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -150159,31 +157192,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 950
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 991
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150202,7 +157235,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -150220,24 +157253,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -150249,10 +157282,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150260,13 +157293,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -150322,33 +157357,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 951
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 992
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150367,7 +157400,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -150385,24 +157418,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -150414,10 +157447,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150425,15 +157458,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -150489,31 +157520,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 952
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 993
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150532,9 +157565,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -150550,24 +157583,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
     LSPB: 64
-    LVCA: 32
-    LVCB: 4
+    LVCA: 16
+    LVCB: 2
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -150579,9 +157612,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -150592,11 +157625,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -150652,33 +157687,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 953
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 994
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150690,16 +157723,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -150716,19 +157749,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
     LVCA: 16
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -150739,11 +157776,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150753,13 +157790,11 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -150769,7 +157804,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -150815,31 +157850,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 954
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 995
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150857,7 +157894,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -150876,24 +157913,20 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -150905,10 +157938,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150916,15 +157949,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -150934,7 +157967,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -150980,29 +158013,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 955
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 996
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW4_LPB0_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -151022,7 +158055,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -151041,24 +158074,20 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -151070,10 +158099,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151081,13 +158110,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -151097,7 +158126,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -151143,29 +158172,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 956
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 997
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL1_GRVW4_LPB0_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -151181,7 +158210,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -151189,37 +158218,37 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
     LVPA: 4
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 1032
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -151230,7 +158259,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -151243,13 +158272,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -151261,7 +158290,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -151306,8 +158335,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 957
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 998
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -151322,15 +158351,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -151342,49 +158371,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1032
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -151395,10 +158420,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -151407,14 +158432,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -151425,7 +158450,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -151471,8 +158496,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 958
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 999
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -151480,22 +158505,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -151507,49 +158532,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3080
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -151560,10 +158585,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -151572,12 +158597,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -151634,8 +158661,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 959
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1000
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_LPB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -151644,23 +158671,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -151706,11 +158731,11 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 776
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -151797,8 +158822,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 960
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1001
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -151867,11 +158892,11 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 640
+    LdsNumElements: 648
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -151958,8 +158983,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 961
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1002
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -151980,7 +159005,7 @@
     VectorStore: true
     VectorWidth: 1
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -152028,11 +159053,11 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 640
+    LdsNumElements: 648
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -152119,8 +159144,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 962
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1003
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -152141,7 +159166,7 @@
     VectorStore: true
     VectorWidth: 1
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -152155,13 +159180,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -152181,19 +159206,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 2
-    LSPB: 8
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
     LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 3080
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -152204,11 +159233,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152216,15 +159245,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -152234,7 +159263,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -152280,31 +159309,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 963
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1004
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_LPB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -152316,7 +159345,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -152342,184 +159371,19 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 8
     LSPA: 2
-    LSPB: 8
+    LSPB: 16
     LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 1280
-    LdsOffsetA: 0
-    LdsOffsetB: 1024
-    LdsPadA: 0
-    LdsPadB: 0
-    LocalDotLayout: 1
-    LocalRead2A: true
-    LocalRead2B: true
-    LocalSplitU: 1
-    LocalWrite2A: true
-    LocalWrite2B: true
-    LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
-    MacroTileShapeMax: 64
-    MacroTileShapeMin: 1
-    MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
-    NonTemporalA: 0
-    NonTemporalB: 0
-    NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
-    PackBatchDims: 0
-    PackFreeDims: 1
-    PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
-    PerformanceSyncLocation: -1
-    PerformanceWaitCount: -1
-    PerformanceWaitLocation: -1
-    PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
-    ProblemType:
-      AssignedDerivedParameters: true
-      Batched: true
-      ComplexConjugateA: false
-      ComplexConjugateB: false
-      ComputeDataType: 0
-      DataType: 0
-      DestDataType: 0
-      HighPrecisionAccumulate: false
-      Index0: 0
-      Index01A: 0
-      Index01B: 1
-      Index1: 1
-      IndexAssignmentsA: [0, 3, 2]
-      IndexAssignmentsB: [3, 1, 2]
-      IndexAssignmentsLD: [4, 5, 6, 7]
-      IndexUnroll: 3
-      IndexUnrollA: 1
-      IndexUnrollB: 0
-      IndicesBatch: [2]
-      IndicesFree: [0, 1]
-      IndicesSummation: [3]
-      NumIndicesBatch: 1
-      NumIndicesC: 3
-      NumIndicesFree: 2
-      NumIndicesLD: 4
-      NumIndicesSummation: 1
-      OperationType: GEMM
-      SilentHighPrecisionAccumulate: false
-      TLUA: true
-      TLUB: false
-      Tensor0: 0
-      Tensor1: 1
-      TileA: 0
-      TileB: 1
-      TotalIndices: 4
-      TransposeA: false
-      TransposeB: false
-      UseBeta: true
-      UseInitialStrides: false
-    ReplacementKernel: false
-    ScheduleGlobalRead: 1
-    ScheduleIterAlg: 1
-    ScheduleLocalWrite: 1
-    SolutionIndex: 964
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
-    StaggerU: 32
-    StaggerUMapping: 0
-    StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
-    UnrollMemFence: false
-    UseSgprForGRO: 1
-    Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
-    WorkGroupMappingType: B
-    _staggerStrideShift: 2
-  - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
-    AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
-    AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: false
-    AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
-    BufferStore: true
-    CheckDimOverflow: 0
-    CheckTensorDimAsserts: false
-    DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
-    DirectToLdsB: false
-    DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
-    GlobalRead2A: true
-    GlobalRead2B: true
-    GlobalReadCoalesceGroupA: true
-    GlobalReadCoalesceGroupB: true
-    GlobalReadCoalesceVectorA: true
-    GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
-    GlobalSplitUSummationAssignmentRoundRobin: true
-    GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
-    InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
+    LVCB: 8
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 776
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -152543,13 +159407,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -152560,7 +159424,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -152606,8 +159470,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 965
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1005
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -152615,20 +159479,20 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -152648,43 +159512,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
+    LVCB: 8
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 648
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -152697,9 +159557,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152707,11 +159567,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PackBatchDims: 0
@@ -152723,7 +159585,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -152769,8 +159631,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 966
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1006
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -152778,24 +159640,22 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -152807,49 +159667,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 16
-    LVCB: 2
-    LVPA: 2
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2064
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -152860,7 +159716,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -152872,15 +159728,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -152890,7 +159746,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -152936,31 +159792,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 967
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1007
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -152972,49 +159828,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
-    LVPA: 2
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 1552
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -153025,7 +159877,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -153037,13 +159889,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -153053,8 +159907,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -153099,33 +159953,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 968
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1008
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153145,37 +159997,37 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 1552
     LdsOffsetA: 0
     LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -153198,15 +160050,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -153262,29 +160114,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 969
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW4_LPB0_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1009
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -153305,38 +160157,38 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
     LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 1552
     LdsOffsetA: 0
     LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -153360,11 +160212,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -153421,8 +160275,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 970
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL1_GRVW4_LPB0_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1010
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -153437,17 +160291,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153459,7 +160311,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -153485,17 +160337,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 4
-    LSPB: 32
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
     LVCA: 64
-    LVCB: 8
-    LVPA: 4
-    LVPB: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1032
+    LdsNumElements: 1296
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 1
     LocalDotLayout: 1
@@ -153508,11 +160360,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -153520,15 +160372,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 8
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -153584,31 +160436,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 971
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1011
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153620,7 +160472,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -153646,17 +160498,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 4
-    LSPB: 32
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
     LVCA: 64
-    LVCB: 8
-    LVPA: 4
-    LVPB: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1032
+    LdsNumElements: 1296
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 1
     LocalDotLayout: 1
@@ -153669,11 +160521,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -153681,15 +160533,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 8
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -153745,31 +160597,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 972
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1012
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153781,13 +160633,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -153807,21 +160659,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
+    LSCB: 16
     LSPA: 4
-    LSPB: 32
+    LSPB: 16
     LVCA: 64
-    LVCB: 8
+    LVCB: 16
     LVPA: 4
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3080
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2064
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 1
     LocalDotLayout: 1
@@ -153834,7 +160682,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -153848,12 +160696,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -153864,7 +160712,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -153910,8 +160758,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 973
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_LPB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1013
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -153919,7 +160767,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -153932,9 +160780,9 @@
     VectorStore: true
     VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153946,7 +160794,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -153972,17 +160820,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 2
+    LSCB: 16
+    LSPA: 4
     LSPB: 16
     LVCA: 64
-    LVCB: 8
-    LVPA: 2
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 776
+    LdsNumElements: 1552
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 1
     LocalDotLayout: 1
@@ -153995,7 +160843,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -154007,15 +160855,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -154071,31 +160919,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 974
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1014
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -154107,7 +160955,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -154133,17 +160981,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
+    LSCB: 16
     LSPA: 2
-    LSPB: 16
+    LSPB: 8
     LVCA: 64
-    LVCB: 8
+    LVCB: 16
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 648
+    LdsNumElements: 1296
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 1
     LocalDotLayout: 1
@@ -154156,7 +161004,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 16
     MacroTileA: 64
@@ -154170,12 +161018,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -154187,7 +161035,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -154232,8 +161080,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 975
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1015
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -154254,9 +161102,9 @@
     VectorStore: true
     VectorWidth: 1
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -154268,7 +161116,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -154294,17 +161142,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 2
-    LSPB: 16
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
     LVCA: 64
-    LVCB: 8
-    LVPA: 2
-    LVPB: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 648
+    LdsNumElements: 3104
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 1
     LocalDotLayout: 1
@@ -154317,11 +161165,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 32
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154331,13 +161179,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -154393,15 +161241,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 976
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1016
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 2]
     ThreadTile0: 4
@@ -154414,10 +161262,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -154435,7 +161283,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -154449,29 +161297,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 8
-    LSPA: 4
-    LSPB: 32
+    LSPA: 2
+    LSPB: 16
     LVCA: 64
     LVCB: 8
-    LVPA: 4
-    LVPB: 32
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3080
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 800
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -154484,9 +161328,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154495,14 +161339,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -154512,7 +161356,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -154558,16 +161402,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 977
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_LPB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1017
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -154578,9 +161422,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -154614,7 +161458,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -154628,11 +161472,11 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 776
+    LdsNumElements: 800
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -154656,7 +161500,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -154719,8 +161563,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 978
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1018
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -154739,7 +161583,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -154755,7 +161599,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -154775,25 +161619,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
+    LSCB: 16
     LSPA: 2
-    LSPB: 16
+    LSPB: 8
     LVCA: 64
-    LVCB: 8
+    LVCB: 16
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 648
+    LdsNumElements: 1600
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -154804,11 +161648,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154816,14 +161660,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -154880,8 +161724,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 979
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1019
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -154890,21 +161734,21 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -154916,7 +161760,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -154924,37 +161768,37 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2064
+    LdsNumElements: 800
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -154965,11 +161809,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154978,14 +161822,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -155041,15 +161885,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 980
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1020
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -155057,15 +161901,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155077,45 +161921,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1552
+    LdsNumElements: 800
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -155126,7 +161970,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -155138,15 +161982,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -155157,7 +161999,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -155202,31 +162044,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 981
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1021
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL1_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155238,45 +162082,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1552
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -155287,10 +162131,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -155299,14 +162143,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -155324,7 +162166,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -155363,8 +162204,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 982
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1022
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -155373,21 +162214,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155399,60 +162242,60 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
+    LSCA: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 16
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1552
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 128
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 2
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155460,15 +162303,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 8
-    NumLoadsB: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -155479,13 +162320,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -155524,31 +162364,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 983
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1023
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155567,38 +162409,38 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1296
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -155610,10 +162452,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155621,15 +162463,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -155646,7 +162486,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -155685,31 +162524,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 984
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1024
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155728,38 +162569,38 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1296
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -155771,10 +162612,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155782,15 +162623,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -155807,7 +162646,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -155846,31 +162684,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 985
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1025
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155889,53 +162729,53 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 16
-    LSPA: 4
+    LSPA: 16
     LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2064
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155943,15 +162783,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -155962,13 +162800,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156007,31 +162844,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 986
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1026
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156050,53 +162889,53 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 16
-    LSPA: 4
+    LSPA: 16
     LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1552
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156104,15 +162943,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -156129,7 +162966,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156168,31 +163004,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 987
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1027
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156210,53 +163048,57 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1296
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -156265,15 +163107,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -156283,14 +163123,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156329,31 +163168,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 988
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1028
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156365,59 +163206,59 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3104
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -156426,14 +163267,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -156451,7 +163290,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156490,31 +163328,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 989
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1029
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156526,45 +163366,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 2
-    LSPB: 16
-    LVCA: 64
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
     LVCB: 8
-    LVPA: 2
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 800
+    LdsNumElements: 1024
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -156575,10 +163415,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -156587,15 +163427,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -156606,13 +163444,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156651,31 +163488,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 990
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1030
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156687,45 +163526,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 2
-    LSPB: 16
-    LVCA: 64
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
     LVCB: 8
-    LVPA: 2
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 800
+    LdsNumElements: 1536
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -156736,11 +163575,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156748,15 +163587,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -156767,13 +163604,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156812,31 +163648,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 991
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1031
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156855,38 +163693,38 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1600
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -156898,10 +163736,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156909,15 +163747,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 8
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -156934,7 +163770,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156973,31 +163808,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 992
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1032
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -157009,15 +163846,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -157025,44 +163862,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 800
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -157070,15 +163907,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -157089,13 +163924,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -157134,31 +163968,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 993
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1033
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -157170,7 +164006,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -157178,7 +164014,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -157186,33 +164022,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 800
+    LdsNumElements: 1024
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -157220,10 +164056,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -157231,13 +164067,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -157248,13 +164084,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -157293,31 +164128,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 994
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL1_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1034
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -157331,13 +164166,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -157357,23 +164192,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -157382,9 +164221,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -157392,11 +164231,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -157408,7 +164247,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -157453,20 +164292,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 995
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1035
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -157474,10 +164313,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -157491,7 +164330,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -157517,17 +164356,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 8
-    LSPA: 8
-    LSPB: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
     LVCA: 8
-    LVCB: 4
-    LVPA: 4
-    LVPB: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -157540,11 +164379,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
+    LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 16
+    MacroTile1: 8
     MacroTileA: 16
-    MacroTileB: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -157556,9 +164395,9 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -157569,7 +164408,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -157613,15 +164452,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 996
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1036
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -157634,10 +164473,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    WorkGroup: [8, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -157651,13 +164490,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -157671,40 +164510,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
     LVPA: 8
-    LVPB: 16
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -157712,13 +164555,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -157728,8 +164571,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -157773,16 +164616,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 997
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1037
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -157794,10 +164637,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -157811,7 +164654,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -157831,21 +164674,21 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
     LVPA: 8
-    LVPB: 16
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 768
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
@@ -157853,18 +164696,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -157872,13 +164715,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -157933,15 +164776,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 998
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1038
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -157954,10 +164797,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -157971,13 +164814,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -157988,32 +164831,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 8
     LVCA: 8
-    LVCB: 8
+    LVCB: 16
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -158022,9 +164869,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 16
+    MacroTile1: 8
     MacroTileA: 16
-    MacroTileB: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158032,11 +164879,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PackBatchDims: 0
@@ -158048,8 +164895,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -158093,15 +164940,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 999
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
+    SolutionIndex: 1039
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB0_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -158114,10 +164961,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 2]
+    WorkGroup: [8, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -158156,35 +165003,35 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 16
     LSPA: 16
-    LSPB: 16
-    LVCA: 8
+    LSPB: 32
+    LVCA: 16
     LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 1056
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158192,13 +165039,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -158253,15 +165100,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1000
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
+    SolutionIndex: 1040
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -158274,7 +165121,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -158297,7 +165144,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -158311,44 +165158,40 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 16
     LSPA: 16
-    LSPB: 16
-    LVCA: 8
+    LSPB: 32
+    LVCA: 16
     LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 1568
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158356,12 +165199,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -158372,8 +165215,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -158417,28 +165260,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1001
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1041
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -158480,35 +165323,35 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 16
     LSPA: 16
     LSPB: 32
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1568
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158516,12 +165359,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -158577,15 +165420,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1002
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1042
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [2, 4]
     ThreadTile0: 2
@@ -158598,7 +165441,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -158640,35 +165483,35 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 16
     LSPA: 16
-    LSPB: 32
-    LVCA: 16
+    LSPB: 16
+    LVCA: 8
     LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 544
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158676,13 +165519,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -158693,7 +165536,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -158737,15 +165580,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1003
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1043
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -158758,8 +165601,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -158803,32 +165646,32 @@
     LSCA: 32
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
     LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 2048
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158836,12 +165679,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -158853,7 +165696,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -158897,29 +165740,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1004
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1044
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -158941,7 +165784,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -158963,32 +165806,36 @@
     LSCA: 32
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
     LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158996,12 +165843,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -159012,7 +165859,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -159057,29 +165904,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1005
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1045
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -159095,13 +165942,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -159115,40 +165962,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
     LSPB: 16
-    LVCA: 8
-    LVCB: 8
+    LVCA: 16
+    LVCB: 16
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159156,12 +166007,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -159172,8 +166023,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -159217,16 +166068,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1006
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1046
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -159238,10 +166089,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -159261,7 +166112,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -159289,11 +166140,15 @@
     LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159332,7 +166187,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -159377,8 +166232,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1007
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1047
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -159386,7 +166241,7 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -159421,7 +166276,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -159435,29 +166290,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159469,9 +166320,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -159480,11 +166331,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -159496,7 +166347,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -159541,8 +166392,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1008
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1048
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -159550,11 +166401,11 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -159585,7 +166436,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -159606,18 +166457,22 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
+    LSPA: 32
+    LSPB: 16
     LVCA: 8
     LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159630,9 +166485,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 8
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 8
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159644,9 +166499,9 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -159656,7 +166511,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -159701,16 +166556,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1009
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1049
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -159722,7 +166577,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -159759,29 +166614,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
     LVPA: 8
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159793,10 +166648,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159804,13 +166659,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -159821,7 +166676,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -159865,20 +166720,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1010
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1050
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -159886,7 +166741,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -159923,25 +166778,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
     LVPA: 8
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159953,10 +166808,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159964,13 +166819,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -160025,20 +166880,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1011
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
+    SolutionIndex: 1051
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -160046,8 +166901,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -160080,32 +166935,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
     LVPA: 8
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -160117,10 +166972,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -160128,13 +166983,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -160189,20 +167044,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1012
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB0_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1052
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -160210,7 +167065,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -160227,13 +167082,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -160252,34 +167107,38 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1056
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -160288,12 +167147,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -160304,8 +167163,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -160349,31 +167208,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1013
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1053
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT2_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -160387,7 +167246,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -160412,16 +167271,16 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1568
+    LdsNumElements: 2048
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
@@ -160429,18 +167288,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -160448,8 +167307,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -160465,7 +167324,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -160509,15 +167368,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1014
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1054
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [2, 4]
     ThreadTile0: 2
@@ -160530,10 +167389,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -160547,13 +167406,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -160572,35 +167431,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1568
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -160608,8 +167471,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -160624,7 +167487,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -160669,16 +167532,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1015
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1055
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 4]
     ThreadTile0: 2
     ThreadTile1: 4
@@ -160690,10 +167553,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -160707,13 +167570,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -160727,29 +167590,33 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 8
     LVCA: 8
-    LVCB: 8
+    LVCB: 16
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 544
+    LdsNumElements: 1856
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -160758,9 +167625,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 16
+    MacroTile1: 8
     MacroTileA: 16
-    MacroTileB: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -160768,11 +167635,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PackBatchDims: 0
@@ -160784,7 +167651,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -160829,16 +167696,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1016
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
+    SolutionIndex: 1056
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -160850,10 +167717,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 2]
+    WorkGroup: [8, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -160867,13 +167734,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -160892,35 +167759,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -160928,12 +167799,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -160944,7 +167815,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -160989,16 +167860,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1017
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1057
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
@@ -161010,10 +167881,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -161027,13 +167898,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -161047,27 +167918,23 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -161080,10 +167947,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -161092,7 +167959,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -161108,7 +167975,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -161153,8 +168020,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1018
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1058
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -161162,171 +168029,7 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
-    UnrollMemFence: false
-    UseSgprForGRO: false
-    Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
-    WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
-    AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
-    AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: false
-    AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
-    BufferStore: true
-    CheckDimOverflow: 0
-    CheckTensorDimAsserts: false
-    DepthU: 32
-    DirectToLds: false
-    DirectToLdsA: false
-    DirectToLdsB: false
-    DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
-    GlobalRead2A: true
-    GlobalRead2B: true
-    GlobalReadCoalesceGroupA: true
-    GlobalReadCoalesceGroupB: true
-    GlobalReadCoalesceVectorA: true
-    GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
-    GlobalSplitUSummationAssignmentRoundRobin: true
-    GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
-    InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
-    LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 2
-    LocalDotLayout: 1
-    LocalRead2A: true
-    LocalRead2B: true
-    LocalSplitU: 1
-    LocalWrite2A: true
-    LocalWrite2B: true
-    LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
-    MacroTileShapeMax: 64
-    MacroTileShapeMin: 1
-    MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
-    NonTemporalA: 0
-    NonTemporalB: 0
-    NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
-    PackBatchDims: 0
-    PackFreeDims: 1
-    PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
-    PerformanceSyncLocation: -1
-    PerformanceWaitCount: -1
-    PerformanceWaitLocation: -1
-    PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
-    ProblemType:
-      AssignedDerivedParameters: true
-      Batched: true
-      ComplexConjugateA: false
-      ComplexConjugateB: false
-      DataType: 0
-      DestDataType: 0
-      HighPrecisionAccumulate: false
-      Index0: 0
-      Index01A: 0
-      Index01B: 1
-      Index1: 1
-      IndexAssignmentsA: [0, 3, 2]
-      IndexAssignmentsB: [3, 1, 2]
-      IndexAssignmentsLD: [4, 5, 6, 7]
-      IndexUnroll: 3
-      IndexUnrollA: 1
-      IndexUnrollB: 0
-      IndicesBatch: [2]
-      IndicesFree: [0, 1]
-      IndicesSummation: [3]
-      NumIndicesBatch: 1
-      NumIndicesC: 3
-      NumIndicesFree: 2
-      NumIndicesLD: 4
-      NumIndicesSummation: 1
-      OperationType: GEMM
-      SilentHighPrecisionAccumulate: false
-      TLUA: true
-      TLUB: false
-      Tensor0: 0
-      Tensor1: 1
-      TileA: 0
-      TileB: 1
-      TotalIndices: 4
-      TransposeA: false
-      TransposeB: false
-      UseBeta: true
-      UseInitialStrides: false
-    ReplacementKernel: false
-    ScheduleGlobalRead: 1
-    ScheduleIterAlg: 1
-    ScheduleLocalWrite: 1
-    SolutionIndex: 1019
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_16_1_WGM1
-    StaggerU: 32
-    StaggerUMapping: 0
-    StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -161338,8 +168041,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -161437,7 +168140,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -161481,8 +168184,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1020
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1059
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -161503,7 +168206,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -161539,23 +168242,23 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1088
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -161569,9 +168272,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -161580,11 +168283,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -161641,8 +168344,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1021
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1060
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -161651,10 +168354,10 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -161663,7 +168366,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -161699,27 +168402,27 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -161733,9 +168436,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -161744,11 +168447,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -161805,8 +168508,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1022
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1061
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -161815,10 +168518,10 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -161827,7 +168530,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -161868,22 +168571,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -161897,10 +168600,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -161912,8 +168615,8 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -161969,8 +168672,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1023
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1062
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT2_4_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -161979,11 +168682,11 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -161991,7 +168694,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -162013,7 +168716,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -162032,18 +168735,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -162057,10 +168764,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162072,8 +168779,8 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -162084,7 +168791,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -162129,8 +168836,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1024
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1063
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -162138,12 +168845,12 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -162151,7 +168858,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -162173,7 +168880,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -162187,27 +168894,23 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
     LSPA: 16
-    LSPB: 16
-    LVCA: 16
+    LSPB: 8
+    LVCA: 8
     LVCB: 16
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 832
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -162221,10 +168924,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162232,13 +168935,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -162248,7 +168951,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -162293,20 +168996,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1025
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1064
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -162314,8 +169017,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -162351,27 +169054,27 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
+    LSPA: 16
+    LSPB: 8
     LVCA: 8
     LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 1856
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -162386,9 +169089,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 32
+    MacroTile1: 8
     MacroTileA: 16
-    MacroTileB: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162396,13 +169099,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -162413,7 +169116,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -162457,29 +169160,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1026
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT2_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1065
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -162501,7 +169204,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -162512,7 +169215,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -162522,33 +169225,37 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
+    LSPA: 16
+    LSPB: 8
     LVCA: 8
     LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 16
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162560,9 +169267,9 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -162572,7 +169279,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -162617,8 +169324,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1027
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1066
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -162627,18 +169334,18 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -162672,10 +169379,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -162689,9 +169396,9 @@
     LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3136
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
@@ -162710,9 +169417,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162720,12 +169427,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -162737,7 +169444,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -162781,8 +169488,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1028
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1067
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -162790,12 +169497,12 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -162836,7 +169543,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -162846,20 +169553,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
+    LSPA: 32
+    LSPB: 16
     LVCA: 8
     LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1856
+    LdsNumElements: 3136
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -162874,9 +169581,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 8
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 8
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162888,9 +169595,9 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -162945,16 +169652,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1029
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1068
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -162966,7 +169673,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -163000,7 +169707,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -163008,170 +169715,6 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
-    LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 2
-    LocalDotLayout: 1
-    LocalRead2A: true
-    LocalRead2B: true
-    LocalSplitU: 1
-    LocalWrite2A: true
-    LocalWrite2B: true
-    LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
-    MacroTileShapeMax: 64
-    MacroTileShapeMin: 1
-    MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
-    NonTemporalA: 0
-    NonTemporalB: 0
-    NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
-    PackBatchDims: 0
-    PackFreeDims: 1
-    PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
-    PerformanceSyncLocation: -1
-    PerformanceWaitCount: -1
-    PerformanceWaitLocation: -1
-    PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
-    ProblemType:
-      AssignedDerivedParameters: true
-      Batched: true
-      ComplexConjugateA: false
-      ComplexConjugateB: false
-      DataType: 0
-      DestDataType: 0
-      HighPrecisionAccumulate: false
-      Index0: 0
-      Index01A: 0
-      Index01B: 1
-      Index1: 1
-      IndexAssignmentsA: [0, 3, 2]
-      IndexAssignmentsB: [3, 1, 2]
-      IndexAssignmentsLD: [4, 5, 6, 7]
-      IndexUnroll: 3
-      IndexUnrollA: 1
-      IndexUnrollB: 0
-      IndicesBatch: [2]
-      IndicesFree: [0, 1]
-      IndicesSummation: [3]
-      NumIndicesBatch: 1
-      NumIndicesC: 3
-      NumIndicesFree: 2
-      NumIndicesLD: 4
-      NumIndicesSummation: 1
-      OperationType: GEMM
-      SilentHighPrecisionAccumulate: false
-      TLUA: true
-      TLUB: false
-      Tensor0: 0
-      Tensor1: 1
-      TileA: 0
-      TileB: 1
-      TotalIndices: 4
-      TransposeA: false
-      TransposeB: false
-      UseBeta: true
-      UseInitialStrides: false
-    ReplacementKernel: false
-    ScheduleGlobalRead: 1
-    ScheduleIterAlg: 1
-    ScheduleLocalWrite: 1
-    SolutionIndex: 1030
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG16_16_1_WGM8
-    StaggerU: 32
-    StaggerUMapping: 0
-    StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
-    UnrollMemFence: false
-    UseSgprForGRO: false
-    Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
-    WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
-    AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
-    AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: false
-    AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
-    BufferStore: true
-    CheckDimOverflow: 0
-    CheckTensorDimAsserts: false
-    DepthU: 32
-    DirectToLds: false
-    DirectToLdsA: false
-    DirectToLdsB: false
-    DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
-    GlobalRead2A: true
-    GlobalRead2B: true
-    GlobalReadCoalesceGroupA: true
-    GlobalReadCoalesceGroupB: true
-    GlobalReadCoalesceVectorA: true
-    GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
-    GlobalSplitUSummationAssignmentRoundRobin: true
-    GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
-    InnerUnroll: 1
-    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 32
     LSPA: 32
@@ -163181,9 +169724,13 @@
     LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1088
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -163198,9 +169745,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 16
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -163208,12 +169755,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -163224,7 +169771,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -163269,8 +169816,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1031
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1069
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -163279,11 +169826,11 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -163291,7 +169838,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -163324,7 +169871,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -163334,20 +169881,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
+    LSPA: 16
+    LSPB: 8
     LVCA: 8
     LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 1856
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -163362,9 +169909,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 16
+    MacroTile1: 8
     MacroTileA: 16
-    MacroTileB: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -163376,9 +169923,9 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -163389,7 +169936,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -163433,16 +169980,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1032
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1070
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -163454,8 +170001,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -163477,7 +170024,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -163488,26 +170035,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
     LSPA: 16
-    LSPB: 16
-    LVCA: 16
+    LSPB: 8
+    LVCA: 8
     LVCB: 16
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1856
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -163521,10 +170072,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -163532,13 +170083,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -163548,7 +170099,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -163593,20 +170144,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1033
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1071
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -163614,8 +170165,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -163648,7 +170199,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -163656,22 +170207,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
     LSPA: 16
-    LSPB: 16
-    LVCA: 16
+    LSPB: 8
+    LVCA: 8
     LVCB: 16
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -163685,9 +170236,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -163701,8 +170252,8 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -163757,29 +170308,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1034
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1072
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -163812,10 +170363,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -163829,9 +170380,9 @@
     LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3136
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
@@ -163850,9 +170401,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -163860,12 +170411,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -163921,8 +170472,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1035
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT2_4_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1073
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -163930,12 +170481,12 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -163965,7 +170516,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -163976,10 +170527,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -163993,13 +170544,9 @@
     LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -164014,9 +170561,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164024,12 +170571,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -164040,7 +170587,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -164085,8 +170632,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1036
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1074
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -164094,12 +170641,12 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -164129,7 +170676,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -164140,7 +170687,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -164150,16 +170697,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
+    LSPA: 32
+    LSPB: 16
     LVCA: 8
     LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 832
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -164174,9 +170725,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 8
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 8
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164188,9 +170739,9 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -164200,7 +170751,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -164245,15 +170796,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1037
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
+    SolutionIndex: 1075
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -164266,7 +170817,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -164300,30 +170851,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
     LVPA: 8
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1856
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -164337,10 +170888,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164348,13 +170899,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -164365,7 +170916,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -164409,20 +170960,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1038
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_4_4_WGM8
+    SolutionIndex: 1076
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT4_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -164430,7 +170981,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -164472,38 +171023,38 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
     LVPA: 8
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -164517,8 +171068,8 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -164573,8 +171124,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1039
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
+    SolutionIndex: 1077
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -164583,10 +171134,10 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -164594,8 +171145,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -164631,7 +171182,7 @@
     GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -164645,9 +171196,9 @@
     LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
@@ -164666,9 +171217,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 16
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164676,12 +171227,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -164693,7 +171244,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -164737,8 +171288,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1040
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1078
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -164747,11 +171298,11 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -164759,7 +171310,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -164802,20 +171353,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
+    LSPA: 16
+    LSPB: 8
     LVCA: 8
     LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 1856
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -164830,9 +171381,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 16
+    MacroTile1: 8
     MacroTileA: 16
-    MacroTileB: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164844,9 +171395,9 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -164857,7 +171408,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -164901,15 +171452,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1041
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1079
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -164922,8 +171473,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -164959,27 +171510,27 @@
     GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
+    LSPA: 16
+    LSPB: 8
     LVCA: 8
     LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 1856
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -164994,9 +171545,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 32
+    MacroTile1: 8
     MacroTileA: 16
-    MacroTileB: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165004,13 +171555,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -165065,29 +171616,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1042
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1080
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -165103,13 +171654,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -165120,47 +171671,43 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 16
     LVCA: 8
-    LVCB: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1856
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 16
-    MacroTile1: 8
+    MacroTile1: 32
     MacroTileA: 16
-    MacroTileB: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165168,12 +171715,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -165184,7 +171731,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -165229,15 +171776,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1043
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1081
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -165250,10 +171797,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -165267,13 +171814,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -165284,47 +171831,43 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 16
     LVCA: 8
-    LVCB: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1856
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 16
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 16
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165332,12 +171875,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -165348,7 +171891,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -165393,31 +171936,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1044
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1082
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -165431,13 +171974,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -165448,32 +171991,28 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
+    LSCA: 8
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
     LVPA: 8
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 128
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -165484,11 +172023,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165496,13 +172035,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -165512,8 +172051,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -165557,31 +172096,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1045
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1083
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -165595,13 +172134,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -165612,7 +172151,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -165620,24 +172159,20 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 8
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 128
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -165648,11 +172183,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165676,8 +172211,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -165721,15 +172256,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1046
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1084
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -165742,10 +172277,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -165759,7 +172294,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -165776,7 +172311,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -165784,20 +172319,20 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 4
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 2
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 64
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -165808,11 +172343,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 4
+    MacroTile0: 4
+    MacroTile1: 64
+    MacroTileA: 4
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165825,7 +172360,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -165837,7 +172372,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -165881,15 +172416,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1047
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1085
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 2
+    SubGroup1: 32
+    SubGroupA: 2
+    SubGroupB: 32
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -165902,10 +172437,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [2, 32, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -165919,13 +172454,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -165936,30 +172471,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 64
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -165972,11 +172503,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 64
+    MacroTileA: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165984,7 +172515,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -166000,7 +172531,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -166045,31 +172576,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1048
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1086
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -166083,13 +172614,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -166100,7 +172631,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -166108,39 +172639,35 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 16
     LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 800
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166148,13 +172675,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -166164,7 +172691,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -166209,20 +172736,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1049
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT4_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1087
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -166230,10 +172757,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -166247,13 +172774,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -166264,30 +172791,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 8
+    LSCB: 16
     LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 128
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -166300,11 +172823,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166312,11 +172835,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -166328,8 +172851,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -166373,20 +172896,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1050
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1088
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -166394,10 +172917,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -166411,13 +172934,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -166428,30 +172951,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 8
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 128
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -166464,10 +172983,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
+    LoopUnroll: 4
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -166476,12 +172995,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -166492,7 +173011,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -166537,31 +173056,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1051
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1089
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -166575,13 +173094,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -166592,30 +173111,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
+    LSCA: 8
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
     LVPA: 8
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1856
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 128
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -166628,11 +173143,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 64
+    MacroTileA: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166640,13 +173155,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -166656,7 +173171,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -166701,31 +173216,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1052
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
+    SolutionIndex: 1090
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_4_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -166739,13 +173254,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -166756,7 +173271,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -166764,22 +173279,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
+    LSCA: 4
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
+    LSPB: 32
+    LVCA: 2
+    LVCB: 8
     LVPA: 8
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1856
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 1120
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 64
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -166792,11 +173303,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    LoopUnroll: 4
+    MacroTile0: 4
+    MacroTile1: 64
+    MacroTileA: 4
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166808,9 +173319,9 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -166820,8 +173331,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -166865,15 +173376,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1053
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
+    SolutionIndex: 1091
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 2
+    SubGroup1: 32
+    SubGroupA: 2
+    SubGroupB: 32
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -166886,10 +173397,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [2, 32, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -166923,40 +173434,40 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 4
     LSCB: 16
     LSPA: 16
-    LSPB: 16
-    LVCA: 8
+    LSPB: 32
+    LVCA: 2
     LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 1120
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetB: 64
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 4
+    MacroTile1: 64
+    MacroTileA: 4
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166964,13 +173475,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -166981,7 +173492,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -167025,15 +173536,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1054
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_1_WGM1
+    SolutionIndex: 1092
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 2
+    SubGroup1: 32
+    SubGroupA: 2
+    SubGroupB: 32
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -167046,7 +173557,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 1]
+    WorkGroup: [2, 32, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -167069,7 +173580,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -167083,39 +173594,43 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 4
     LSCB: 16
     LSPA: 16
-    LSPB: 16
-    LVCA: 8
+    LSPB: 32
+    LVCA: 2
     LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 3168
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 2112
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 16
+    LoopUnroll: 4
+    MacroTile0: 4
     MacroTile1: 64
-    MacroTileA: 16
+    MacroTileA: 4
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -167124,13 +173639,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -167140,7 +173655,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -167185,28 +173700,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1055
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_16_1_WGM1
+    SolutionIndex: 1093
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG2_32_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    SubGroup0: 2
+    SubGroup1: 32
+    SubGroupA: 2
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 1]
+    WorkGroup: [2, 32, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -167229,7 +173744,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -167248,20 +173763,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 4
     LSCB: 16
     LSPA: 16
     LSPB: 32
-    LVCA: 4
+    LVCA: 2
     LVCB: 8
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3168
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 2112
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -167273,10 +173792,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 4
+    MacroTile1: 64
+    MacroTileA: 4
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -167289,7 +173808,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -167300,8 +173819,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -167345,16 +173864,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1056
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1094
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG2_32_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 2
+    SubGroup1: 32
+    SubGroupA: 2
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -167366,8 +173885,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [2, 32, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -167383,7 +173902,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -167409,19 +173928,19 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 8
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
     LVCA: 4
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 1344
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -167432,7 +173951,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 8
     MacroTile1: 32
     MacroTileA: 8
@@ -167449,7 +173968,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -167505,8 +174024,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1057
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1095
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -167529,7 +174048,7 @@
     WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -167543,13 +174062,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -167563,25 +174082,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 4
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 2
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1088
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 64
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -167592,11 +174115,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 4
-    MacroTile1: 64
-    MacroTileA: 4
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -167604,7 +174127,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -167620,8 +174143,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -167665,20 +174188,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1058
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
+    SolutionIndex: 1096
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 32
-    SubGroupA: 2
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -167686,10 +174209,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [2, 32, 4]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -167703,13 +174226,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -167723,40 +174246,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 64
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 64
-    MacroTileA: 8
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -167764,7 +174291,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -167780,8 +174307,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -167825,31 +174352,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1059
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1097
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT4_2_VW2_WG4_8_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 4
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 4
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [4, 8, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -167863,13 +174390,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -167883,40 +174410,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 16
-    LSPA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 16
     LVCA: 8
-    LVCB: 8
-    LVPA: 8
+    LVCB: 16
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 800
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 16
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -167924,13 +174455,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -167940,8 +174471,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -167985,20 +174516,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1060
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_1_WGM1
+    SolutionIndex: 1098
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_8_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SubGroup0: 4
+    SubGroup1: 8
+    SubGroupA: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -168006,10 +174537,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 1]
+    WorkGroup: [4, 8, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -168023,7 +174554,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -168049,23 +174580,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 8
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
     LVCA: 4
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -168089,7 +174620,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -168101,7 +174632,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -168145,31 +174676,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1061
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1099
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG4_8_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 4
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 4
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [4, 8, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -168183,13 +174714,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -168209,23 +174740,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 8
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
     LVCA: 4
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -168249,7 +174784,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -168260,7 +174795,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -168305,31 +174840,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1062
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1100
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG4_8_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 4
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 4
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [4, 8, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -168343,7 +174878,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -168363,21 +174898,21 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 4
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 2
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 2240
     LdsOffsetA: 0
     LdsOffsetB: 128
     LdsPadA: 0
@@ -168392,10 +174927,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
+    LoopUnroll: 8
+    MacroTile0: 4
     MacroTile1: 64
-    MacroTileA: 8
+    MacroTileA: 4
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -168404,12 +174939,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -168421,7 +174956,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -168465,31 +175000,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1063
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_4_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1101
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 2
+    SubGroup1: 32
+    SubGroupA: 2
+    SubGroupB: 32
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [2, 32, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -168503,13 +175038,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -168523,23 +175058,27 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 4
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 2
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1120
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 64
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -168552,11 +175091,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 4
-    MacroTile1: 64
-    MacroTileA: 4
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -168564,7 +175103,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -168580,8 +175119,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -168625,20 +175164,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1064
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
+    SolutionIndex: 1102
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 32
-    SubGroupA: 2
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -168646,10 +175185,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [2, 32, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -168663,13 +175202,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -168688,24 +175227,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 4
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 2
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1120
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 64
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -168713,10 +175256,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 4
-    MacroTile1: 64
-    MacroTileA: 4
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -168729,7 +175272,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -168740,7 +175283,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -168785,20 +175328,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1065
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
+    SolutionIndex: 1103
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_8_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 32
-    SubGroupA: 2
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SubGroup0: 4
+    SubGroup1: 8
+    SubGroupA: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -168806,10 +175349,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [2, 32, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 8, 8]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -168823,13 +175366,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -168848,28 +175391,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 4
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 2
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3168
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 2112
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -168877,10 +175416,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 4
-    MacroTile1: 64
-    MacroTileA: 4
-    MacroTileB: 64
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -168904,7 +175443,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -168949,31 +175488,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1066
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG2_32_4_WGM1
+    SolutionIndex: 1104
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG4_8_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 32
-    SubGroupA: 2
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
+    SubGroup0: 4
+    SubGroup1: 8
+    SubGroupA: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [2, 32, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 8, 8]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -168987,7 +175526,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -169012,28 +175551,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 4
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 2
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3168
-    LdsNumElementsAlignedA: 64
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 2112
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -169041,10 +175580,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 4
-    MacroTile1: 64
-    MacroTileA: 4
-    MacroTileB: 64
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -169113,31 +175652,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1067
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG2_32_4_WGM8
+    SolutionIndex: 1105
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG4_8_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 32
-    SubGroupA: 2
-    SubGroupB: 32
+    SubGroup0: 4
+    SubGroup1: 8
+    SubGroupA: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [2, 32, 4]
+    WorkGroup: [4, 8, 8]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -169157,7 +175696,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -169185,22 +175724,26 @@
     LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1344
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 8
     MacroTile1: 32
     MacroTileA: 8
@@ -169228,7 +175771,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -169273,20 +175816,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1068
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1106
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG2_16_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 2
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 2
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -169294,8 +175837,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [2, 16, 8]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -169331,29 +175874,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -169365,10 +175908,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -169376,12 +175919,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -169437,20 +175980,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1069
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1107
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -169458,7 +176001,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -169500,39 +176043,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -169544,7 +176087,7 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -169557,7 +176100,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -169601,20 +176144,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1070
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT4_2_VW2_WG4_8_8_WGM1
+    SolutionIndex: 1108
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 8
-    SubGroupA: 4
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -169622,7 +176165,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -169659,43 +176202,43 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -169704,11 +176247,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -169765,28 +176308,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1071
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_8_8_WGM1
+    SolutionIndex: 1109
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 8
-    SubGroupA: 4
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -169809,7 +176352,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -169823,40 +176366,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 4
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -169864,12 +176411,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -169880,7 +176427,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -169925,28 +176472,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1072
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG4_8_8_WGM1
+    SolutionIndex: 1110
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -169983,43 +176530,43 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 4
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 8
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -170028,11 +176575,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -170089,14 +176636,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1073
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG4_8_8_WGM1
+    SolutionIndex: 1111
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [2, 4]
@@ -170110,7 +176657,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -170133,7 +176680,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -170152,35 +176699,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 4
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 2
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2240
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 4
-    MacroTile1: 64
-    MacroTileA: 4
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -170192,8 +176743,8 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -170204,7 +176755,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -170249,20 +176800,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1074
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
+    SolutionIndex: 1112
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 32
-    SubGroupA: 2
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -170270,7 +176821,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [2, 32, 4]
+    WorkGroup: [8, 4, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -170307,7 +176858,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -170321,9 +176872,9 @@
     LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3136
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
@@ -170333,18 +176884,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 16
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -170352,12 +176903,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -170413,29 +176964,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1075
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_16_4_WGM8
+    SolutionIndex: 1113
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 4, 8]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -170476,39 +177027,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -170520,7 +177071,7 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -170577,20 +177128,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1076
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_8_8_WGM8
+    SolutionIndex: 1114
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 8
-    SubGroupA: 4
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -170598,7 +177149,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -170621,7 +177172,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -170635,40 +177186,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 4
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -170676,12 +177231,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -170692,7 +177247,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -170737,16 +177292,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1077
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG4_8_8_WGM8
+    SolutionIndex: 1115
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 8
-    SubGroupA: 4
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 4]
     ThreadTile0: 2
     ThreadTile1: 4
@@ -170758,7 +177313,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -170795,44 +177350,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
+    LSPA: 8
     LSPB: 16
-    LVCA: 4
+    LVCA: 32
     LVCB: 16
-    LVPA: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6720
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -170840,12 +177395,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -170901,28 +177456,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1078
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG4_8_8_WGM8
+    SolutionIndex: 1116
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -170964,22 +177519,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 16
     LSCB: 32
     LSPA: 32
     LSPB: 16
-    LVCA: 4
+    LVCA: 8
     LVCB: 16
     LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -170993,10 +177548,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -171009,7 +177564,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -171065,28 +177620,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1079
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG2_16_8_WGM8
+    SolutionIndex: 1117
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_4_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 16
-    SubGroupA: 2
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [2, 16, 8]
+    WorkGroup: [8, 4, 8]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -171123,44 +177678,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 8
-    LVCA: 16
+    LSPB: 32
+    LVCA: 32
     LVCB: 16
     LVPA: 8
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -171168,13 +177723,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -171229,29 +177784,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1080
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1118
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG32_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [32, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -171284,7 +177839,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -171349,7 +177904,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -171393,8 +177948,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1081
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1119
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -171402,7 +177957,7 @@
     SubGroup1: 4
     SubGroupA: 16
     SubGroupB: 4
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -171448,46 +178003,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -171496,11 +178051,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -171513,7 +178068,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -171557,16 +178112,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1082
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1120
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_4_VW2_WG8_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 4
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 4
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [2, 4]
     ThreadTile0: 2
     ThreadTile1: 4
@@ -171578,7 +178133,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [8, 4, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -171601,7 +178156,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -171612,46 +178167,42 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -171660,11 +178211,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -171676,7 +178227,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -171721,28 +178272,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1083
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_8_2_WGM1
+    SolutionIndex: 1121
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [8, 4, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -171776,47 +178327,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -171824,12 +178375,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -171885,16 +178436,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1084
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_8_2_WGM1
+    SolutionIndex: 1122
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
     ThreadTile: [2, 4]
     ThreadTile0: 2
     ThreadTile1: 4
@@ -171906,7 +178457,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [8, 4, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -171940,7 +178491,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -171948,22 +178499,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -171977,10 +178528,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -171992,7 +178543,7 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -172049,8 +178600,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1085
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_4_8_WGM1
+    SolutionIndex: 1123
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_4_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -172058,12 +178609,12 @@
     SubGroup1: 4
     SubGroupA: 8
     SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -172071,7 +178622,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 4, 8]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -172087,7 +178638,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -172107,44 +178658,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -172152,8 +178703,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -172213,20 +178764,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1086
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_4_8_WGM1
+    SolutionIndex: 1124
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -172234,10 +178785,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 8]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -172251,7 +178802,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -172271,33 +178822,33 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -172305,10 +178856,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -172316,11 +178867,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -172377,31 +178928,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1087
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM8
+    SolutionIndex: 1125
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -172415,13 +178966,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -172440,28 +178991,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -172469,10 +179016,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -172480,11 +179027,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -172496,8 +179043,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -172541,20 +179088,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1088
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_4_4_WGM8
+    SolutionIndex: 1126
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -172562,10 +179109,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -172579,13 +179126,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -172605,27 +179152,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 8
-    LSPB: 16
+    LSPB: 32
     LVCA: 32
-    LVCB: 16
+    LVCB: 8
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6720
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -172634,9 +179177,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -172644,12 +179187,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -172660,8 +179203,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -172705,31 +179248,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1089
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG16_8_2_WGM8
+    SolutionIndex: 1127
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -172743,7 +179286,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -172751,56 +179294,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -172808,11 +179351,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -172869,31 +179412,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1090
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_4_8_WGM8
+    SolutionIndex: 1128
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 4, 8]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -172907,7 +179450,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -172915,45 +179458,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
-    LVCA: 32
-    LVCB: 16
-    LVPA: 8
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -172962,9 +179505,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -172972,13 +179515,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -173033,31 +179576,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1091
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG32_8_2_WGM8
+    SolutionIndex: 1129
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 8, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -173079,56 +179622,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 8
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -173136,12 +179679,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -173153,7 +179696,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -173197,29 +179740,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1092
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1130
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -173235,7 +179778,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -173252,24 +179795,24 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 3088
     LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
@@ -173281,18 +179824,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -173300,8 +179843,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -173317,7 +179860,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -173361,20 +179904,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1093
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_4_VW2_WG8_4_8_WGM1
+    SolutionIndex: 1131
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -173382,10 +179925,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 8]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -173399,7 +179942,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -173416,24 +179959,24 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1040
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
@@ -173441,18 +179984,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -173460,8 +180003,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -173521,20 +180064,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1094
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_4_8_WGM1
+    SolutionIndex: 1132
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -173542,10 +180085,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 8]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -173559,7 +180102,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -173576,24 +180119,24 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 3088
     LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
@@ -173605,18 +180148,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -173624,8 +180167,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -173685,20 +180228,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1095
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_4_8_WGM1
+    SolutionIndex: 1133
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -173706,10 +180249,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 8]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -173723,7 +180266,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -173740,36 +180283,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -173777,10 +180320,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -173788,13 +180331,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -173849,20 +180392,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1096
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_4_8_WGM8
+    SolutionIndex: 1134
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -173870,10 +180413,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 8]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -173887,13 +180430,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -173913,23 +180456,19 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
+    LSCB: 16
     LSPA: 8
-    LSPB: 64
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
+    LVCB: 8
     LVPA: 4
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2080
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -173940,7 +180479,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -173956,8 +180495,8 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -173968,7 +180507,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -174013,8 +180552,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1097
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1135
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -174022,7 +180561,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -174035,9 +180574,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -174051,7 +180590,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -174077,38 +180616,38 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -174116,13 +180655,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -174177,15 +180716,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1098
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1136
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -174198,10 +180737,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -174215,7 +180754,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -174240,34 +180779,34 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 4
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 8192
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -174276,13 +180815,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -174337,14 +180876,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1099
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1137
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT4_4_VW2_WG8_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -174358,10 +180897,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroup: [8, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -174381,7 +180920,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -174400,34 +180939,38 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
     LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -174436,13 +180979,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -174452,8 +180995,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -174497,16 +181040,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1100
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1138
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -174518,8 +181061,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroup: [8, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -174541,43 +181084,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
     LSPA: 8
-    LSPB: 64
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2080
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -174589,9 +181128,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -174600,12 +181139,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -174616,8 +181155,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -174661,8 +181200,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1101
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1139
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -174670,20 +181209,20 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -174705,43 +181244,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2080
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -174765,11 +181300,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -174780,7 +181315,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -174825,8 +181360,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1102
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1140
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -174834,7 +181369,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -174845,9 +181380,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -174871,52 +181406,52 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSPA: 32
+    LSPB: 64
+    LVCA: 32
+    LVCB: 16
+    LVPA: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 16384
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 8192
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -174928,13 +181463,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 1024
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -174989,8 +181524,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1103
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
+    SolutionIndex: 1141
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -175009,9 +181544,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [16, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -175027,7 +181562,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -175053,27 +181588,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3088
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -175082,9 +181617,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -175092,13 +181627,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -175153,15 +181688,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1104
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1142
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -175174,10 +181709,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -175191,13 +181726,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -175216,34 +181751,38 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
+    LSCA: 128
+    LSCB: 32
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 4
+    LVCA: 64
+    LVCB: 16
+    LVPA: 8
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1040
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -175252,13 +181791,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 1024
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -175268,7 +181807,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -175313,16 +181852,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1105
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1143
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG32_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -175334,10 +181873,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroup: [32, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -175351,7 +181890,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -175377,27 +181916,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
+    LSCB: 32
+    LSPA: 32
     LSPB: 64
     LVCA: 32
-    LVCB: 4
-    LVPA: 4
+    LVCB: 16
+    LVPA: 16
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3088
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -175416,13 +181955,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 1024
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -175477,8 +182016,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1106
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1144
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -175498,10 +182037,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -175515,7 +182054,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -175541,21 +182080,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
     LSPB: 32
     LVCA: 32
-    LVCB: 8
+    LVCB: 16
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -175568,7 +182107,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -175584,7 +182123,7 @@
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 512
     PackBatchDims: 0
@@ -175641,8 +182180,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1107
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM1
+    SolutionIndex: 1145
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -175663,9 +182202,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -175685,39 +182224,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2080
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -175741,11 +182284,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -175756,7 +182299,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -175801,8 +182344,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1108
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1146
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -175810,7 +182353,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -175821,9 +182364,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -175847,56 +182390,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
-    LSPB: 32
+    LSPA: 8
+    LSPB: 64
     LVCA: 32
-    LVCB: 8
-    LVPA: 8
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -175904,13 +182447,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -175965,29 +182508,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1109
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM8
+    SolutionIndex: 1147
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -176011,51 +182554,51 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
     LSPA: 16
     LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -176064,13 +182607,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -176125,14 +182668,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1110
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT4_4_VW2_WG8_16_4_WGM8
+    SolutionIndex: 1148
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW4_GSU1_LPB4_PGR0_PLR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -176145,8 +182688,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -176171,55 +182714,55 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
     LSPA: 16
     LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -176228,13 +182771,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -176289,14 +182832,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1111
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_4_WGM8
+    SolutionIndex: 1149
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -176309,9 +182852,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -176333,39 +182876,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2080
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -176378,9 +182925,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -176388,11 +182935,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -176404,8 +182951,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -176449,8 +182996,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1112
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1150
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -176458,18 +183005,18 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 16
     WorkGroupMappingType: B
@@ -176493,39 +183040,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
     LSPA: 8
-    LSPB: 32
+    LSPB: 64
     LVCA: 32
-    LVCB: 8
-    LVPA: 4
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2080
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -176537,9 +183088,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -176548,12 +183099,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -176564,7 +183115,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -176609,8 +183160,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1113
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1151
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -176618,18 +183169,18 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 16
     WorkGroupMappingType: B
@@ -176655,52 +183206,52 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 32
-    LSPB: 64
-    LVCA: 32
-    LVCB: 16
-    LVPA: 16
-    LVPB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
+    LdsNumElements: 12416
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
     LdsOffsetA_Blk: 8192
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 10240
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 32
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -176712,13 +183263,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 1024
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -176773,8 +183324,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1114
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_4_WGM1
+    SolutionIndex: 1152
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -176793,8 +183344,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -176819,7 +183370,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -176827,33 +183378,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 32
-    LVCA: 32
+    LVCA: 16
     LVCB: 16
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -176877,10 +183428,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 512
     PackBatchDims: 0
@@ -176937,8 +183488,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1115
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM1
+    SolutionIndex: 1153
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -176957,7 +183508,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -176983,55 +183534,55 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 64
-    LVCA: 64
-    LVCB: 16
+    LVCA: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
     LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -177041,12 +183592,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 1024
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -177101,28 +183652,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1116
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG32_16_2_WGM1
+    SolutionIndex: 1154
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 16
-    SubGroupA: 32
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 16, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -177147,7 +183698,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -177155,33 +183706,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 32
-    LSPA: 32
-    LSPB: 64
+    LSPA: 16
+    LSPB: 32
     LVCA: 32
     LVCB: 16
-    LVPA: 16
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -177193,10 +183744,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -177204,13 +183755,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 1024
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -177265,29 +183816,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1117
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_4_WGM8
+    SolutionIndex: 1155
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -177311,41 +183862,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 32
-    LVCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 16
+    LVCB: 8
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 16384
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 8192
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -177358,9 +183909,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -177368,11 +183919,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 512
     PackBatchDims: 0
@@ -177429,29 +183980,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1118
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM8
+    SolutionIndex: 1156
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -177467,7 +184018,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -177476,7 +184027,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -177492,28 +184043,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 32
     LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -177521,9 +184072,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -177532,13 +184083,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 1024
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -177593,14 +184144,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1119
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1157
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -177614,10 +184165,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [32, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -177631,7 +184182,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -177640,7 +184191,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -177656,18 +184207,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSCA: 64
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -177677,18 +184228,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -177696,13 +184247,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -177757,20 +184308,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1120
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1158
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -177778,10 +184329,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -177795,13 +184346,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -177821,30 +184372,34 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 64
     LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -177856,13 +184411,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -177872,8 +184427,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -177917,31 +184472,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1121
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW4_GSU1_LPB4_PGR0_PLR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1159
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -177955,7 +184510,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -177964,7 +184519,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -177980,28 +184535,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 32
     LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -178009,9 +184564,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -178020,13 +184575,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 1024
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -178081,14 +184636,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1122
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
+    SolutionIndex: 1160
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -178102,10 +184657,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroup: [32, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -178119,7 +184674,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -178145,21 +184700,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
+    LVCB: 8
     LVPA: 4
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 12416
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -178172,11 +184727,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -178184,11 +184739,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -178245,8 +184800,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1123
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM16
+    SolutionIndex: 1161
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -178255,11 +184810,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -178269,7 +184824,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -178283,7 +184838,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -178292,7 +184847,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -178308,18 +184863,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSCA: 64
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -178329,18 +184884,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -178348,13 +184903,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -178365,7 +184920,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -178409,20 +184964,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1124
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM16
+    SolutionIndex: 1162
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR0_SNLL1_TT4_4_VW4_WG16_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -178430,10 +184985,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 4]
     WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -178474,14 +185029,14 @@
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 16
-    LSPB: 32
+    LSPA: 32
+    LSPB: 64
     LVCA: 16
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 12416
+    LdsNumElements: 16384
     LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
@@ -178493,14 +185048,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -178512,13 +185067,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -178573,29 +185128,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1125
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1163
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -178620,7 +185175,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -178639,19 +185194,19 @@
     LSCA: 64
     LSCB: 32
     LSPA: 32
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
+    LVCB: 8
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 16384
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 8192
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -178666,9 +185221,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -178676,8 +185231,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -178737,20 +185292,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1126
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_4_WGM1
+    SolutionIndex: 1164
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -178758,8 +185313,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -178784,7 +185339,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -178800,38 +185355,38 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 32
     LSPA: 32
     LSPB: 64
-    LVCA: 16
-    LVCB: 8
+    LVCA: 32
+    LVCB: 16
     LVPA: 8
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedA: 4096
     LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
     LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -178846,7 +185401,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 1024
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -178901,29 +185456,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1127
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_4_WGM1
+    SolutionIndex: 1165
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 32
+    SubGroup1: 16
+    SubGroupA: 32
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [32, 16, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -178939,15 +185494,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -178955,33 +185510,29 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 32
-    LVCB: 16
+    LSCA: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 128
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -178992,11 +185543,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 2
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -179004,13 +185555,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -179020,8 +185571,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -179065,31 +185616,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1128
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_8_4_WGM1
+    SolutionIndex: 1166
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT4_4_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 4]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -179103,49 +185654,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 32
+    LSCA: 16
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB: 128
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -179156,10 +185703,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 2
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -179168,13 +185715,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -179184,7 +185731,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -179229,31 +185776,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1129
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_4_WGM1
+    SolutionIndex: 1167
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT4_4_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 4]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -179276,7 +185823,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -179292,24 +185839,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
-    LSPB: 64
-    LVCA: 32
-    LVCB: 16
-    LVPA: 8
-    LVPB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -179321,9 +185868,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -179332,13 +185879,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 1024
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -179393,20 +185940,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1130
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_16_2_WGM1
+    SolutionIndex: 1168
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 32
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -179414,8 +185961,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -179431,15 +185978,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -179447,48 +185994,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -179496,13 +186039,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -179512,7 +186055,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -179557,16 +186100,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1131
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_4_WGM8
+    SolutionIndex: 1169
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -179577,11 +186120,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 4]
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -179595,63 +186138,59 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 32
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -179661,12 +186200,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -179676,7 +186215,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -179721,31 +186260,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1132
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_4_WGM8
+    SolutionIndex: 1170
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -179759,7 +186298,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -179767,7 +186306,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -179775,33 +186314,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 32
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 32
-    LVCB: 16
-    LVPA: 8
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -179812,10 +186351,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -179825,12 +186364,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 1024
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -179885,14 +186424,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1133
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_16_2_WGM8
+    SolutionIndex: 1171
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 32
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -179905,11 +186444,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 16, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -179923,63 +186462,59 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 32
+    LSCB: 16
     LSPA: 16
     LSPB: 32
     LVCA: 16
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 12416
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -179988,11 +186523,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -180004,7 +186539,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -180049,16 +186584,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1134
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
+    SolutionIndex: 1172
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -180069,11 +186604,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -180087,7 +186622,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -180095,7 +186630,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -180103,37 +186638,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 32
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
     LSPB: 32
     LVCA: 16
-    LVCB: 16
+    LVCB: 8
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -180141,10 +186676,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -180152,13 +186687,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -180169,7 +186704,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -180213,15 +186748,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1135
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR0_SNLL1_TT4_4_VW4_WG16_8_4_WGM16
+    SolutionIndex: 1173
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -180233,11 +186768,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -180251,49 +186786,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 32
-    LSPB: 64
-    LVCA: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 8
     LVCB: 8
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -180304,10 +186835,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -180316,13 +186847,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -180332,7 +186863,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -180377,31 +186908,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1136
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_4_WGM16
+    SolutionIndex: 1174
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -180415,53 +186946,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 32
-    LSPB: 64
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
     LVCA: 16
     LVCB: 8
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -180469,9 +186996,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -180481,12 +187008,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -180496,7 +187023,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -180541,8 +187068,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1137
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_4_WGM16
+    SolutionIndex: 1175
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -180550,22 +187077,22 @@
     SubGroup1: 16
     SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 4]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -180579,7 +187106,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -180587,7 +187114,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -180595,33 +187122,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 32
-    LSPB: 64
-    LVCA: 32
-    LVCB: 16
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -180632,10 +187159,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -180645,12 +187172,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 1024
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -180705,14 +187232,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1138
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_16_2_WGM16
+    SolutionIndex: 1176
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 32
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -180725,11 +187252,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 16, 2]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -180743,13 +187270,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -180768,34 +187295,38 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 8
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -180804,12 +187335,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -180820,8 +187351,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -180865,16 +187396,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1139
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT4_4_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1177
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -180886,10 +187417,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -180903,13 +187434,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -180929,34 +187460,38 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
     LVCA: 8
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
+    LoopUnroll: 4
     MacroTile0: 16
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 16
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -180964,12 +187499,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -180980,7 +187515,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -181025,16 +187560,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1140
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT4_4_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1178
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG4_8_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 4
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 4
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -181046,10 +187581,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 8, 8]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -181063,7 +187598,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -181089,23 +187624,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -181116,7 +187651,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -181132,8 +187667,8 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -181189,8 +187724,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1141
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM16
+    SolutionIndex: 1179
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -181211,9 +187746,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -181227,45 +187762,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
     LVCA: 16
     LVCB: 4
     LVPA: 4
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -181276,10 +187815,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -181288,7 +187827,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -181304,7 +187843,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -181349,8 +187888,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1142
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM8
+    SolutionIndex: 1180
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -181358,22 +187897,22 @@
     SubGroup1: 16
     SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 16, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -181387,45 +187926,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
     LVCA: 16
     LVCB: 4
     LVPA: 4
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -181436,10 +187979,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -181448,7 +187991,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -181464,7 +188007,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -181509,8 +188052,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1143
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM16
+    SolutionIndex: 1181
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -181518,22 +188061,22 @@
     SubGroup1: 16
     SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 16, 2]
     WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -181547,7 +188090,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -181555,41 +188098,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -181600,7 +188143,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 32
     MacroTile1: 64
     MacroTileA: 32
@@ -181613,11 +188156,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -181673,8 +188216,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1144
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM16
+    SolutionIndex: 1182
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -181693,11 +188236,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -181711,45 +188254,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 16
+    LVCA: 8
     LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -181760,7 +188307,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 32
     MacroTile1: 64
     MacroTileA: 32
@@ -181773,7 +188320,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -181788,7 +188335,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -181833,8 +188380,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1145
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM1
+    SolutionIndex: 1183
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -181842,7 +188389,7 @@
     SubGroup1: 16
     SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -181853,11 +188400,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -181871,7 +188418,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -181879,45 +188426,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 16
+    LVCA: 8
     LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -181926,9 +188473,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -181936,12 +188483,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -181997,15 +188544,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1146
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM1
+    SolutionIndex: 1184
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -182017,11 +188564,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -182041,7 +188588,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -182060,18 +188607,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 16
     LSPA: 16
     LSPB: 32
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -182085,10 +188636,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -182101,7 +188652,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -182112,7 +188663,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -182157,16 +188708,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1147
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1185
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -182178,7 +188729,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -182237,18 +188788,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -182256,12 +188807,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -182317,15 +188868,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1148
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM8
+    SolutionIndex: 1186
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -182338,7 +188889,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -182391,7 +188942,7 @@
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
@@ -182401,18 +188952,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -182420,12 +188971,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -182481,15 +189032,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1149
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM8
+    SolutionIndex: 1187
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -182502,8 +189053,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -182519,7 +189070,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -182545,27 +189096,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
+    LVCB: 16
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -182574,9 +189125,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -182584,11 +189135,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -182645,15 +189196,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1150
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM16
+    SolutionIndex: 1188
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -182666,10 +189217,174 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1189
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -182708,38 +189423,38 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -182748,11 +189463,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -182809,14 +189524,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1151
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG4_8_8_WGM8
+    SolutionIndex: 1190
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 4
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -182830,8 +189545,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -182856,7 +189571,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -182875,19 +189590,19 @@
     LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
+    LVCB: 8
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -182902,9 +189617,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -182912,8 +189627,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -182973,20 +189688,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1152
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM1
+    SolutionIndex: 1191
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -182994,7 +189709,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -183020,7 +189735,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -183039,19 +189754,19 @@
     LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
+    LVCB: 8
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -183066,9 +189781,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -183076,8 +189791,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -183137,20 +189852,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1153
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM8
+    SolutionIndex: 1192
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -183158,7 +189873,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -183184,7 +189899,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -183203,19 +189918,19 @@
     LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
+    LVCB: 8
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -183230,9 +189945,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -183240,8 +189955,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -183301,20 +190016,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1154
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM16
+    SolutionIndex: 1193
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -183322,7 +190037,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -183339,7 +190054,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -183364,18 +190079,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2176
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
@@ -183392,10 +190107,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -183404,12 +190119,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -183465,31 +190180,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1155
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_16_2_WGM1
+    SolutionIndex: 1194
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -183528,22 +190243,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 32
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
-    LVPA: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2176
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -183557,10 +190272,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -183572,8 +190287,8 @@
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -183629,15 +190344,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1156
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_16_2_WGM16
+    SolutionIndex: 1195
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -183650,8 +190365,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -183676,7 +190391,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -183692,24 +190407,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 128
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -183721,9 +190436,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 128
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 128
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -183732,13 +190447,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -183793,29 +190508,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1157
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM16
+    SolutionIndex: 1196
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG32_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    WorkGroup: [32, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -183831,7 +190546,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -183839,41 +190554,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 16
+    LVCA: 8
     LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -183884,7 +190599,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 32
     MacroTileA: 32
@@ -183897,7 +190612,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -183957,8 +190672,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1158
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1197
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -183977,11 +190692,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -183995,59 +190710,63 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
     LSPB: 32
     LVCA: 16
     LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -184056,11 +190775,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -184072,7 +190791,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -184117,16 +190836,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1159
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1198
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -184137,11 +190856,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -184155,49 +190874,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 16
+    LVCA: 8
     LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -184208,7 +190923,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 32
     MacroTileA: 32
@@ -184221,7 +190936,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -184236,7 +190951,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -184281,8 +190996,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1160
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM16
+    SolutionIndex: 1199
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS0_GRVW4_GSU1_LPB4_PGR0_PLR1_SNLL0_TT4_4_VW4_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -184290,7 +191005,7 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -184301,11 +191016,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -184327,41 +191042,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -184385,11 +191100,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -184445,8 +191160,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1161
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1200
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -184465,9 +191180,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -184491,41 +191206,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LVCB: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -184537,9 +191252,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -184548,12 +191263,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -184609,8 +191324,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1162
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1201
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -184619,17 +191334,17 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -184655,55 +191370,55 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LVCB: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -184712,12 +191427,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -184773,14 +191488,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1163
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM16
+    SolutionIndex: 1202
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -184793,8 +191508,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -184811,7 +191526,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -184820,7 +191535,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -184836,28 +191551,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 16
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -184865,9 +191580,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -184876,8 +191591,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -184937,14 +191652,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1164
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM1
+    SolutionIndex: 1203
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -184958,10 +191673,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -184975,15 +191690,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -184991,33 +191706,29 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
     LVPA: 4
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -185028,7 +191739,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -185041,11 +191752,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -185056,7 +191767,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -185101,8 +191812,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1165
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
+    SolutionIndex: 1204
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -185110,7 +191821,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -185121,11 +191832,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -185139,15 +191850,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -185155,33 +191866,29 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
     LVPA: 4
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -185192,7 +191899,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -185205,11 +191912,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -185220,7 +191927,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -185265,8 +191972,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1166
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
+    SolutionIndex: 1205
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -185274,7 +191981,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -185285,11 +191992,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -185303,7 +192010,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -185311,33 +192018,33 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 64
+    LSPB: 16
     LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 6208
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
@@ -185345,11 +192052,11 @@
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -185357,10 +192064,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -185368,12 +192075,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -185429,31 +192136,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1167
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM16
+    SolutionIndex: 1206
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT4_4_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -185475,55 +192182,55 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
+    LVCB: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -185532,12 +192239,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -185593,16 +192300,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1168
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM1
+    SolutionIndex: 1207
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT4_4_VW2_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -185613,9 +192320,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -185631,15 +192338,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -185647,47 +192354,43 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 16
+    LSCA: 16
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 32
-    LVCB: 16
+    LVCA: 8
+    LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 128
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -185696,13 +192399,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -185712,8 +192415,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -185757,31 +192460,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1169
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG32_4_4_WGM1
+    SolutionIndex: 1208
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 4, 4]
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -185795,53 +192498,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
-    LSPA: 32
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6272
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -185861,7 +192560,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -185876,7 +192575,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -185921,31 +192620,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1170
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM1
+    SolutionIndex: 1209
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -185959,53 +192658,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 32
+    LSCB: 16
     LSPA: 16
     LSPB: 32
     LVCA: 16
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -186013,9 +192708,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -186024,11 +192719,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -186040,8 +192735,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -186085,31 +192780,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1171
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
+    SolutionIndex: 1210
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -186123,7 +192818,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -186131,48 +192826,48 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
-    LSPA: 32
+    LSCB: 16
+    LSPA: 16
     LSPB: 32
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 32
     MacroTile1: 32
     MacroTileA: 32
@@ -186185,7 +192880,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -186245,31 +192940,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1172
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS0_GRVW4_GSU1_LPB4_PGR0_PLR1_SNLL0_TT4_4_VW4_WG8_8_4_WGM8
+    SolutionIndex: 1211
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -186283,53 +192978,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
-    LSPA: 32
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6272
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 528
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -186349,7 +193040,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -186364,7 +193055,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -186409,31 +193100,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1173
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM8
+    SolutionIndex: 1212
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -186447,53 +193138,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 16
     LSPB: 32
-    LVCA: 16
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -186501,9 +193188,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -186512,11 +193199,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -186528,8 +193215,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -186573,31 +193260,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1174
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_8_4_WGM8
+    SolutionIndex: 1213
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -186611,49 +193298,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 16
     LSPB: 32
-    LVCA: 16
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -186664,10 +193347,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -186676,11 +193359,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -186692,7 +193375,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -186737,31 +193420,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1175
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
+    SolutionIndex: 1214
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -186775,7 +193458,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -186783,45 +193466,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
-    LSPA: 32
+    LSCB: 16
+    LSPA: 16
     LSPB: 32
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6272
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3104
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -186841,7 +193524,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -186901,31 +193584,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1176
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM16
+    SolutionIndex: 1215
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -186939,7 +193622,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -186956,7 +193639,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -186964,24 +193647,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 1568
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -186989,10 +193672,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -187004,7 +193687,7 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -187017,7 +193700,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -187061,20 +193744,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1177
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_8_2_WGM1
+    SolutionIndex: 1216
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -187082,10 +193765,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -187116,43 +193799,43 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 32
-    LSPA: 8
+    LSPA: 32
     LSPB: 16
-    LVCA: 32
+    LVCA: 8
     LVCB: 16
-    LVPA: 4
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -187160,12 +193843,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -187221,29 +193904,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1178
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_8_2_WGM8
+    SolutionIndex: 1217
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -187276,30 +193959,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -187313,10 +193996,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -187324,12 +194007,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -187385,8 +194068,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1179
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT4_4_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1218
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -187394,12 +194077,12 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -187407,7 +194090,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -187440,7 +194123,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -187457,13 +194140,13 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -187478,9 +194161,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -187488,12 +194171,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -187549,8 +194232,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1180
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT4_4_VW2_WG8_8_4_WGM16
+    SolutionIndex: 1219
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -187558,12 +194241,12 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -187587,13 +194270,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -187607,40 +194290,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 8
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -187648,11 +194335,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -187664,8 +194351,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -187709,16 +194396,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1181
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_2_WGM1
+    SolutionIndex: 1220
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -187730,10 +194417,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -187747,13 +194434,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -187773,23 +194460,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -187798,9 +194489,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -187808,11 +194499,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -187824,7 +194515,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -187869,31 +194560,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1182
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1221
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_4_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -187907,15 +194598,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -187923,44 +194614,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -187969,10 +194664,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -187984,8 +194679,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -188029,31 +194724,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1183
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1222
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -188067,15 +194762,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -188083,33 +194778,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 128
+    LSCB: 32
     LSPA: 16
     LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 13440
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -188117,9 +194816,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
+    MacroTile0: 128
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 128
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -188128,13 +194827,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -188144,7 +194843,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -188189,31 +194888,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1184
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1223
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    VectorWidth: 4
+    WorkGroup: [32, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -188227,15 +194926,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -188243,33 +194942,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
-    LVCB: 4
+    LVCB: 16
     LVPA: 4
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 528
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -188277,10 +194980,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -188289,10 +194992,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -188304,7 +195007,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -188349,31 +195052,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1185
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1224
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -188387,15 +195090,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -188403,33 +195106,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -188437,10 +195144,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -188448,11 +195155,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -188464,8 +195171,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -188509,31 +195216,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1186
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_2_WGM1
+    SolutionIndex: 1225
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_4_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -188547,15 +195254,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -188563,29 +195270,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 128
+    LSCB: 32
     LSPA: 16
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 13440
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -188596,10 +195307,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 128
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -188608,13 +195319,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -188624,7 +195335,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -188669,37 +195380,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1187
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_16_2_WGM1
+    SolutionIndex: 1226
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 8, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -188714,57 +195425,58 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3104
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -188772,8 +195484,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -188788,6 +195502,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -188795,6 +195510,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -188833,37 +195549,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1188
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_16_2_WGM1
+    SolutionIndex: 1227
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -188877,39 +195591,44 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1568
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -188921,9 +195640,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -188932,12 +195651,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -188948,13 +195667,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -188993,8 +195714,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1189
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1228
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -189003,19 +195724,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -189023,7 +195744,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -189031,13 +195752,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -189051,29 +195772,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1088
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -189081,10 +195807,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -189092,11 +195818,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -189108,13 +195834,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -189153,37 +195881,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1190
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM16
+    SolutionIndex: 1229
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT6_4_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -189191,7 +195919,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -189211,33 +195939,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -189245,10 +195974,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -189256,11 +195985,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -189272,13 +196001,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -189317,37 +196048,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1191
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM16
+    SolutionIndex: 1230
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT6_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -189355,7 +196086,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -189379,29 +196110,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -189409,10 +196141,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -189420,8 +196152,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -189436,6 +196168,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -189443,6 +196176,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -189481,37 +196215,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1192
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM16
+    SolutionIndex: 1231
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -189519,7 +196253,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -189539,33 +196273,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -189573,10 +196308,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -189584,8 +196319,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -189600,6 +196335,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -189607,6 +196343,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -189645,37 +196382,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1193
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM16
+    SolutionIndex: 1232
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -189683,14 +196420,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -189707,40 +196444,41 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 6656
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -189748,12 +196486,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 2
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -189764,6 +196504,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -189771,6 +196512,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -189809,37 +196551,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1194
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_4_4_WGM16
+    SolutionIndex: 1233
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -189847,7 +196587,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -189855,8 +196595,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -189867,33 +196607,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 96
+    LVCA: 32
+    LVCB: 2
     LVPA: 4
-    LVPB: 8
+    LVPB: 24
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -189902,9 +196643,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -189912,11 +196653,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -189928,6 +196669,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -189935,6 +196677,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -189973,37 +196716,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1195
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_4_4_WGM1
+    SolutionIndex: 1234
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -190011,64 +196754,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 32
-    LSPA: 16
+    LSCB: 8
+    LSPA: 2
     LSPB: 32
-    LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCA: 128
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 13440
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -190076,13 +196820,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -190092,6 +196838,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -190099,6 +196846,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -190137,37 +196885,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1196
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_8_2_WGM1
+    SolutionIndex: 1235
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -190175,15 +196921,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -190191,37 +196937,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -190229,10 +196976,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -190240,8 +196987,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -190256,13 +197005,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -190301,37 +197052,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1197
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_4_4_WGM8
+    SolutionIndex: 1236
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -190339,15 +197088,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -190355,37 +197104,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -190393,10 +197143,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -190404,8 +197154,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -190420,6 +197172,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -190427,6 +197180,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -190465,37 +197219,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1198
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_4_4_WGM16
+    SolutionIndex: 1237
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -190503,14 +197255,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -190527,40 +197279,41 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
     LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 13440
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -190568,13 +197321,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -190584,13 +197339,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -190629,20 +197386,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1199
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_8_2_WGM16
+    SolutionIndex: 1238
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -190650,12 +197407,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -190667,7 +197422,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -190676,7 +197431,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -190693,18 +197448,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -190721,10 +197476,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -190733,8 +197488,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -190798,8 +197553,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1200
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1239
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -190808,10 +197563,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -190820,9 +197575,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -190834,16 +197589,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -190860,18 +197615,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -190888,10 +197643,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -190900,8 +197655,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -190963,8 +197720,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1201
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1240
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -190973,10 +197730,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -190987,9 +197744,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -191001,48 +197756,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
-    LSCB: 8
-    LSPA: 5
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 48
+    LVCA: 32
     LVCB: 4
-    LVPA: 3
-    LVPB: 32
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -191055,10 +197810,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 96
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -191067,8 +197822,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -191085,7 +197842,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -191130,8 +197887,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1202
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT6_4_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1241
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -191140,23 +197897,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -191194,22 +197949,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
+    LSCA: 128
     LSCB: 8
-    LSPA: 5
+    LSPA: 4
     LSPB: 64
-    LVCA: 48
+    LVCA: 64
     LVCB: 4
-    LVPA: 3
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -191223,9 +197978,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -191234,8 +197989,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -191297,8 +198052,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1203
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT6_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1242
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -191307,10 +198062,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -191322,7 +198077,7 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -191361,22 +198116,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
+    LSCA: 128
     LSCB: 8
-    LSPA: 5
+    LSPA: 4
     LSPB: 64
-    LVCA: 48
+    LVCA: 64
     LVCB: 4
-    LVPA: 3
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -191390,9 +198145,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -191401,8 +198156,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -191464,8 +198219,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1204
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1243
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -191474,10 +198229,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -191486,10 +198241,10 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -191510,7 +198265,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -191518,32 +198273,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
+    LSCA: 128
     LSCB: 8
-    LSPA: 5
+    LSPA: 8
     LSPB: 64
-    LVCA: 48
+    LVCA: 32
     LVCB: 4
-    LVPA: 3
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -191557,9 +198312,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -191568,11 +198323,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -191586,7 +198341,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -191631,8 +198386,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1205
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1244
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -191641,22 +198396,22 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -191669,15 +198424,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -191685,32 +198440,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 128
+    LSCB: 8
     LSPA: 8
-    LSPB: 32
+    LSPB: 64
     LVCA: 32
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6656
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1536
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -191723,11 +198478,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -191735,14 +198490,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 2
-    NumLoadsB: 3
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -191755,7 +198508,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -191800,8 +198553,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1206
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1245
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -191810,21 +198563,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -191844,8 +198599,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -191856,28 +198611,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 8
     LSPA: 8
-    LSPB: 96
+    LSPB: 64
     LVCA: 32
-    LVCB: 2
-    LVPA: 4
-    LVPB: 24
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -191891,10 +198646,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -191902,8 +198657,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -191965,8 +198720,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1207
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1246
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -191975,19 +198730,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -192010,31 +198765,31 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 2
-    LSPB: 32
-    LVCA: 128
-    LVCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
@@ -192070,13 +198825,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -192134,8 +198887,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1208
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO1_WG16_16_1_WGM8
+    SolutionIndex: 1247
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -192150,15 +198903,17 @@
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -192170,48 +198925,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 8
-    LSPA: 4
+    LSCB: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 64
+    LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -192224,7 +198979,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -192237,9 +198992,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -192256,7 +199009,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -192301,8 +199054,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1209
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1248
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -192321,11 +199074,13 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -192345,36 +199100,36 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
+    LSPA: 2
+    LSPB: 32
+    LVCA: 128
+    LVCB: 8
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -192393,9 +199148,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -192403,14 +199158,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -192468,8 +199223,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1210
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1249
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -192478,17 +199233,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -192512,7 +199267,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -192520,11 +199275,11 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -192532,16 +199287,16 @@
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 8
+    LSPA: 4
     LSPB: 64
-    LVCA: 32
+    LVCA: 64
     LVCB: 4
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -192560,9 +199315,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -192570,14 +199325,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -192635,8 +199390,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1211
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1250
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -192645,17 +199400,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -192679,7 +199434,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -192687,11 +199442,11 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -192699,16 +199454,16 @@
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 8
+    LSPA: 4
     LSPB: 64
-    LVCA: 32
+    LVCA: 64
     LVCB: 4
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -192727,9 +199482,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -192737,14 +199492,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -192802,8 +199557,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1212
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1251
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -192812,19 +199567,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -192847,7 +199602,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -192867,15 +199622,15 @@
     LSCA: 128
     LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 128
     LVCA: 32
-    LVCB: 4
+    LVCB: 2
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -192894,9 +199649,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -192904,8 +199659,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -192924,7 +199679,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -192969,8 +199724,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1213
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1252
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -192979,11 +199734,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -192991,7 +199746,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -193005,7 +199760,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -193032,21 +199787,21 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 128
     LVCA: 32
-    LVCB: 4
+    LVCB: 2
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -193059,11 +199814,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -193071,13 +199826,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -193091,7 +199846,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -193136,8 +199891,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1214
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1253
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -193146,11 +199901,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -193158,9 +199913,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -193179,20 +199934,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -193200,16 +199955,16 @@
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -193228,9 +199983,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -193238,11 +199993,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -193256,7 +200013,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -193301,8 +200058,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1215
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1254
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -193311,23 +200068,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -193346,20 +200101,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -193367,16 +200122,16 @@
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -193395,9 +200150,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -193405,11 +200160,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -193468,8 +200225,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1216
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1255
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -193478,23 +200235,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -193506,16 +200261,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -193533,21 +200288,21 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 8
+    LSCB: 16
     LSPA: 8
     LSPB: 64
     LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -193560,11 +200315,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -193572,12 +200327,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -193590,7 +200347,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -193635,8 +200392,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1217
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1256
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -193645,11 +200402,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -193659,9 +200416,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -193682,7 +200437,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -193702,15 +200457,15 @@
     LSCA: 128
     LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 128
     LVCA: 32
-    LVCB: 4
+    LVCB: 2
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -193729,9 +200484,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -193739,8 +200494,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -193802,8 +200557,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1218
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1257
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -193812,11 +200567,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -193849,7 +200604,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -193869,15 +200624,15 @@
     LSCA: 128
     LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 128
     LVCA: 32
-    LVCB: 4
+    LVCB: 2
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -193896,9 +200651,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -193906,8 +200661,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -193969,8 +200724,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1219
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1258
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -193979,11 +200734,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -193991,7 +200746,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -194013,42 +200768,38 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 32
     LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LVCB: 8
+    LVPA: 8
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -194062,10 +200813,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -194073,8 +200824,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -194090,8 +200843,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -194136,8 +200889,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1220
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1259
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB0_PGR0_PLR0_TT2_2_USFGRO1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -194146,23 +200899,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -194174,54 +200925,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -194229,10 +200980,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -194240,12 +200991,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -194303,33 +201056,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1221
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1260
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -194341,65 +201092,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 2
-    LSPB: 32
-    LVCA: 128
-    LVCB: 8
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 6208
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -194407,14 +201158,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -194472,31 +201221,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1222
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO1_WG16_16_1_WGM8
+    SolutionIndex: 1261
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -194508,14 +201259,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -194534,39 +201285,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -194574,14 +201325,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -194594,7 +201343,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -194639,31 +201388,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1223
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1262
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -194675,7 +201426,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -194701,39 +201452,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 6208
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -194741,8 +201492,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -194806,31 +201557,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1224
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1263
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -194842,7 +201593,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -194850,8 +201601,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -194862,34 +201613,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3104
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -194897,10 +201648,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -194908,8 +201659,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -194928,7 +201679,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -194973,31 +201724,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1225
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1264
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -195009,7 +201760,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -195018,7 +201769,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -195035,28 +201786,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -195064,10 +201815,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -195075,8 +201826,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -195095,7 +201846,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -195140,31 +201891,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1226
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1265
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -195176,7 +201927,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -195202,39 +201953,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -195242,13 +201993,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -195307,31 +202058,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1227
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1266
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -195343,65 +202094,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
+    LSCA: 64
+    LSCB: 32
     LSPA: 8
-    LSPB: 128
+    LSPB: 16
     LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -195409,14 +202160,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -195474,31 +202223,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1228
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1267
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -195517,9 +202268,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -195536,39 +202287,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -195576,14 +202327,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -195641,31 +202390,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1229
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1268
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -195677,7 +202428,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -195703,39 +202454,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -195743,11 +202494,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -195761,7 +202512,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -195806,31 +202557,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1230
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1269
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -195844,15 +202595,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -195864,34 +202615,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -195899,10 +202650,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -195910,8 +202661,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -195973,33 +202726,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1231
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1270
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -196011,13 +202762,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -196037,24 +202788,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -196062,9 +202817,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -196073,14 +202828,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -196092,8 +202847,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -196138,20 +202893,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1232
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB0_PGR0_PLR0_TT2_2_USFGRO1_WG16_16_1_WGM1
+    SolutionIndex: 1271
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO1_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -196159,10 +202914,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -196182,56 +202937,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 8
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LVCB: 32
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -196240,14 +202995,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -196305,14 +203060,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1233
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG8_16_2_WGM1
+    SolutionIndex: 1272
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO1_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 2]
@@ -196321,13 +203076,13 @@
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
   - AggressivePerfMode: 1
@@ -196367,38 +203122,38 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -196407,11 +203162,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -196470,14 +203225,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1234
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG8_16_2_WGM1
+    SolutionIndex: 1273
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 2]
@@ -196491,8 +203246,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -196517,14 +203272,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -196534,39 +203289,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -196578,7 +203333,7 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -196637,20 +203392,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1235
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1274
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -196658,7 +203413,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -196684,14 +203439,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -196701,39 +203456,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6720
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 4608
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -196743,11 +203498,11 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -196761,7 +203516,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -196806,20 +203561,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1236
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_WG16_8_2_WGM1
+    SolutionIndex: 1275
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR0_TT4_4_USFGRO0_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -196827,8 +203582,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
   - AggressivePerfMode: 1
@@ -196842,7 +203597,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -196851,45 +203606,45 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 8
     LVCA: 16
-    LVCB: 8
+    LVCB: 32
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3104
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -196898,9 +203653,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 8
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -196908,13 +203663,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -196973,31 +203728,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1237
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1276
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -197009,7 +203764,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -197017,34 +203772,34 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
@@ -197052,11 +203807,11 @@
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -197064,10 +203819,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -197075,14 +203830,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -197095,7 +203850,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -197140,31 +203895,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1238
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1277
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR0_TT2_4_USFGRO1_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -197184,57 +203939,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -197242,14 +203997,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -197307,28 +204062,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1239
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1278
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO1_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -197350,7 +204105,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -197369,39 +204124,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
+    LVCA: 16
     LVCB: 16
-    LVPA: 4
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -197409,12 +204164,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -197427,7 +204184,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -197472,20 +204229,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1240
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1279
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR0_TT2_4_USFGRO0_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -197493,12 +204250,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -197517,9 +204272,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -197539,15 +204294,15 @@
     LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
+    LVCB: 16
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -197557,18 +204312,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -197576,8 +204331,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -197639,15 +204396,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1241
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1280
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -197660,12 +204417,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -197677,65 +204432,61 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
+    LSCB: 8
+    LSPA: 4
     LSPB: 32
-    LVCA: 16
+    LVCA: 64
     LVCB: 8
     LVPA: 4
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -197743,13 +204494,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -197760,7 +204514,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -197806,15 +204560,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1242
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1281
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -197822,17 +204576,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -197844,54 +204596,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 32
-    LSPA: 32
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
     LSPB: 32
-    LVCA: 8
+    LVCA: 64
     LVCB: 8
-    LVPA: 32
-    LVPB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -197899,10 +204647,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -197910,15 +204658,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -197929,8 +204678,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -197975,31 +204724,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1243
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_WG4_16_4_WGM1
+    SolutionIndex: 1282
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -198011,7 +204760,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -198019,57 +204768,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
+    LSCA: 64
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 64
     LVCA: 16
-    LVCB: 32
-    LVPA: 16
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -198077,15 +204826,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -198142,31 +204892,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1244
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO1_WG4_16_4_WGM1
+    SolutionIndex: 1283
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -198178,7 +204928,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -198186,57 +204936,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
+    LSCA: 64
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 64
     LVCA: 16
-    LVCB: 32
-    LVPA: 16
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -198244,15 +204994,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -198309,31 +205060,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1245
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO1_WG4_16_4_WGM8
+    SolutionIndex: 1284
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -198345,7 +205096,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -198371,28 +205122,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -198400,10 +205151,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -198411,13 +205162,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -198474,31 +205226,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1246
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG4_16_4_WGM8
+    SolutionIndex: 1285
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW2_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -198512,7 +205264,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -198520,7 +205272,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -198532,45 +205284,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -198578,13 +205330,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -198641,31 +205394,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1247
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG4_16_4_WGM8
+    SolutionIndex: 1286
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -198679,7 +205432,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -198688,14 +205441,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -198705,38 +205458,38 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
     LSPB: 32
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6720
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 4608
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
+    LoopUnroll: 16
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 16
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -198745,15 +205498,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
     NumLoadsB: 2
-    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -198765,7 +205519,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -198810,20 +205564,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1248
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR0_TT4_4_USFGRO0_WG4_16_4_WGM8
+    SolutionIndex: 1287
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_DTL0_EPS1_FL0_GRVW2_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -198831,10 +205585,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -198846,16 +205600,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -198866,34 +205620,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -198901,10 +205655,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -198912,15 +205666,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -198977,31 +205730,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1249
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_WG16_4_4_WGM8
+    SolutionIndex: 1288
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -199013,7 +205768,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -199021,46 +205776,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -199068,10 +205823,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -199079,15 +205834,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -199099,7 +205855,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -199144,31 +205900,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1250
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR0_TT2_4_USFGRO1_WG16_4_4_WGM8
+    SolutionIndex: 1289
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW2_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -199180,7 +205936,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -199188,46 +205944,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 128
+    LSCB: 8
     LSPA: 8
-    LSPB: 8
+    LSPB: 64
     LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -199235,10 +205991,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -199246,15 +206002,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -199311,31 +206068,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1251
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO1_WG16_4_4_WGM8
+    SolutionIndex: 1290
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -199347,7 +206104,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -199355,7 +206112,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -199363,38 +206120,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -199402,10 +206159,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -199413,15 +206170,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -199433,7 +206191,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -199478,31 +206236,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1252
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR0_TT2_4_USFGRO0_WG16_4_4_WGM8
+    SolutionIndex: 1291
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -199523,7 +206281,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -199540,39 +206298,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -199580,15 +206338,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -199645,20 +206404,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1253
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_4_4_WGM8
+    SolutionIndex: 1292
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -199666,8 +206425,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -199687,38 +206446,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 8
-    LSPA: 4
-    LSPB: 32
-    LVCA: 64
-    LVCB: 8
-    LVPA: 4
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -199732,9 +206495,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -199743,14 +206506,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -199763,7 +206524,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -199809,8 +206570,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1254
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1293
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -199819,21 +206580,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -199851,38 +206614,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 8
-    LSPA: 4
-    LSPB: 32
-    LVCA: 64
-    LVCB: 8
-    LVPA: 4
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -199896,9 +206663,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -199907,14 +206674,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -199927,8 +206692,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -199973,8 +206738,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1255
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1294
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -199983,21 +206748,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -200009,48 +206776,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -200063,11 +206826,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -200075,8 +206838,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -200095,8 +206858,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -200141,8 +206904,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1256
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1295
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR0_TT2_2_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -200151,21 +206914,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -200177,50 +206940,46 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
     LVPA: 4
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 784
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -200231,11 +206990,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -200243,13 +207002,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -200263,8 +207022,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -200309,8 +207068,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1257
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1296
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB2_PGR0_PLR0_TT4_2_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -200319,21 +207078,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -200345,7 +207104,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -200354,14 +207113,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -200371,24 +207130,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -200399,10 +207158,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -200411,8 +207170,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -200475,8 +207234,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1258
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW2_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1297
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -200485,10 +207244,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -200497,9 +207256,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -200519,44 +207278,40 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2080
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -200580,11 +207335,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -200597,7 +207354,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -200643,8 +207400,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1259
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1298
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB2_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -200659,17 +207416,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -200687,44 +207442,40 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -200736,9 +207487,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 96
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -200747,14 +207498,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 3
-    NumLoadsB: 2
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -200767,7 +207518,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -200813,8 +207564,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1260
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_DTL0_EPS1_FL0_GRVW2_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1299
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -200823,19 +207574,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -200849,50 +207600,46 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
-    LSCB: 8
-    LSPA: 5
-    LSPB: 64
-    LVCA: 48
-    LVCB: 4
-    LVPA: 3
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4224
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -200903,10 +207650,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 96
+    LoopUnroll: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -200915,12 +207662,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -200933,7 +207682,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -200979,8 +207728,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1261
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1300
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -200989,23 +207738,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -201017,50 +207764,46 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 4
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 64
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -201071,10 +207814,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -201083,13 +207826,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -201103,7 +207844,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -201149,8 +207890,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1262
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW2_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1301
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL1_GRVW4_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -201159,21 +207900,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -201185,54 +207928,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
+    LSCA: 32
+    LSCB: 16
     LSPA: 8
-    LSPB: 64
+    LSPB: 16
     LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -201240,10 +207979,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -201251,13 +207990,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -201271,7 +208010,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -201317,31 +208056,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1263
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1302
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_TT2_2_USFGRO1_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -201353,7 +208092,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -201379,28 +208118,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -201408,10 +208147,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -201419,8 +208158,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -201485,20 +208224,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1264
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1303
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -201506,10 +208245,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -201528,9 +208267,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -201547,39 +208286,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -201587,13 +208326,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -201653,20 +208390,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1265
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1304
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -201674,10 +208411,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -201689,16 +208428,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -201709,34 +208448,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -201744,10 +208483,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -201755,8 +208494,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -201819,33 +208560,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1266
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1305
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_DTL0_EPS1_FL0_GRVW4_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -201857,54 +208596,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
+    LSCA: 32
+    LSCB: 32
     LSPA: 8
-    LSPB: 64
+    LSPB: 8
     LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3392
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -201912,10 +208651,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -201923,11 +208662,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -201987,33 +208728,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1267
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1306
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_DTL0_EPS1_FL0_GRVW1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -202025,50 +208764,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 8
-    LVPB: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -202077,9 +208820,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -202087,13 +208830,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -202107,8 +208848,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -202153,31 +208894,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1268
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR0_TT2_2_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1307
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_DTL0_EPS1_FL1_GRVW2_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -202189,50 +208932,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 4
-    LSPB: 32
-    LVCA: 64
-    LVCB: 8
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 784
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -202241,9 +208988,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -202251,8 +208998,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -202271,8 +209018,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -202317,35 +209064,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1269
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB2_PGR0_PLR0_TT4_2_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1308
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -202353,50 +209100,46 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 8
-    LVPB: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -202407,10 +209150,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -202419,12 +209162,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -202437,8 +209182,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -202483,8 +209228,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1270
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1309
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB0_PGR0_PLR0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -202493,23 +209238,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -202521,46 +209264,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
     LVPA: 4
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2080
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -202571,7 +209318,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -202585,12 +209332,10 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -202603,7 +209348,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -202649,8 +209394,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1271
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB2_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1310
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS3_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -202665,19 +209410,21 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -202685,13 +209432,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -202705,26 +209452,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 2
+    LSPB: 32
+    LVCA: 128
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -202735,10 +209486,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -202747,14 +209498,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -202767,7 +209518,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -202813,8 +209564,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1272
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1311
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -202823,21 +209574,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -202849,46 +209600,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4224
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -202899,10 +209654,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -202911,14 +209666,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -202931,7 +209686,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -202977,8 +209732,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1273
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1312
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -202987,25 +209742,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -203013,46 +209768,46 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -203063,11 +209818,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -203075,8 +209830,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -203094,7 +209851,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -203139,8 +209896,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1274
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL1_GRVW4_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1313
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB0_PGR0_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -203149,27 +209906,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -203177,13 +209932,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -203197,30 +209952,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 16
+    LSPB: 32
     LVCA: 32
-    LVCB: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 1544
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -203229,9 +209988,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -203239,13 +209998,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -203259,8 +210018,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -203305,15 +210064,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1275
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_TT2_2_USFGRO1_VW2_WG16_8_2_WGM8
+    SolutionIndex: 1314
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_LPB1_PGR1_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -203325,15 +210084,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -203341,54 +210100,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 16
+    LVCA: 32
     LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 520
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -203396,9 +210151,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -203407,8 +210162,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -203427,8 +210182,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -203473,35 +210228,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1276
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
+    SolutionIndex: 1315
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB1_PGR0_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -203515,58 +210270,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1040
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -203575,12 +210326,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -203593,8 +210346,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -203639,37 +210392,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1277
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    SolutionIndex: 1316
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB1_PGR0_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -203677,7 +210428,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -203686,14 +210437,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -203703,28 +210454,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 32
-    LSPA: 32
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 8
+    LVCA: 32
     LVCB: 8
-    LVPA: 32
-    LVPB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
+    LdsNumElements: 1792
     LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -203732,10 +210483,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -203743,14 +210494,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -203764,7 +210515,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -203809,31 +210560,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1278
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_DTL0_EPS1_FL0_GRVW4_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1317
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR0_TT2_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -203845,7 +210596,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -203865,45 +210616,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
+    LSCB: 8
     LSPA: 8
-    LSPB: 8
+    LSPB: 32
     LVCA: 32
-    LVCB: 32
+    LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 8
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -203911,13 +210662,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -203977,35 +210728,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1279
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_DTL0_EPS1_FL0_GRVW1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1318
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -204019,59 +210770,55 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -204079,12 +210826,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -204097,7 +210846,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -204143,37 +210892,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1280
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_DTL0_EPS1_FL1_GRVW2_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1319
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_AMAS1_EPS0_FL0_GRVW1_GSU8_LPB1_PGR0_PLR1_TT4_4_USFGRO1_VW1_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 1
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -204181,15 +210928,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -204197,34 +210944,30 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -204235,11 +210978,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -204247,13 +210990,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -204267,7 +211010,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -204313,35 +211056,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1281
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    SolutionIndex: 1320
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_AMAS1_EPS0_FL0_GRVW2_GSU1_LPB0_PGR0_PLR1_TT4_2_USFGRO1_VW1_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 1
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -204349,50 +211092,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 4
-    LSPB: 32
-    LVCA: 64
-    LVCB: 8
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -204401,9 +211148,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -204411,14 +211158,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -204431,8 +211176,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -204477,15 +211222,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1282
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB0_PGR0_PLR0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1321
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_AMAS3_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -204493,15 +211238,17 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -204513,16 +211260,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -204533,28 +211280,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 4
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -204567,7 +211314,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -204575,12 +211322,16 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -204627,6 +211378,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -204643,8 +211395,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1283
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS3_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1322
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -204663,17 +211415,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -204681,7 +211431,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -204689,36 +211439,36 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 2
-    LSPB: 32
-    LVCA: 128
-    LVCB: 8
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -204735,26 +211485,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -204797,6 +211549,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -204813,8 +211566,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1284
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1323
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -204823,21 +211576,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -204849,7 +211602,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -204857,40 +211610,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -204903,26 +211656,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -204965,6 +211720,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -204981,8 +211737,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1285
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1324
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -204991,25 +211747,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -205017,44 +211773,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -205067,22 +211827,22 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -205099,8 +211859,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -205129,6 +211889,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -205145,8 +211906,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1286
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB0_PGR0_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1325
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -205155,25 +211916,27 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -205181,50 +211944,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1544
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -205235,22 +211998,22 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -205268,7 +212031,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -205297,6 +212060,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -205313,8 +212077,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1287
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_LPB1_PGR1_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1326
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -205323,25 +212087,27 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -205355,40 +212121,44 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 32
+    LSPB: 96
     LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LVCB: 2
+    LVPA: 4
+    LVPB: 24
     LdcEqualsLdd: false
-    LdsNumElements: 520
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -205400,21 +212170,21 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -205431,7 +212201,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -205461,6 +212231,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -205477,8 +212248,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1288
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB1_PGR0_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1327
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -205487,25 +212258,27 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -205513,46 +212286,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 8
     LSPA: 8
-    LSPB: 16
+    LSPB: 96
     LVCA: 32
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVCB: 2
+    LVPA: 4
+    LVPB: 24
     LdcEqualsLdd: false
-    LdsNumElements: 1040
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -205563,26 +212340,26 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -205595,8 +212372,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -205625,6 +212402,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -205641,8 +212419,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1289
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB1_PGR0_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1328
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -205651,25 +212429,27 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -205684,41 +212464,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 32
+    LSPB: 96
     LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LVCB: 2
+    LVPA: 4
+    LVPB: 24
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -205732,25 +212512,25 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -205764,7 +212544,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -205793,6 +212573,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -205809,8 +212590,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1290
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR0_TT2_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1329
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -205819,21 +212600,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -205853,66 +212636,68 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 128
     LSCB: 8
     LSPA: 8
-    LSPB: 32
+    LSPB: 64
     LVCA: 32
-    LVCB: 8
-    LVPA: 8
+    LVCB: 4
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -205932,7 +212717,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -205961,6 +212746,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -205977,35 +212763,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1291
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_2_WGM8
+    SolutionIndex: 1330
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -206013,76 +212799,82 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -206095,8 +212887,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -206125,6 +212917,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -206141,35 +212934,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1292
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_AMAS1_EPS0_FL0_GRVW1_GSU8_LPB1_PGR0_PLR1_TT4_4_USFGRO1_VW1_WG16_8_2_WGM1
+    SolutionIndex: 1331
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -206177,15 +212970,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -206193,54 +212986,60 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -206259,7 +213058,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -206289,6 +213088,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -206305,31 +213105,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1293
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_AMAS1_EPS0_FL0_GRVW2_GSU1_LPB0_PGR0_PLR1_TT4_2_USFGRO1_VW1_WG4_16_4_WGM1
+    SolutionIndex: 1332
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -206341,14 +213141,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -206367,28 +213167,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -206396,22 +213196,26 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -206455,6 +213259,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -206471,20 +213276,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1294
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_AMAS3_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    SolutionIndex: 1333
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -206492,12 +213297,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -206535,22 +213338,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -206564,9 +213367,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -206577,13 +213380,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -206644,8 +213447,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1295
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1334
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -206654,10 +213457,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -206680,44 +213483,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
     LSPB: 64
-    LVCA: 16
+    LVCA: 64
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -206734,10 +213537,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -206748,13 +213551,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -206815,8 +213616,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1296
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1335
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -206825,21 +213626,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -206851,16 +213654,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -206877,22 +213680,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -206905,10 +213708,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -206919,14 +213722,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -206940,7 +213741,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -206986,8 +213787,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1297
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1336
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -206996,10 +213797,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -207008,9 +213809,11 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -207022,7 +213825,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -207031,7 +213834,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -207048,18 +213851,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -207076,10 +213879,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -207090,8 +213893,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -207109,7 +213912,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -207155,8 +213958,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1298
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1337
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -207165,10 +213968,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -207177,9 +213980,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -207193,7 +213996,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -207202,7 +214005,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -207219,18 +214022,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -207247,10 +214050,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -207261,8 +214064,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -207326,8 +214129,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1299
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1338
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -207336,10 +214139,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -207348,9 +214151,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -207372,8 +214175,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -207384,28 +214187,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 8
     LSPA: 8
-    LSPB: 96
+    LSPB: 64
     LVCA: 32
-    LVCB: 2
-    LVPA: 4
-    LVPB: 24
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -207419,10 +214222,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -207432,8 +214235,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -207451,7 +214254,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -207497,8 +214300,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1300
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1339
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -207507,17 +214310,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -207535,16 +214338,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -207555,45 +214358,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 96
-    LVCA: 32
-    LVCB: 2
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 24
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 96
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 96
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -207603,8 +214406,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -207668,33 +214473,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1301
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1340
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 6
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -207706,16 +214509,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -207726,34 +214529,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 96
-    LVCA: 32
-    LVCB: 2
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 24
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -207762,9 +214565,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 96
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 96
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -207774,11 +214577,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -207839,33 +214644,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1302
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1341
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 6
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -207877,14 +214680,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -207903,28 +214706,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -207932,10 +214735,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -207945,13 +214748,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -207966,7 +214767,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -208012,20 +214813,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1303
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1342
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -208033,10 +214834,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -208056,42 +214859,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3104
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -208103,9 +214906,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -208116,14 +214919,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -208137,7 +214940,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -208173,6 +214976,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -208183,8 +214987,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1304
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1343
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -208193,19 +214997,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -208227,42 +215031,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3104
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -208274,9 +215078,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -208287,14 +215091,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -208344,6 +215148,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -208354,8 +215159,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1305
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1344
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -208364,19 +215169,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -208390,50 +215195,46 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -208444,10 +215245,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -208458,14 +215259,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -208478,7 +215279,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -208515,6 +215316,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -208525,8 +215327,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1306
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1345
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -208535,13 +215337,13 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -208549,7 +215351,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -208587,22 +215389,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -208616,9 +215418,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -208629,13 +215431,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -208686,6 +215488,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -208696,8 +215499,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1307
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1346
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -208706,10 +215509,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -208732,44 +215535,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 4
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 64
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -208786,10 +215589,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -208800,11 +215603,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -208855,6 +215660,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -208865,8 +215671,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1308
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1347
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -208875,23 +215681,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -208903,16 +215707,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -208929,24 +215733,20 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -208957,10 +215757,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -208971,8 +215771,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -208989,8 +215791,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -209026,6 +215828,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -209036,8 +215839,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1309
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1348
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_GSU1_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -209046,10 +215849,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -209060,9 +215863,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -209074,16 +215875,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -209100,24 +215901,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 6208
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -209128,10 +215929,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -209142,8 +215943,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -209161,7 +215964,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -209197,6 +216000,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -209207,8 +216011,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1310
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1349
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -209217,10 +216021,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -209231,9 +216035,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -209253,7 +216055,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -209261,34 +216063,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
     LSPB: 64
     LVCA: 32
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3088
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -209300,9 +216102,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -209313,7 +216115,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -209368,6 +216170,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -209378,8 +216181,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1311
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1350
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -209388,17 +216191,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -209416,7 +216219,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -209425,7 +216228,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -209442,18 +216245,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -209470,10 +216273,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -209484,8 +216287,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -209539,6 +216342,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -209549,8 +216353,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1312
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1351
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -209559,10 +216363,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -209571,9 +216375,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -209594,9 +216398,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -209616,36 +216420,36 @@
     LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
+    LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -209655,10 +216459,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -209712,6 +216514,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -209722,15 +216525,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1313
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    SolutionIndex: 1352
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -209743,10 +216546,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -209758,7 +216563,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -209766,46 +216571,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
     LVPA: 4
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -209814,9 +216619,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -209826,14 +216631,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -209847,7 +216652,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -209883,6 +216688,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -209893,31 +216699,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1314
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
+    SolutionIndex: 1353
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -209929,54 +216735,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
     LVPA: 4
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -209985,9 +216791,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -209997,12 +216803,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -210016,7 +216824,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -210052,6 +216860,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -210062,33 +216871,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1315
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
+    SolutionIndex: 1354
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -210100,13 +216907,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -210127,21 +216934,17 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
+    LSCB: 16
     LSPA: 4
-    LSPB: 32
+    LSPB: 16
     LVCA: 64
-    LVCB: 8
+    LVCB: 16
     LVPA: 4
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3104
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3136
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -210154,11 +216957,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -210168,14 +216971,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 8
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -210188,7 +216991,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -210236,8 +217039,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1316
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1355
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x16_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -210246,11 +217049,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -210258,9 +217061,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -210280,42 +217083,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 8
-    LSPA: 4
-    LSPB: 32
-    LVCA: 64
-    LVCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
     LVPA: 4
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3104
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
     LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -210328,9 +217131,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -210340,14 +217143,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -210408,8 +217211,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1317
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1356
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -210418,19 +217221,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -210444,46 +217247,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 128
+    LSCB: 8
     LSPA: 4
-    LSPB: 16
+    LSPB: 64
     LVCA: 64
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -210494,10 +217301,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -210508,14 +217315,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -210528,7 +217335,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -210576,8 +217383,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1318
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1357
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -210586,21 +217393,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -210618,42 +217425,38 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -210667,9 +217470,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -210680,14 +217483,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -210700,7 +217503,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -210748,8 +217551,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1319
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1358
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW2_GSU1_LPB0_PGR0_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -210758,17 +217561,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -210784,7 +217587,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -210793,7 +217596,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -210810,18 +217613,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -210838,10 +217641,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -210852,8 +217655,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -210873,7 +217676,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -210920,8 +217723,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1320
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1359
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -210930,10 +217733,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -210942,9 +217745,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -210956,16 +217759,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -210982,20 +217785,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -211006,10 +217813,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -211020,8 +217827,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -211040,7 +217847,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -211088,8 +217895,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1321
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_GSU1_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1360
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -211098,10 +217905,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -211112,7 +217919,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -211124,7 +217931,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -211133,7 +217940,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -211150,24 +217957,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6208
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -211178,10 +217985,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -211192,8 +217999,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -211260,8 +218067,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1322
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1361
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -211270,10 +218077,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -211284,7 +218091,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -211303,8 +218110,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -211312,34 +218119,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 8
     LSPA: 8
     LSPB: 64
     LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3088
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -211351,9 +218158,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -211364,8 +218171,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -211383,7 +218192,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -211430,8 +218239,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1323
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1362
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -211440,23 +218249,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -211468,16 +218275,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -211494,24 +218301,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -211522,10 +218329,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -211536,8 +218343,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -211602,8 +218411,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1324
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1363
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -211612,10 +218421,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -211626,9 +218435,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -211647,7 +218454,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -211666,24 +218473,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -211695,9 +218502,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -211708,11 +218515,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -211774,8 +218583,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1325
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1364
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -211784,10 +218593,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -211799,8 +218608,6 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -211819,43 +218626,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 8
     LSPA: 4
-    LSPB: 32
+    LSPB: 64
     LVCA: 64
-    LVCB: 8
-    LVPA: 4
+    LVCB: 4
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -211867,10 +218674,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -211881,13 +218688,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -211901,7 +218706,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -211948,8 +218753,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1326
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1365
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -211958,21 +218763,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -211991,43 +218798,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 8
     LSPA: 4
-    LSPB: 32
+    LSPB: 64
     LVCA: 64
-    LVCB: 8
-    LVPA: 4
+    LVCB: 4
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -212039,10 +218846,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -212053,13 +218860,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -212073,7 +218878,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -212120,8 +218925,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1327
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1366
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -212130,21 +218935,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -212156,46 +218963,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -212206,11 +219017,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -212222,12 +219033,10 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 8
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -212240,7 +219049,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -212288,8 +219097,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1328
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x16_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1367
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -212298,21 +219107,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -212331,9 +219142,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -212344,28 +219155,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 8
     LSPA: 8
-    LSPB: 128
+    LSPB: 64
     LVCA: 32
-    LVCB: 2
-    LVPA: 4
+    LVCB: 4
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -212379,10 +219190,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -212393,9 +219204,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -212460,8 +219269,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1329
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1368
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -212470,21 +219279,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -212503,8 +219314,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -212512,11 +219323,11 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -212524,22 +219335,22 @@
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 4
+    LSPA: 8
     LSPB: 64
-    LVCA: 64
+    LVCA: 32
     LVCB: 4
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -212565,12 +219376,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -212632,8 +219441,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1330
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1369
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -212652,11 +219461,13 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -212668,44 +219479,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
-    LSPA: 4
+    LSCB: 8
+    LSPA: 2
     LSPB: 32
-    LVCA: 64
+    LVCA: 128
     LVCB: 8
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -212718,11 +219533,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -212732,14 +219547,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -212752,7 +219567,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -212800,8 +219615,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1331
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW2_GSU1_LPB0_PGR0_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1370
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -212810,21 +219625,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -212844,7 +219659,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -212852,11 +219667,11 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -212864,16 +219679,16 @@
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 8
+    LSPA: 4
     LSPB: 64
-    LVCA: 32
+    LVCA: 64
     LVCB: 4
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -212892,9 +219707,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -212904,14 +219719,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -212925,7 +219740,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -212972,8 +219787,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1332
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1371
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -212982,19 +219797,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -213015,8 +219830,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -213024,11 +219839,11 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -213036,16 +219851,16 @@
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 8
+    LSPA: 4
     LSPB: 64
-    LVCA: 32
+    LVCA: 64
     LVCB: 4
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -213064,9 +219879,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -213076,14 +219891,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -213097,7 +219910,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -213144,8 +219957,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1333
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1372
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -213154,21 +219967,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -213187,9 +220002,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -213209,15 +220024,15 @@
     LSCA: 128
     LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 128
     LVCA: 32
-    LVCB: 4
+    LVCB: 2
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -213236,9 +220051,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -213248,10 +220063,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -213316,8 +220129,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1334
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1373
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -213326,11 +220139,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -213341,6 +220154,8 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -213378,22 +220193,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1824
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -213407,10 +220222,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -213420,15 +220235,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -213488,20 +220303,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1335
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1374
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -213509,8 +220324,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -213531,7 +220346,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -213550,22 +220365,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1824
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -213579,10 +220394,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -213592,15 +220407,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -213613,7 +220426,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -213660,20 +220473,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1336
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1375
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -213681,10 +220494,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -213696,16 +220511,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -213722,22 +220537,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
+    LSCA: 64
+    LSCB: 8
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 800
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -213750,11 +220561,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -213764,15 +220575,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -213784,7 +220593,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -213832,20 +220641,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1337
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1376
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_EPS0_FL1_GRVW4_GSU1_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -213853,10 +220662,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -213875,9 +220686,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -213894,24 +220705,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1680
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 192
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -213923,10 +220734,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -213936,13 +220747,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -214002,33 +220815,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1338
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1377
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -214047,41 +220858,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
-    LSPA: 4
+    LSPA: 8
     LSPB: 64
-    LVCA: 64
-    LVCB: 4
+    LVCA: 16
+    LVCB: 2
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -214095,9 +220906,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -214109,12 +220920,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -214127,7 +220940,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -214174,33 +220987,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1339
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1378
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -214220,7 +221031,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -214228,32 +221039,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
-    LSPA: 8
-    LSPB: 64
+    LSPA: 4
+    LSPB: 32
     LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -214267,9 +221078,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -214281,12 +221092,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -214299,7 +221110,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -214346,29 +221157,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1340
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1379
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -214385,64 +221196,60 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSPA: 1
+    LSPB: 16
+    LVCA: 128
+    LVCB: 8
+    LVPA: 1
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1296
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -214453,12 +221260,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -214470,7 +221279,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -214518,15 +221327,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1341
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1380
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB2_PGR0_PLR1_TT8_4_USFGRO1_VW2_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -214534,17 +221343,15 @@
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -214557,47 +221364,43 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSPA: 1
+    LSPB: 16
+    LVCA: 128
+    LVCB: 8
+    LVPA: 1
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1312
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -214606,15 +221409,15 @@
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -214626,11 +221429,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -214642,7 +221447,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -214690,15 +221495,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1342
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1381
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -214706,17 +221511,15 @@
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -214729,12 +221532,12 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -214756,37 +221559,33 @@
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 2
-    LSPB: 32
+    LSPA: 1
+    LSPB: 16
     LVCA: 128
     LVCB: 8
-    LVPA: 2
-    LVPB: 32
+    LVPA: 1
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1312
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -214796,15 +221595,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -214816,7 +221615,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -214864,28 +221663,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1343
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1382
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -214900,13 +221699,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -214926,22 +221725,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2560
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -214954,11 +221749,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -214968,13 +221763,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
     NumLoadsB: 2
-    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -214988,8 +221783,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -215036,8 +221831,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1344
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1383
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_EPS0_FL0_GRVW2_GSU1_LPB0_PGR0_PLR0_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -215046,11 +221841,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -215058,9 +221853,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -215072,14 +221867,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -215098,22 +221893,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1536
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -215126,11 +221921,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -215140,11 +221935,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -215159,7 +221956,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -215206,8 +222003,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1345
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1384
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -215216,11 +222013,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -215230,9 +222027,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -215252,40 +222047,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 96
     LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -215299,10 +222094,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -215312,11 +222107,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -215378,8 +222173,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1346
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1385
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -215388,22 +222183,22 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -215423,8 +222218,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -215432,34 +222227,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 96
     LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
     LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1824
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -215471,10 +222266,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -215484,15 +222279,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -215505,7 +222298,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -215552,31 +222345,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1347
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1386
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -215596,7 +222391,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -215604,11 +222399,11 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -215617,21 +222412,21 @@
     LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 32
-    LVCA: 16
+    LSPB: 64
+    LVCA: 32
     LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1824
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -215644,9 +222439,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -215656,13 +222451,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -215675,7 +222470,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -215722,33 +222517,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1348
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1387
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    fractionalPerpOverhangB: 32
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -215766,10 +222561,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -215780,7 +222575,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -215789,17 +222584,21 @@
     LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSPB: 96
+    LVCA: 32
+    LVCB: 2
+    LVPA: 4
+    LVPB: 24
     LdcEqualsLdd: false
-    LdsNumElements: 800
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -215812,9 +222611,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -215824,13 +222623,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -215842,7 +222641,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -215890,29 +222689,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1349
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_EPS0_FL1_GRVW4_GSU1_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1388
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -215928,7 +222727,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -215936,46 +222735,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 4
-    LSPB: 16
-    LVCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
     LVCB: 8
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1680
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 192
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -215984,9 +222783,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -215997,14 +222796,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -216064,8 +222863,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1350
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG16_8_1_WGM1
+    SolutionIndex: 1389
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -216074,21 +222873,21 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -216100,16 +222899,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -216127,27 +222926,27 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 2
-    LVPA: 2
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -216156,9 +222955,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -216168,15 +222967,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -216189,7 +222986,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -216236,8 +223033,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1351
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1390
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -216246,21 +223043,23 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -216272,54 +223071,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 4
-    LSPB: 32
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -216327,10 +223126,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -216340,13 +223139,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -216359,7 +223160,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -216406,33 +223207,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1352
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_8_1_WGM8
+    SolutionIndex: 1391
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -216444,60 +223243,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
-    DirectToLds: true
-    DirectToLdsA: true
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 1
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
     LSPB: 16
-    LVCA: 128
-    LVCB: 8
-    LVPA: 1
-    LVPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1296
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: true
+    LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -216508,15 +223311,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -216528,7 +223331,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -216576,31 +223379,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1353
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB2_PGR0_PLR1_TT8_4_USFGRO1_VW2_WG16_8_1_WGM8
+    SolutionIndex: 1392
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -216612,60 +223415,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
-    DirectToLds: true
-    DirectToLdsA: true
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 1
-    LSPB: 16
-    LVCA: 128
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 1
-    LVPB: 16
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1312
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: true
+    LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -216676,15 +223483,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -216696,7 +223503,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -216744,31 +223551,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1354
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1393
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -216780,60 +223587,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
-    DirectToLds: true
-    DirectToLdsA: true
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 1
-    LSPB: 16
-    LVCA: 128
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 1
-    LVPB: 16
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1312
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: true
+    LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -216844,15 +223655,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -216864,7 +223675,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -216912,31 +223723,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1355
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1394
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -216948,61 +223759,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 8
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2560
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -217012,14 +223827,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 3
-    NumLoadsB: 2
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -217032,8 +223847,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -217080,31 +223895,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1356
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_EPS0_FL0_GRVW2_GSU1_LPB0_PGR0_PLR0_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1395
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -217116,14 +223931,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -217142,39 +223957,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -217184,11 +223999,9 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 3
-    NumLoadsB: 2
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
@@ -217252,31 +224065,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1357
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1396
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -217288,7 +224103,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -217297,14 +224112,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -217314,28 +224129,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
-    LSCB: 8
-    LSPA: 5
-    LSPB: 64
-    LVCA: 48
-    LVCB: 4
-    LVPA: 3
-    LVPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -217343,10 +224158,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -217356,11 +224171,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -217422,32 +224237,32 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1358
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1397
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -217460,15 +224275,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -217477,47 +224292,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
-    LSCB: 8
-    LSPA: 5
-    LSPB: 64
-    LVCA: 48
-    LVCB: 4
-    LVPA: 3
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 96
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -217528,12 +224343,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -217594,33 +224411,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1359
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1398
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW2_GSU8_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -217632,16 +224447,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -217652,34 +224467,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -217687,10 +224502,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -217700,12 +224515,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -217766,33 +224583,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1360
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1399
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 32
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -217804,54 +224619,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 96
-    LVCA: 32
-    LVCB: 2
-    LVPA: 4
-    LVPB: 24
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -217859,10 +224674,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -217872,11 +224687,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -217938,33 +224755,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1361
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1400
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_VW2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -217976,15 +224791,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -217992,38 +224807,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 8
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3392
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -218031,10 +224846,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -218044,13 +224859,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -218112,31 +224925,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1362
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
+    SolutionIndex: 1401
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -218148,15 +224963,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -218164,26 +224979,26 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
@@ -218191,11 +225006,11 @@
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -218203,10 +225018,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -218216,11 +225031,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -218282,33 +225099,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1363
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
+    SolutionIndex: 1402
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -218327,41 +225142,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 8
-    LVCA: 8
-    LVCB: 32
-    LVPA: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -218375,10 +225190,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -218388,14 +225203,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -218456,31 +225269,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1364
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1403
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -218492,7 +225307,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -218501,39 +225316,39 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 32
-    LSPA: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
     LSPB: 16
-    LVCA: 8
+    LVCA: 64
     LVCB: 16
-    LVPA: 32
-    LVPB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -218546,11 +225361,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -218560,14 +225375,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -218628,31 +225443,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1365
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM8
+    SolutionIndex: 1404
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -218664,7 +225479,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -218672,8 +225487,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -218684,30 +225499,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 32
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -218718,11 +225533,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -218732,7 +225547,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -218800,31 +225615,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1366
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1405
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -218844,8 +225659,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -218856,30 +225671,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -218891,10 +225706,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -218904,13 +225719,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -218972,29 +225787,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1367
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM8
+    SolutionIndex: 1406
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
   - AggressivePerfMode: 1
@@ -219015,43 +225830,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 8
+    LSPB: 16
     LVCA: 16
-    LVCB: 32
-    LVPA: 16
+    LVCB: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -219063,10 +225878,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -219076,14 +225891,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -219144,31 +225957,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1368
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1407
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -219188,7 +226003,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -219196,34 +226011,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -219235,10 +226050,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -219248,12 +226063,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -219314,28 +226129,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1369
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG4_16_4_WGM8
+    SolutionIndex: 1408
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -219361,14 +226176,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -219378,22 +226193,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -219407,10 +226222,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -219424,7 +226239,7 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -219482,32 +226297,34 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1370
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1409
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_NLCA1_PGR1_PLR1_TT2_4_USFGRO0_VW2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -219524,15 +226341,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -219541,31 +226358,31 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -219578,11 +226395,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -219592,14 +226409,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -219656,35 +226471,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1371
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW2_GSU8_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1410
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_NLCA1_PGR1_PLR1_TT2_4_USFGRO0_VW2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -219703,43 +226522,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 8
+    LSPB: 16
     LVCA: 16
-    LVCB: 32
-    LVPA: 8
+    LVCB: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -219751,10 +226570,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -219764,10 +226583,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -219828,12 +226645,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1372
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1411
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -219842,21 +226661,23 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -219868,7 +226689,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -219876,46 +226697,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -219923,10 +226744,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -219936,13 +226757,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -219957,7 +226778,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -220000,35 +226821,37 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1373
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_VW2_WG16_4_4_WGM8
+    SolutionIndex: 1412
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_NLCA1_PGR1_PLR0_TT8_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -220040,15 +226863,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -220056,38 +226879,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -220095,10 +226918,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -220108,11 +226931,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -220170,37 +226995,37 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1374
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1413
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -220212,7 +227037,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -220220,57 +227045,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -220280,8 +227105,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -220344,35 +227169,37 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1375
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1414
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -220384,7 +227211,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -220392,7 +227219,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -220400,38 +227227,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -220439,10 +227266,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -220452,11 +227279,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -220471,7 +227298,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -220514,35 +227341,37 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1376
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1415
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR0_TT8_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -220556,65 +227385,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -220624,13 +227453,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -220688,35 +227515,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1377
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_4_4_WGM8
+    SolutionIndex: 1416
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -220735,9 +227566,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -220751,42 +227582,43 @@
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
+    LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -220796,10 +227628,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -220809,8 +227639,10 @@
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -220860,19 +227692,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1378
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
+    SolutionIndex: 1417
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -220885,10 +227719,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -220900,15 +227736,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -220916,38 +227752,39 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -220955,10 +227792,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -220968,10 +227805,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -220981,15 +227816,17 @@
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -221032,35 +227869,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1379
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    SolutionIndex: 1418
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_NLCA1_PGR1_PLR0_TT8_4_USFGRO0_VW2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -221072,7 +227913,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -221095,31 +227936,32 @@
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -221127,10 +227969,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -221140,19 +227982,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -221202,24 +228046,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1380
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    SolutionIndex: 1419
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -221227,14 +228073,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
@@ -221244,7 +228090,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -221253,7 +228099,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -221265,66 +228111,68 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -221374,19 +228222,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1381
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
+    SolutionIndex: 1420
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -221394,19 +228244,19 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
@@ -221416,7 +228266,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -221424,7 +228274,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -221432,38 +228282,39 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -221471,32 +228322,33 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -221552,35 +228404,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1382
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_NLCA1_PGR1_PLR1_TT2_4_USFGRO0_VW2_WGM1
+    SolutionIndex: 1421
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
@@ -221590,7 +228442,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -221598,7 +228450,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -221606,26 +228458,27 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
@@ -221633,11 +228486,11 @@
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -221645,32 +228498,33 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -221726,31 +228580,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1383
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_NLCA1_PGR1_PLR1_TT2_4_USFGRO0_VW2_WGM8
+    SolutionIndex: 1422
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD0_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -221764,54 +228618,55 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
     LVPA: 4
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -221820,31 +228675,34 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -221900,33 +228758,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1384
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 1423
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW1_LPB4_NLCA1_PBD0_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -221961,6 +228817,7 @@
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
@@ -221973,15 +228830,15 @@
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -222001,7 +228858,6 @@
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
@@ -222019,8 +228875,10 @@
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -222076,8 +228934,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1385
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_NLCA1_PGR1_PLR0_TT8_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 1424
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -222098,7 +228956,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -222121,7 +228979,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -222135,25 +228993,26 @@
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
     LSPB: 64
-    LVCA: 32
-    LVCB: 4
+    LVCA: 16
+    LVCB: 2
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -222167,15 +229026,14 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
@@ -222188,20 +229046,22 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -222250,28 +229110,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1386
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 1425
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -222286,7 +229146,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -222295,7 +229155,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -222309,27 +229169,28 @@
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
+    LVCB: 8
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3360
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -222340,35 +229201,36 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -222424,20 +229286,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1387
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 1426
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG32_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -222445,14 +229307,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -222460,50 +229322,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
+    LSCB: 16
+    LSPA: 2
+    LSPB: 16
+    LVCA: 128
+    LVCB: 16
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2832
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -222514,39 +229373,42 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 48
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 48
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 8
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -222596,33 +229458,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1388
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR0_TT8_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 1427
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x48x16_SE_AMAS1_DTL0_EPS0_GRVW1_LPB1_NLCA1_PBD0_PGR0_PLR0_TT4_6_USFGRO1_VW1_WG32_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -222641,7 +229501,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -222657,6 +229517,7 @@
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
@@ -222697,13 +229558,14 @@
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -222713,8 +229575,10 @@
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -222770,33 +229634,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1389
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 1428
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG32_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
 - [2, 3, 0, 1]
 - - - [704, 1024, 1, 128]
     - [102, 3019.46]
@@ -223138,8 +230000,6 @@
     - [82, 5894.7]
   - - [4, 1408, 1, 3328]
     - [73, 552.574]
-  - - [196, 256, 64, 1024]
-    - [171, 5218.24]
   - - [6784, 2944, 1, 256]
     - [136, 8271.08]
   - - [64, 1856, 1, 1280]
@@ -223526,8 +230386,6 @@
     - [108, 5059.86]
   - - [256, 1856, 1, 128]
     - [101, 1858.72]
-  - - [49, 512, 64, 2048]
-    - [172, 3053.57]
   - - [704, 64, 1, 1280]
     - [51, 2849.39]
   - - [5888, 5056, 1, 256]
@@ -223930,8 +230788,6 @@
     - [121, 7892.46]
   - - [4, 448, 1, 256]
     - [43, 70.7951]
-  - - [196, 1024, 64, 256]
-    - [169, 6630.76]
   - - [5888, 128, 1, 256]
     - [119, 5714.99]
   - - [4096, 16, 1, 4096]
@@ -224990,8 +231846,6 @@
     - [125, 7447.08]
   - - [2944, 128, 1, 1280]
     - [130, 5417.17]
-  - - [49, 2048, 64, 512]
-    - [173, 5916.81]
   - - [2560, 32, 1, 2560]
     - [67, 4076.89]
   - - [64, 256, 1, 256]
@@ -225326,14 +232180,10 @@
     - [237, 8892.52]
   - - [4096, 192, 1, 2048]
     - [231, 8024.18]
-  - - [289, 160, 64, 768]
-    - [233, 6783.63]
   - - [1225, 192, 64, 384]
     - [220, 9373.83]
   - - [5329, 64, 64, 160]
     - [224, 9186.69]
-  - - [1225, 64, 64, 288]
-    - [215, 8492.41]
   - - [1225, 64, 64, 384]
     - [219, 8735.76]
   - - [289, 128, 64, 1024]
@@ -225344,40 +232194,22 @@
     - [221, 9052.45]
   - - [4096, 192, 1, 1280]
     - [236, 7561.85]
-  - - [289, 192, 64, 768]
-    - [232, 7882.5]
-  - - [1225, 48, 64, 256]
-    - [223, 6620.25]
   - - [289, 192, 64, 1024]
     - [230, 7346.99]
-  - - [1225, 64, 64, 192]
-    - [216, 8098.35]
   - - [1225, 96, 64, 384]
     - [217, 8303.08]
-  - - [1225, 48, 64, 288]
-    - [225, 6746.77]
   - - [4096, 320, 1, 2048]
     - [226, 8384.42]
   - - [4096, 256, 1, 1536]
     - [238, 8734.34]
-  - - [1225, 48, 64, 192]
-    - [225, 6516.36]
   - - [4096, 384, 1, 1280]
     - [235, 9023.24]
-  - - [1225, 64, 64, 256]
-    - [222, 8319.34]
   - - [4096, 448, 1, 1280]
     - [226, 8343.32]
-  - - [289, 128, 64, 768]
-    - [228, 7667.98]
   - - [289, 256, 64, 1024]
     - [229, 7535.46]
   - - [4096, 448, 1, 2048]
     - [226, 8572.31]
-  - - [5329, 80, 64, 64]
-    - [225, 6492.44]
-  - - [1225, 32, 64, 192]
-    - [218, 6278.54]
   - - [289, 384, 64, 1024]
     - [227, 7767.57]
   - - [1024, 3594, 1, 4096]
@@ -229020,8 +235852,6 @@
     - [663, 7772.99]
   - - [289, 256, 1, 1568]
     - [684, 3718.17]
-  - - [3136, 64, 64, 64]
-    - [623, 8201.15]
   - - [50176, 128, 1, 256]
     - [646, 8908.58]
   - - [5329, 64, 1, 448]
@@ -229098,8 +235928,6 @@
     - [639, 8622.65]
   - - [784, 96, 32, 192]
     - [654, 7092.36]
-  - - [3136, 64, 64, 256]
-    - [647, 9579.16]
   - - [289, 224, 1, 1344]
     - [684, 3180.01]
   - - [1001, 512, 1, 4096]
@@ -229168,8 +235996,6 @@
     - [684, 5904.14]
   - - [289, 384, 1, 2592]
     - [685, 5707.34]
-  - - [784, 128, 64, 512]
-    - [631, 8864.39]
   - - [12544, 1024, 1, 512]
     - [646, 10008.3]
   - - [12544, 256, 1, 512]
@@ -229190,8 +236016,6 @@
     - [667, 5718.69]
   - - [289, 128, 32, 768]
     - [625, 7289.25]
-  - - [3136, 256, 64, 64]
-    - [633, 9103.92]
   - - [196, 64, 1, 800]
     - [671, 915.62]
   - - [4096, 512, 1, 9216]
@@ -229214,8 +236038,6 @@
     - [621, 6990.51]
   - - [64, 384, 1, 1152]
     - [678, 1862.6]
-  - - [784, 512, 64, 128]
-    - [632, 9025.95]
   - - [3136, 512, 1, 2048]
     - [650, 7764.3]
   - - [6272, 144, 1, 512]
@@ -229246,6452 +236068,6498 @@
     - [688, 3580.87]
   - - [1001, 128, 1, 2048]
     - [689, 5587.87]
+  - - [3200, 1024, 1, 2048]
+    - [697, 9131.95]
+  - - [2048, 1024, 1, 256]
+    - [696, 8452.0]
+  - - [257, 1024, 1, 4096]
+    - [695, 4225.21]
+  - - [784, 128, 64, 512]
+    - [706, 9436.22]
+  - - [1225, 48, 64, 256]
+    - [710, 7670.22]
+  - - [289, 160, 64, 768]
+    - [717, 8253.88]
+  - - [3136, 64, 64, 64]
+    - [698, 8028.16]
+  - - [49, 2048, 64, 512]
+    - [719, 8608.21]
+  - - [1225, 32, 64, 192]
+    - [716, 6968.89]
+  - - [196, 1024, 64, 256]
+    - [708, 9669.3]
+  - - [784, 512, 64, 128]
+    - [706, 9635.3]
+  - - [196, 256, 64, 1024]
+    - [703, 8736.28]
+  - - [64, 448, 64, 2048]
+    - [709, 8841.76]
+  - - [64, 192, 64, 1280]
+    - [702, 9118.05]
+  - - [3136, 64, 64, 256]
+    - [705, 9678.4]
+  - - [49, 512, 64, 2048]
+    - [711, 7567.05]
+  - - [64, 320, 64, 1280]
+    - [700, 8738.13]
+  - - [3136, 256, 64, 64]
+    - [707, 8998.29]
+  - - [64, 384, 64, 1280]
+    - [704, 9903.91]
+  - - [1225, 48, 64, 192]
+    - [714, 7236.92]
+  - - [1225, 64, 64, 288]
+    - [715, 8893.83]
+  - - [289, 192, 64, 768]
+    - [720, 8850.42]
+  - - [289, 128, 64, 768]
+    - [712, 8442.75]
+  - - [64, 448, 64, 1280]
+    - [700, 8894.31]
+  - - [5329, 80, 64, 64]
+    - [718, 6687.37]
+  - - [64, 384, 64, 2048]
+    - [706, 10051.3]
+  - - [1225, 64, 64, 192]
+    - [713, 8339.5]
+  - - [64, 192, 64, 2048]
+    - [701, 9333.64]
+  - - [64, 320, 64, 2048]
+    - [699, 8473.34]
+  - - [1225, 48, 64, 288]
+    - [714, 7844.54]
+  - - [1225, 64, 64, 256]
+    - [721, 8721.52]
   - - [704, 1024, 1, 128]
-    - [797, 3019.56]
+    - [824, 3019.46]
   - - [1024, 1024, 1, 3328]
-    - [835, 8162.65]
+    - [862, 8162.55]
   - - [4, 704, 1, 1280]
-    - [738, 319.646]
+    - [765, 319.546]
   - - [4, 1856, 1, 3328]
-    - [768, 550.614]
+    - [795, 550.514]
   - - [1856, 448, 1, 3328]
-    - [820, 6813.15]
+    - [847, 6813.05]
   - - [2944, 4288, 1, 1280]
-    - [829, 8975.86]
+    - [856, 8975.76]
   - - [2368, 64, 1, 3328]
-    - [743, 5482.33]
+    - [770, 5482.23]
   - - [1760, 32, 1, 1760]
-    - [782, 3860.04]
+    - [809, 3859.94]
   - - [2368, 5888, 1, 256]
-    - [826, 8656.83]
+    - [853, 8656.73]
   - - [5888, 1856, 1, 256]
-    - [816, 7881.53]
+    - [843, 7881.43]
   - - [64, 3584, 1, 1280]
-    - [752, 4835.43]
+    - [779, 4835.33]
   - - [512, 24000, 1, 1536]
-    - [823, 8666.0]
+    - [850, 8665.9]
   - - [128, 6784, 1, 3328]
-    - [820, 7062.35]
+    - [847, 7062.25]
   - - [5888, 1408, 1, 256]
-    - [833, 8130.32]
+    - [860, 8130.22]
   - - [5888, 1856, 1, 3328]
-    - [823, 8840.85]
+    - [850, 8840.75]
   - - [512, 4, 1, 512]
-    - [708, 170.323]
+    - [735, 170.223]
   - - [35, 1500, 1, 2560]
-    - [712, 2896.65]
+    - [739, 2896.55]
   - - [1856, 4288, 1, 256]
-    - [812, 8374.73]
+    - [839, 8374.63]
   - - [1024, 5056, 1, 128]
-    - [809, 3304.35]
+    - [836, 3304.25]
   - - [5056, 5056, 1, 3328]
-    - [823, 8905.53]
+    - [850, 8905.43]
   - - [1408, 5888, 1, 1280]
-    - [823, 9418.2]
+    - [850, 9418.1]
   - - [2368, 448, 1, 128]
-    - [797, 3075.07]
+    - [824, 3074.97]
   - - [6144, 6000, 1, 2560]
-    - [823, 9336.43]
+    - [850, 9336.33]
   - - [2368, 6784, 1, 128]
-    - [796, 4919.36]
+    - [823, 4919.26]
   - - [1024, 3584, 1, 3328]
-    - [814, 8071.17]
+    - [841, 8071.07]
   - - [512, 48000, 1, 2048]
-    - [823, 8763.16]
+    - [850, 8763.06]
   - - [1408, 64, 1, 128]
-    - [719, 805.57]
+    - [746, 805.47]
   - - [256, 4288, 1, 3328]
-    - [845, 6331.96]
+    - [872, 6331.86]
   - - [5888, 1408, 1, 1280]
-    - [813, 9226.27]
+    - [840, 9226.17]
   - - [704, 1856, 1, 3328]
-    - [839, 6309.5]
+    - [866, 6309.4]
   - - [1408, 4288, 1, 256]
-    - [823, 8374.6]
+    - [850, 8374.5]
   - - [1024, 2368, 1, 256]
-    - [820, 7341.12]
+    - [847, 7341.02]
   - - [64, 4, 1, 256]
-    - [763, 13.1032]
+    - [790, 13.0032]
   - - [1408, 1856, 1, 1280]
-    - [830, 8773.05]
+    - [857, 8772.95]
   - - [1408, 64, 1, 1280]
-    - [776, 4050.08]
+    - [803, 4049.98]
   - - [448, 1024, 1, 1280]
-    - [839, 6071.26]
+    - [866, 6071.16]
   - - [4096, 32, 1, 4096]
-    - [773, 5491.82]
+    - [800, 5491.72]
   - - [256, 1408, 1, 3328]
-    - [825, 5351.49]
+    - [852, 5351.39]
   - - [5056, 5056, 1, 1280]
-    - [833, 9408.67]
+    - [860, 9408.57]
   - - [448, 5056, 1, 256]
-    - [838, 6680.54]
+    - [865, 6680.44]
   - - [704, 1856, 1, 1280]
-    - [815, 7504.03]
+    - [842, 7503.93]
   - - [128, 5056, 1, 128]
-    - [730, 2316.58]
+    - [757, 2316.48]
   - - [2368, 128, 1, 256]
-    - [815, 3660.22]
+    - [842, 3660.12]
   - - [1856, 1408, 1, 128]
-    - [802, 3885.97]
+    - [829, 3885.87]
   - - [64, 5056, 1, 256]
-    - [825, 3318.91]
+    - [852, 3318.81]
   - - [6784, 256, 1, 3328]
-    - [823, 7590.64]
+    - [850, 7590.54]
   - - [1408, 3584, 1, 256]
-    - [812, 8276.92]
+    - [839, 8276.82]
   - - [4288, 448, 1, 256]
-    - [825, 7139.79]
+    - [852, 7139.69]
   - - [64, 704, 1, 128]
-    - [726, 375.567]
+    - [753, 375.467]
   - - [1024, 1856, 1, 128]
-    - [795, 2890.66]
+    - [822, 2890.56]
   - - [4288, 2944, 1, 1280]
-    - [829, 8981.45]
+    - [856, 8981.35]
   - - [704, 5056, 1, 1280]
-    - [815, 7684.72]
+    - [842, 7684.62]
   - - [2368, 704, 1, 3328]
-    - [830, 7070.14]
+    - [857, 7070.04]
   - - [256, 5888, 1, 256]
-    - [815, 7319.45]
+    - [842, 7319.35]
   - - [1856, 4288, 1, 3328]
-    - [813, 9238.69]
+    - [840, 9238.59]
   - - [256, 2944, 1, 256]
-    - [815, 6090.31]
+    - [842, 6090.21]
   - - [5888, 1024, 1, 256]
-    - [819, 8270.05]
+    - [846, 8269.95]
   - - [448, 64, 1, 1280]
-    - [772, 2493.32]
+    - [799, 2493.22]
   - - [3072, 64, 1, 1024]
-    - [755, 3149.77]
+    - [782, 3149.67]
   - - [3584, 4, 1, 1280]
-    - [857, 567.862]
+    - [884, 567.762]
   - - [2560, 16, 1, 2560]
-    - [764, 2887.15]
+    - [791, 2887.05]
   - - [2944, 64, 1, 256]
-    - [755, 2565.76]
+    - [782, 2565.66]
   - - [128, 4, 1, 1280]
-    - [858, 78.8692]
+    - [885, 78.7692]
   - - [1408, 2944, 1, 256]
-    - [819, 8337.3]
+    - [846, 8337.2]
   - - [256, 1856, 1, 1280]
-    - [845, 6267.35]
+    - [872, 6267.25]
   - - [6784, 5056, 1, 3328]
-    - [829, 9424.0]
+    - [856, 9423.9]
   - - [5056, 5056, 1, 256]
-    - [816, 8758.33]
+    - [843, 8758.23]
   - - [128, 256, 1, 256]
-    - [771, 1205.36]
+    - [798, 1205.26]
   - - [64, 1024, 1, 1280]
-    - [782, 3566.68]
+    - [809, 3566.58]
   - - [2944, 4, 1, 256]
-    - [735, 319.449]
+    - [762, 319.349]
   - - [704, 5056, 1, 128]
-    - [804, 4073.83]
+    - [831, 4073.73]
   - - [4, 2368, 1, 1280]
-    - [763, 496.992]
+    - [790, 496.892]
   - - [2368, 2944, 1, 1280]
-    - [812, 9085.55]
+    - [839, 9085.45]
   - - [448, 448, 1, 3328]
-    - [790, 5428.76]
+    - [817, 5428.66]
   - - [6784, 6784, 1, 1280]
-    - [829, 8727.03]
+    - [856, 8726.93]
   - - [1024, 256, 1, 3328]
-    - [839, 5499.42]
+    - [866, 5499.32]
   - - [1408, 4288, 1, 1280]
-    - [813, 9094.42]
+    - [840, 9094.32]
   - - [3584, 4288, 1, 1280]
-    - [816, 8703.88]
+    - [843, 8703.78]
   - - [512, 6000, 1, 2560]
-    - [819, 8474.56]
+    - [846, 8474.46]
   - - [2368, 704, 1, 1280]
-    - [825, 7651.59]
+    - [852, 7651.49]
   - - [5056, 4288, 1, 3328]
-    - [833, 8545.35]
+    - [860, 8545.25]
   - - [3584, 2368, 1, 3328]
-    - [821, 8797.88]
+    - [848, 8797.78]
   - - [5888, 6784, 1, 1280]
-    - [819, 8785.18]
+    - [846, 8785.08]
   - - [64, 704, 1, 1280]
-    - [742, 2783.48]
+    - [769, 2783.38]
   - - [4288, 256, 1, 256]
-    - [815, 6162.78]
+    - [842, 6162.68]
   - - [2944, 128, 1, 128]
-    - [717, 1951.33]
+    - [744, 1951.23]
   - - [6144, 32, 1, 2560]
-    - [776, 4589.05]
+    - [803, 4588.95]
   - - [6784, 448, 1, 1280]
-    - [820, 8674.31]
+    - [847, 8674.21]
   - - [2944, 5888, 1, 256]
-    - [833, 8991.76]
+    - [860, 8991.66]
   - - [64, 64, 1, 1280]
-    - [793, 712.448]
+    - [820, 712.348]
   - - [4288, 2944, 1, 256]
-    - [829, 8678.14]
+    - [856, 8678.04]
   - - [5888, 704, 1, 1280]
-    - [819, 8652.71]
+    - [846, 8652.61]
   - - [5056, 4, 1, 3328]
-    - [735, 650.772]
+    - [762, 650.672]
   - - [1856, 64, 1, 1280]
-    - [752, 4471.97]
+    - [779, 4471.87]
   - - [1760, 16, 1, 1760]
-    - [792, 2592.23]
+    - [819, 2592.13]
   - - [448, 5888, 1, 128]
-    - [802, 3823.03]
+    - [829, 3822.93]
   - - [5888, 64, 1, 3328]
-    - [784, 6013.22]
+    - [811, 6013.12]
   - - [2944, 256, 1, 3328]
-    - [825, 7791.45]
+    - [852, 7791.35]
   - - [1024, 64, 1, 128]
-    - [726, 592.516]
+    - [753, 592.416]
   - - [5056, 2368, 1, 1280]
-    - [812, 9260.53]
+    - [839, 9260.43]
   - - [448, 3584, 1, 1280]
-    - [833, 6771.34]
+    - [860, 6771.24]
   - - [6784, 5888, 1, 256]
-    - [827, 7933.39]
+    - [854, 7933.29]
   - - [64, 1024, 1, 3328]
-    - [776, 4783.08]
+    - [803, 4782.98]
   - - [704, 128, 1, 1280]
-    - [782, 3971.98]
+    - [809, 3971.88]
   - - [4, 3584, 1, 128]
-    - [851, 59.5238]
+    - [878, 59.4238]
   - - [1408, 448, 1, 1280]
-    - [825, 5902.17]
+    - [852, 5902.07]
   - - [1024, 1408, 1, 256]
-    - [820, 5272.94]
+    - [847, 5272.84]
   - - [2368, 2368, 1, 3328]
-    - [825, 8488.76]
+    - [852, 8488.66]
   - - [1856, 6784, 1, 128]
-    - [802, 4742.51]
+    - [829, 4742.41]
   - - [5056, 704, 1, 3328]
-    - [828, 7772.48]
+    - [855, 7772.38]
   - - [1408, 1856, 1, 256]
-    - [846, 5229.84]
+    - [873, 5229.74]
   - - [1408, 704, 1, 3328]
-    - [846, 6954.93]
+    - [873, 6954.83]
   - - [2368, 5056, 1, 256]
-    - [819, 8580.68]
+    - [846, 8580.58]
   - - [1408, 256, 1, 1280]
-    - [845, 4790.11]
+    - [872, 4790.01]
   - - [3072, 128, 1, 1024]
-    - [841, 4579.87]
+    - [868, 4579.77]
   - - [3584, 2368, 1, 1280]
-    - [812, 8675.13]
+    - [839, 8675.03]
   - - [4288, 64, 1, 3328]
-    - [791, 5550.11]
+    - [818, 5550.01]
   - - [2368, 4, 1, 1280]
-    - [857, 537.518]
+    - [884, 537.418]
   - - [704, 5888, 1, 256]
-    - [813, 5305.88]
+    - [840, 5305.78]
   - - [6784, 2944, 1, 128]
-    - [809, 4344.21]
+    - [836, 4344.11]
   - - [6784, 64, 1, 256]
-    - [839, 4496.42]
+    - [866, 4496.32]
   - - [2944, 256, 1, 256]
-    - [825, 6553.7]
+    - [852, 6553.6]
   - - [2944, 6784, 1, 3328]
-    - [813, 8895.76]
+    - [840, 8895.66]
   - - [128, 1, 1, 1408]
-    - [793, 25.7]
+    - [820, 25.6]
   - - [704, 1408, 1, 3328]
-    - [827, 7913.21]
+    - [854, 7913.11]
   - - [3584, 704, 1, 3328]
-    - [812, 7526.43]
+    - [839, 7526.33]
   - - [2944, 256, 1, 128]
-    - [796, 2830.76]
+    - [823, 2830.66]
   - - [6784, 4, 1, 1280]
-    - [853, 645.235]
+    - [880, 645.135]
   - - [1024, 64, 1, 1280]
-    - [751, 3013.25]
+    - [778, 3013.15]
   - - [8448, 4, 1, 2816]
-    - [703, 984.768]
+    - [730, 984.668]
   - - [448, 4288, 1, 256]
-    - [825, 7139.79]
+    - [852, 7139.69]
   - - [64, 3584, 1, 3328]
-    - [749, 5683.27]
+    - [776, 5683.17]
   - - [704, 2368, 1, 1280]
-    - [833, 7045.3]
+    - [860, 7045.2]
   - - [1856, 2368, 1, 1280]
-    - [830, 8327.9]
+    - [857, 8327.8]
   - - [2368, 128, 1, 3328]
-    - [766, 6082.65]
+    - [793, 6082.55]
   - - [64, 193600, 1, 64]
-    - [815, 6747.77]
+    - [842, 6747.67]
   - - [1760, 128, 1, 1760]
-    - [743, 5513.07]
+    - [770, 5512.97]
   - - [448, 1408, 1, 256]
-    - [825, 5591.54]
+    - [852, 5591.44]
   - - [1856, 4288, 1, 1280]
-    - [823, 8647.72]
+    - [850, 8647.62]
   - - [64, 5056, 1, 3328]
-    - [783, 6096.59]
+    - [810, 6096.49]
   - - [512, 1500, 1, 2816]
-    - [825, 7879.3]
+    - [852, 7879.2]
   - - [1024, 448, 1, 128]
-    - [797, 1844.33]
+    - [824, 1844.23]
   - - [704, 4, 1, 1280]
-    - [763, 341.433]
+    - [790, 341.333]
   - - [704, 256, 1, 128]
-    - [797, 1001.34]
+    - [824, 1001.24]
   - - [256, 193600, 1, 64]
-    - [833, 8113.3]
+    - [860, 8113.2]
   - - [704, 2944, 1, 128]
-    - [804, 3747.13]
+    - [831, 3747.03]
   - - [1408, 1024, 1, 1280]
-    - [830, 7080.71]
+    - [857, 7080.61]
   - - [704, 6784, 1, 256]
-    - [848, 6630.47]
+    - [875, 6630.37]
   - - [6784, 704, 1, 256]
-    - [815, 8005.86]
+    - [842, 8005.76]
   - - [5056, 1408, 1, 128]
-    - [806, 4303.13]
+    - [833, 4303.03]
   - - [2048, 7000, 1, 2048]
-    - [823, 9269.2]
+    - [850, 9269.1]
   - - [256, 3584, 1, 3328]
-    - [817, 7334.48]
+    - [844, 7334.38]
   - - [5056, 704, 1, 256]
-    - [825, 7954.12]
+    - [852, 7954.02]
   - - [128, 1408, 1, 128]
-    - [720, 1243.02]
+    - [747, 1242.92]
   - - [3584, 4288, 1, 3328]
-    - [849, 7683.81]
+    - [876, 7683.71]
   - - [5888, 1856, 1, 1280]
-    - [813, 8831.34]
+    - [840, 8831.24]
   - - [256, 1408, 1, 256]
-    - [815, 4352.68]
+    - [842, 4352.58]
   - - [5056, 64, 1, 1280]
-    - [782, 5012.05]
+    - [809, 5011.95]
   - - [1024, 704, 1, 256]
-    - [815, 5710.17]
+    - [842, 5710.07]
   - - [64, 256, 1, 128]
-    - [721, 149.897]
+    - [748, 149.797]
   - - [2368, 3584, 1, 1280]
-    - [823, 8609.68]
+    - [850, 8609.58]
   - - [1024, 256, 1, 256]
-    - [839, 3276.9]
+    - [866, 3276.8]
   - - [1856, 4, 1, 1280]
-    - [737, 497.104]
+    - [764, 497.004]
   - - [448, 448, 1, 256]
-    - [825, 3117.83]
+    - [852, 3117.73]
   - - [2944, 3584, 1, 3328]
-    - [813, 8879.45]
+    - [840, 8879.35]
   - - [7680, 32, 1, 2560]
-    - [783, 5310.24]
+    - [810, 5310.14]
   - - [128, 4288, 1, 128]
-    - [723, 2116.2]
+    - [750, 2116.1]
   - - [256, 256, 1, 3328]
-    - [776, 4774.7]
+    - [803, 4774.6]
   - - [128, 1024, 1, 3328]
-    - [777, 5894.8]
+    - [804, 5894.7]
   - - [4, 1408, 1, 3328]
-    - [768, 552.674]
-  - - [196, 256, 64, 1024]
-    - [866, 5218.34]
+    - [795, 552.574]
   - - [6784, 2944, 1, 256]
-    - [831, 8271.18]
+    - [858, 8271.08]
   - - [64, 1856, 1, 1280]
-    - [782, 4167.96]
+    - [809, 4167.86]
   - - [64, 1024, 1, 128]
-    - [716, 589.188]
+    - [743, 589.088]
   - - [1024, 1500, 1, 2560]
-    - [820, 8407.88]
+    - [847, 8407.78]
   - - [1856, 2368, 1, 256]
-    - [815, 8092.15]
+    - [842, 8092.05]
   - - [3584, 256, 1, 128]
-    - [798, 2607.57]
+    - [825, 2607.47]
   - - [3584, 6784, 1, 3328]
-    - [832, 8558.83]
+    - [859, 8558.73]
   - - [256, 1024, 1, 256]
-    - [825, 3901.78]
+    - [852, 3901.68]
   - - [4, 6784, 1, 3328]
-    - [763, 662.575]
+    - [790, 662.475]
   - - [1024, 5888, 1, 3328]
-    - [823, 9161.76]
+    - [850, 9161.66]
   - - [1024, 128, 1, 1280]
-    - [780, 3942.12]
+    - [807, 3942.02]
   - - [3072, 32, 1, 1024]
-    - [757, 2840.49]
+    - [784, 2840.39]
   - - [6144, 24000, 1, 2560]
-    - [813, 7605.87]
+    - [840, 7605.77]
   - - [448, 1024, 1, 256]
-    - [815, 5062.19]
+    - [842, 5062.09]
   - - [5056, 4288, 1, 1280]
-    - [823, 9090.99]
+    - [850, 9090.89]
   - - [5888, 64, 1, 256]
-    - [825, 4449.78]
+    - [852, 4449.68]
   - - [1856, 256, 1, 1280]
-    - [839, 5834.46]
+    - [866, 5834.36]
   - - [64, 5888, 1, 3328]
-    - [777, 6152.44]
+    - [804, 6152.34]
   - - [2368, 2368, 1, 1280]
-    - [817, 8594.66]
+    - [844, 8594.56]
   - - [2944, 5888, 1, 128]
-    - [802, 4776.19]
+    - [829, 4776.09]
   - - [704, 5888, 1, 1280]
-    - [817, 8435.91]
+    - [844, 8435.81]
   - - [2368, 3584, 1, 128]
-    - [799, 4590.71]
+    - [826, 4590.61]
   - - [1856, 5056, 1, 128]
-    - [810, 4503.48]
+    - [837, 4503.38]
   - - [4608, 1, 1, 1536]
-    - [708, 226.955]
+    - [735, 226.855]
   - - [448, 256, 1, 3328]
-    - [752, 5415.56]
+    - [779, 5415.46]
   - - [2944, 6784, 1, 1280]
-    - [836, 8385.11]
+    - [863, 8385.01]
   - - [448, 1856, 1, 128]
-    - [806, 2618.96]
+    - [833, 2618.86]
   - - [128, 1024, 1, 128]
-    - [715, 940.527]
+    - [742, 940.427]
   - - [7680, 4, 1, 2560]
-    - [739, 985.104]
+    - [766, 985.004]
   - - [1024, 704, 1, 1280]
-    - [825, 7204.56]
+    - [852, 7204.46]
   - - [128, 5888, 1, 256]
-    - [815, 6313.52]
+    - [842, 6313.42]
   - - [1024, 5056, 1, 1280]
-    - [820, 8979.76]
+    - [847, 8979.66]
   - - [4288, 1024, 1, 256]
-    - [812, 7198.29]
+    - [839, 7198.19]
   - - [2944, 2368, 1, 128]
-    - [797, 4624.57]
+    - [824, 4624.47]
   - - [704, 704, 1, 3328]
-    - [838, 5870.71]
+    - [865, 5870.61]
   - - [704, 1408, 1, 1280]
-    - [827, 7680.32]
+    - [854, 7680.22]
   - - [5888, 448, 1, 1280]
-    - [815, 7718.66]
+    - [842, 7718.56]
   - - [3584, 256, 1, 3328]
-    - [820, 7523.88]
+    - [847, 7523.78]
   - - [704, 5888, 1, 3328]
-    - [825, 8196.99]
+    - [852, 8196.89]
   - - [704, 1856, 1, 128]
-    - [803, 3388.43]
+    - [830, 3388.33]
   - - [128, 3584, 1, 3328]
-    - [777, 6626.5]
+    - [804, 6626.4]
   - - [4, 4288, 1, 128]
-    - [850, 159.648]
+    - [877, 159.548]
   - - [128, 704, 1, 1280]
-    - [740, 4038.73]
+    - [767, 4038.63]
   - - [3584, 2944, 1, 256]
-    - [813, 7685.99]
+    - [840, 7685.89]
   - - [1856, 128, 1, 3328]
-    - [769, 6070.63]
+    - [796, 6070.53]
   - - [1856, 2368, 1, 3328]
-    - [830, 8460.62]
+    - [857, 8460.52]
   - - [512, 6000, 1, 2816]
-    - [833, 9019.55]
+    - [860, 9019.45]
   - - [2944, 448, 1, 128]
-    - [796, 3027.73]
+    - [823, 3027.63]
   - - [64, 193600, 1, 256]
-    - [839, 7080.32]
+    - [866, 7080.22]
   - - [128, 2944, 1, 1280]
-    - [815, 5397.87]
+    - [842, 5397.77]
   - - [448, 2944, 1, 1280]
-    - [825, 6996.97]
+    - [852, 6996.87]
   - - [512, 24000, 1, 2048]
-    - [833, 8832.67]
+    - [860, 8832.57]
   - - [128, 256, 1, 3328]
-    - [772, 3531.57]
+    - [799, 3531.47]
   - - [1408, 5056, 1, 3328]
-    - [828, 7969.94]
+    - [855, 7969.84]
   - - [1856, 1856, 1, 3328]
-    - [815, 8140.34]
+    - [842, 8140.24]
   - - [3584, 128, 1, 256]
-    - [825, 4861.05]
+    - [852, 4860.95]
   - - [448, 1408, 1, 3328]
-    - [815, 6353.75]
+    - [842, 6353.65]
   - - [2368, 2368, 1, 256]
-    - [829, 8369.37]
+    - [856, 8369.27]
   - - [4288, 4288, 1, 1280]
-    - [819, 8666.52]
+    - [846, 8666.42]
   - - [64, 448, 1, 1280]
-    - [772, 2591.92]
+    - [799, 2591.82]
   - - [5888, 1024, 1, 1280]
-    - [812, 8526.6]
+    - [839, 8526.5]
   - - [704, 1024, 1, 256]
-    - [825, 4971.8]
+    - [852, 4971.7]
   - - [1024, 12544, 1, 256]
-    - [863, 8611.9]
+    - [890, 8611.8]
   - - [448, 4, 1, 256]
-    - [768, 78.6534]
+    - [795, 78.5534]
   - - [5888, 448, 1, 128]
-    - [799, 3592.03]
+    - [826, 3591.93]
   - - [512, 48000, 1, 2560]
-    - [833, 9237.44]
+    - [860, 9237.34]
   - - [8448, 16, 1, 2816]
-    - [698, 3360.21]
+    - [725, 3360.11]
   - - [704, 6784, 1, 3328]
-    - [834, 7774.95]
+    - [861, 7774.85]
   - - [5888, 5888, 1, 1280]
-    - [820, 9238.25]
+    - [847, 9238.15]
   - - [5056, 1024, 1, 1280]
-    - [848, 8227.88]
+    - [875, 8227.78]
   - - [448, 5888, 1, 3328]
-    - [823, 7777.63]
+    - [850, 7777.53]
   - - [3072, 2, 1, 1024]
-    - [760, 376.383]
+    - [787, 376.283]
   - - [1024, 2944, 1, 1280]
-    - [813, 8650.45]
+    - [840, 8650.35]
   - - [5056, 5888, 1, 1280]
-    - [823, 8861.6]
+    - [850, 8861.5]
   - - [4288, 5888, 1, 128]
-    - [803, 5049.01]
+    - [830, 5048.91]
   - - [256, 3584, 1, 256]
-    - [815, 6314.11]
+    - [842, 6314.01]
   - - [256, 4, 1, 1280]
-    - [859, 163.94]
+    - [886, 163.84]
   - - [1408, 3584, 1, 128]
-    - [803, 4290.22]
+    - [830, 4290.12]
   - - [256, 2944, 1, 3328]
-    - [825, 7620.99]
+    - [852, 7620.89]
   - - [448, 3584, 1, 128]
-    - [803, 3353.9]
+    - [830, 3353.8]
   - - [5888, 2944, 1, 1280]
-    - [813, 9498.31]
+    - [840, 9498.21]
   - - [4, 6784, 1, 1280]
-    - [763, 623.916]
+    - [790, 623.816]
   - - [2368, 5888, 1, 128]
-    - [802, 4840.29]
+    - [829, 4840.19]
   - - [35, 8457, 1, 1760]
-    - [709, 4059.88]
+    - [736, 4059.78]
   - - [64, 2944, 1, 128]
-    - [720, 1310.82]
+    - [747, 1310.72]
   - - [2368, 4, 1, 256]
-    - [854, 369.739]
+    - [881, 369.639]
   - - [3584, 5888, 1, 256]
-    - [831, 7996.33]
+    - [858, 7996.23]
   - - [2368, 1024, 1, 128]
-    - [797, 3915.07]
+    - [824, 3914.97]
   - - [2368, 704, 1, 128]
-    - [797, 3658.97]
+    - [824, 3658.87]
   - - [512, 32, 1, 512]
-    - [786, 1127.6]
+    - [813, 1127.5]
   - - [3584, 2368, 1, 128]
-    - [797, 4462.48]
+    - [824, 4462.38]
   - - [5056, 704, 1, 128]
-    - [796, 4062.21]
+    - [823, 4062.11]
   - - [448, 2368, 1, 128]
-    - [797, 2829.07]
+    - [824, 2828.97]
   - - [4, 5056, 1, 256]
-    - [745, 425.868]
+    - [772, 425.768]
   - - [5056, 1408, 1, 3328]
-    - [830, 8848.92]
+    - [857, 8848.82]
   - - [1408, 704, 1, 256]
-    - [825, 5394.56]
+    - [852, 5394.46]
   - - [6784, 1024, 1, 3328]
-    - [812, 9232.02]
+    - [839, 9231.92]
   - - [6784, 2944, 1, 3328]
-    - [823, 8714.84]
+    - [850, 8714.74]
   - - [7680, 1, 1, 2560]
-    - [759, 248.845]
+    - [786, 248.745]
   - - [1856, 1856, 1, 256]
-    - [824, 7586.58]
+    - [851, 7586.48]
   - - [64, 64, 1, 3328]
-    - [794, 1363.25]
+    - [821, 1363.15]
   - - [512, 1, 1, 512]
-    - [708, 43.2158]
+    - [735, 43.1158]
   - - [6784, 2368, 1, 1280]
-    - [825, 8665.74]
+    - [852, 8665.64]
   - - [4608, 2, 1, 1536]
-    - [708, 452.65]
+    - [735, 452.55]
   - - [4288, 3584, 1, 256]
-    - [833, 8936.7]
+    - [860, 8936.6]
   - - [4288, 5888, 1, 1280]
-    - [830, 8957.15]
+    - [857, 8957.05]
   - - [4608, 4, 1, 1536]
-    - [701, 846.737]
+    - [728, 846.637]
   - - [1024, 6000, 1, 1536]
-    - [823, 8398.54]
+    - [850, 8398.44]
   - - [8448, 32, 1, 2816]
-    - [783, 5343.07]
+    - [810, 5342.97]
   - - [448, 2944, 1, 3328]
-    - [830, 7247.04]
+    - [857, 7246.94]
   - - [4288, 1856, 1, 1280]
-    - [813, 8902.86]
+    - [840, 8902.76]
   - - [1856, 2944, 1, 3328]
-    - [825, 8622.86]
+    - [852, 8622.76]
   - - [256, 6784, 1, 3328]
-    - [825, 8050.77]
+    - [852, 8050.67]
   - - [512, 3000, 1, 1536]
-    - [846, 7108.12]
+    - [873, 7108.02]
   - - [64, 5888, 1, 256]
-    - [838, 3567.74]
+    - [865, 3567.64]
   - - [256, 5056, 1, 128]
-    - [805, 3041.12]
+    - [832, 3041.02]
   - - [5056, 1024, 1, 256]
-    - [829, 8401.47]
+    - [856, 8401.37]
   - - [704, 64, 1, 3328]
-    - [788, 4299.02]
+    - [815, 4298.92]
   - - [5056, 1856, 1, 3328]
-    - [833, 8660.77]
+    - [860, 8660.67]
   - - [4, 2944, 1, 3328]
-    - [763, 618.637]
+    - [790, 618.537]
   - - [512, 1500, 1, 2048]
-    - [845, 5481.22]
+    - [872, 5481.12]
   - - [1024, 1, 1, 500000]
-    - [699, 260.061]
+    - [726, 259.961]
   - - [256, 4, 1, 256]
-    - [763, 50.5123]
+    - [790, 50.4123]
   - - [6784, 128, 1, 3328]
-    - [817, 6950.91]
+    - [844, 6950.81]
   - - [4288, 1408, 1, 128]
-    - [797, 4539.58]
+    - [824, 4539.48]
   - - [1856, 5888, 1, 3328]
-    - [823, 8712.93]
+    - [850, 8712.83]
   - - [4288, 5056, 1, 256]
-    - [829, 8997.15]
+    - [856, 8997.05]
   - - [1408, 128, 1, 1280]
-    - [752, 4599.12]
+    - [779, 4599.02]
   - - [4096, 7000, 1, 4096]
-    - [819, 8555.89]
+    - [846, 8555.79]
   - - [5056, 256, 1, 3328]
-    - [825, 8257.16]
+    - [852, 8257.06]
   - - [704, 704, 1, 256]
-    - [815, 5852.39]
+    - [842, 5852.29]
   - - [1024, 3000, 1, 2560]
-    - [812, 8258.84]
+    - [839, 8258.74]
   - - [1024, 5888, 1, 1280]
-    - [812, 8988.99]
+    - [839, 8988.89]
   - - [6784, 2368, 1, 128]
-    - [798, 4562.25]
+    - [825, 4562.15]
   - - [4, 5056, 1, 1280]
-    - [763, 600.441]
+    - [790, 600.341]
   - - [256, 64, 1, 1280]
-    - [786, 1899.69]
+    - [813, 1899.59]
   - - [128, 1856, 1, 1280]
-    - [825, 5185.76]
+    - [852, 5185.66]
   - - [1856, 1024, 1, 1280]
-    - [830, 7875.95]
+    - [857, 7875.85]
   - - [6784, 4288, 1, 1280]
-    - [833, 8981.18]
+    - [860, 8981.08]
   - - [1856, 1856, 1, 1280]
-    - [814, 7794.71]
+    - [841, 7794.61]
   - - [35, 1500, 1, 2048]
-    - [714, 2192.6]
+    - [741, 2192.5]
   - - [3072, 24000, 1, 1024]
-    - [826, 8690.58]
+    - [853, 8690.48]
   - - [1408, 5056, 1, 1280]
-    - [825, 8427.87]
+    - [852, 8427.77]
   - - [4, 2368, 1, 3328]
-    - [768, 594.422]
+    - [795, 594.322]
   - - [5888, 1856, 1, 128]
-    - [797, 4294.05]
+    - [824, 4293.95]
   - - [448, 704, 1, 1280]
-    - [820, 4136.39]
+    - [847, 4136.29]
   - - [448, 6784, 1, 128]
-    - [798, 3976.2]
+    - [825, 3976.1]
   - - [1024, 448, 1, 3328]
-    - [830, 6376.33]
+    - [857, 6376.23]
   - - [2944, 128, 1, 256]
-    - [815, 4466.26]
+    - [842, 4466.16]
   - - [5056, 3584, 1, 128]
-    - [803, 4997.18]
+    - [830, 4997.08]
   - - [5888, 5888, 1, 3328]
-    - [833, 8870.37]
+    - [860, 8870.27]
   - - [6784, 1024, 1, 256]
-    - [812, 8520.53]
+    - [839, 8520.43]
   - - [2944, 2368, 1, 256]
-    - [849, 6174.59]
+    - [876, 6174.49]
   - - [256, 448, 1, 256]
-    - [825, 1844.33]
+    - [852, 1844.23]
   - - [5056, 5888, 1, 3328]
-    - [814, 8076.65]
+    - [841, 8076.55]
   - - [1856, 1024, 1, 256]
-    - [825, 7188.92]
+    - [852, 7188.82]
   - - [512, 48000, 1, 1536]
-    - [836, 7282.2]
+    - [863, 7282.1]
   - - [3584, 448, 1, 1280]
-    - [815, 6869.1]
+    - [842, 6869.0]
   - - [1024, 1024, 1, 1280]
-    - [825, 8027.45]
+    - [852, 8027.35]
   - - [448, 5888, 1, 256]
-    - [815, 5765.84]
+    - [842, 5765.74]
   - - [2048, 128, 1, 2048]
-    - [773, 4835.01]
+    - [800, 4834.91]
   - - [1408, 6784, 1, 3328]
-    - [825, 8613.76]
+    - [852, 8613.66]
   - - [448, 1024, 1, 128]
-    - [796, 2315.57]
+    - [823, 2315.47]
   - - [4288, 704, 1, 128]
-    - [797, 4138.92]
+    - [824, 4138.82]
   - - [128, 1856, 1, 128]
-    - [732, 1397.56]
+    - [759, 1397.46]
   - - [448, 2368, 1, 3328]
-    - [815, 6786.48]
+    - [842, 6786.38]
   - - [5056, 64, 1, 128]
-    - [797, 1664.84]
+    - [824, 1664.74]
   - - [5056, 2944, 1, 256]
-    - [848, 7697.49]
+    - [875, 7697.39]
   - - [6784, 5888, 1, 128]
-    - [797, 5003.67]
+    - [824, 5003.57]
   - - [1024, 700, 1, 512]
-    - [825, 6036.31]
+    - [852, 6036.21]
   - - [3072, 1, 1, 128]
-    - [779, 70.3171]
+    - [806, 70.2171]
   - - [1024, 4, 1, 256]
-    - [737, 154.302]
+    - [764, 154.202]
   - - [2944, 704, 1, 128]
-    - [803, 3697.0]
+    - [830, 3696.9]
   - - [128, 6784, 1, 1280]
-    - [815, 6731.51]
+    - [842, 6731.41]
   - - [1408, 3584, 1, 3328]
-    - [813, 9258.07]
+    - [840, 9257.97]
   - - [2368, 6784, 1, 256]
-    - [812, 8840.4]
+    - [839, 8840.3]
   - - [5056, 1408, 1, 1280]
-    - [813, 9240.84]
+    - [840, 9240.74]
   - - [5056, 4288, 1, 128]
-    - [808, 4309.18]
+    - [835, 4309.08]
   - - [4, 704, 1, 256]
-    - [763, 130.697]
+    - [790, 130.597]
   - - [4288, 2368, 1, 3328]
-    - [826, 8755.33]
+    - [853, 8755.23]
   - - [1408, 1856, 1, 128]
-    - [796, 3918.75]
+    - [823, 3918.65]
   - - [1408, 5888, 1, 3328]
-    - [833, 8910.47]
+    - [860, 8910.37]
   - - [1856, 256, 1, 256]
-    - [815, 5631.34]
+    - [842, 5631.24]
   - - [6784, 6784, 1, 256]
-    - [823, 9298.76]
+    - [850, 9298.66]
   - - [5888, 5056, 1, 128]
-    - [798, 4811.36]
+    - [825, 4811.26]
   - - [4288, 2368, 1, 128]
-    - [797, 4749.1]
+    - [824, 4749.0]
   - - [128, 5888, 1, 1280]
-    - [824, 6393.86]
+    - [851, 6393.76]
   - - [256, 4288, 1, 1280]
-    - [815, 6887.79]
+    - [842, 6887.69]
   - - [2368, 2944, 1, 256]
-    - [829, 8314.82]
+    - [856, 8314.72]
   - - [4, 1856, 1, 256]
-    - [852, 267.03]
+    - [879, 266.93]
   - - [3584, 1856, 1, 1280]
-    - [813, 8631.91]
+    - [840, 8631.81]
   - - [6784, 6784, 1, 128]
-    - [803, 5059.96]
+    - [830, 5059.86]
   - - [256, 1856, 1, 128]
-    - [796, 1858.82]
-  - - [49, 512, 64, 2048]
-    - [867, 3053.67]
+    - [823, 1858.72]
   - - [704, 64, 1, 1280]
-    - [746, 2849.49]
+    - [773, 2849.39]
   - - [5888, 5056, 1, 256]
-    - [832, 8202.52]
+    - [859, 8202.42]
   - - [8448, 48000, 1, 2816]
-    - [823, 4281.94]
+    - [850, 4281.84]
   - - [512, 6000, 1, 2048]
-    - [815, 8047.89]
+    - [842, 8047.79]
   - - [3584, 448, 1, 256]
-    - [825, 6805.43]
+    - [852, 6805.33]
   - - [448, 4288, 1, 128]
-    - [803, 3500.83]
+    - [830, 3500.73]
   - - [7680, 64, 1, 2560]
-    - [758, 5957.9]
+    - [785, 5957.8]
   - - [256, 6784, 1, 256]
-    - [825, 7331.83]
+    - [852, 7331.73]
   - - [1408, 4288, 1, 128]
-    - [797, 4501.49]
+    - [824, 4501.39]
   - - [2944, 704, 1, 3328]
-    - [825, 8439.7]
+    - [852, 8439.6]
   - - [128, 448, 1, 256]
-    - [746, 1555.19]
+    - [773, 1555.09]
   - - [2048, 32, 1, 2048]
-    - [757, 3226.49]
+    - [784, 3226.39]
   - - [3584, 3584, 1, 256]
-    - [829, 8784.9]
+    - [856, 8784.8]
   - - [448, 1408, 1, 128]
-    - [796, 2535.92]
+    - [823, 2535.82]
   - - [128, 256, 1, 1280]
-    - [772, 2896.72]
+    - [799, 2896.62]
   - - [3584, 5056, 1, 256]
-    - [816, 8566.52]
+    - [843, 8566.42]
   - - [6784, 128, 1, 256]
-    - [815, 6053.97]
+    - [842, 6053.87]
   - - [4288, 4, 1, 256]
-    - [735, 428.9]
+    - [762, 428.8]
   - - [64, 1408, 1, 3328]
-    - [740, 5025.11]
+    - [767, 5025.01]
   - - [704, 448, 1, 256]
-    - [839, 3409.74]
+    - [866, 3409.64]
   - - [2944, 2368, 1, 1280]
-    - [813, 9066.35]
+    - [840, 9066.25]
   - - [448, 64, 1, 3328]
-    - [788, 3528.96]
+    - [815, 3528.86]
   - - [704, 6784, 1, 128]
-    - [802, 4212.61]
+    - [829, 4212.51]
   - - [3584, 4, 1, 3328]
-    - [855, 658.353]
+    - [882, 658.253]
   - - [6784, 3584, 1, 256]
-    - [823, 9061.84]
+    - [850, 9061.74]
   - - [704, 448, 1, 128]
-    - [802, 1552.8]
+    - [829, 1552.7]
   - - [256, 128, 1, 128]
-    - [727, 281.975]
+    - [754, 281.875]
   - - [704, 1408, 1, 128]
-    - [802, 3026.76]
+    - [829, 3026.66]
   - - [4, 448, 1, 128]
-    - [851, 5.56127]
+    - [878, 5.46127]
   - - [4288, 128, 1, 1280]
-    - [782, 5471.64]
+    - [809, 5471.54]
   - - [128, 1408, 1, 256]
-    - [825, 2813.35]
+    - [852, 2813.25]
   - - [4, 2944, 1, 256]
-    - [745, 316.766]
+    - [772, 316.666]
   - - [64, 128, 1, 3328]
-    - [793, 1872.56]
+    - [820, 1872.46]
   - - [1856, 1408, 1, 256]
-    - [815, 7735.89]
+    - [842, 7735.79]
   - - [5056, 2368, 1, 128]
-    - [797, 4830.19]
+    - [824, 4830.09]
   - - [2944, 2944, 1, 3328]
-    - [833, 8890.11]
+    - [860, 8890.01]
   - - [5056, 6784, 1, 256]
-    - [823, 9015.25]
+    - [850, 9015.15]
   - - [1856, 3584, 1, 128]
-    - [804, 4455.12]
+    - [831, 4455.02]
   - - [5888, 4, 1, 1280]
-    - [853, 642.063]
+    - [880, 641.963]
   - - [128, 2944, 1, 128]
-    - [722, 2037.03]
+    - [749, 2036.93]
   - - [35, 8457, 1, 2560]
-    - [710, 3988.23]
+    - [737, 3988.13]
   - - [3584, 6784, 1, 128]
-    - [797, 4774.54]
+    - [824, 4774.44]
   - - [128, 4288, 1, 256]
-    - [815, 4851.85]
+    - [842, 4851.75]
   - - [704, 448, 1, 3328]
-    - [830, 4432.63]
+    - [857, 4432.53]
   - - [2368, 6784, 1, 1280]
-    - [813, 9161.48]
+    - [840, 9161.38]
   - - [128, 128, 1, 3328]
-    - [787, 2839.99]
+    - [814, 2839.89]
   - - [5056, 1856, 1, 256]
-    - [829, 8380.94]
+    - [856, 8380.84]
   - - [256, 128, 1, 256]
-    - [771, 1165.18]
+    - [798, 1165.08]
   - - [1024, 3000, 1, 2816]
-    - [830, 8714.27]
+    - [857, 8714.17]
   - - [1024, 1856, 1, 256]
-    - [820, 7014.79]
+    - [847, 7014.69]
   - - [64, 1, 1, 1216]
-    - [793, 11.8205]
+    - [820, 11.7205]
   - - [4288, 64, 1, 128]
-    - [724, 1669.65]
+    - [751, 1669.55]
   - - [256, 448, 1, 3328]
-    - [748, 5152.39]
+    - [775, 5152.29]
   - - [1408, 6784, 1, 1280]
-    - [833, 8735.22]
+    - [860, 8735.12]
   - - [3584, 3584, 1, 1280]
-    - [830, 9020.09]
+    - [857, 9019.99]
   - - [7680, 24000, 1, 2560]
-    - [833, 6940.24]
+    - [860, 6940.14]
   - - [64, 2368, 1, 1280]
-    - [743, 4433.07]
+    - [770, 4432.97]
   - - [448, 2368, 1, 1280]
-    - [818, 5352.92]
+    - [845, 5352.82]
   - - [4608, 48000, 1, 1536]
-    - [812, 8129.11]
+    - [839, 8129.01]
   - - [5888, 5888, 1, 128]
-    - [805, 4700.91]
+    - [832, 4700.81]
   - - [64, 6784, 1, 3328]
-    - [815, 6170.82]
+    - [842, 6170.72]
   - - [2944, 256, 1, 1280]
-    - [845, 6177.65]
+    - [872, 6177.55]
   - - [2048, 16, 1, 2048]
-    - [767, 2167.7]
+    - [794, 2167.6]
   - - [256, 2368, 1, 128]
-    - [796, 2037.77]
+    - [823, 2037.67]
   - - [5056, 2368, 1, 3328]
-    - [813, 9040.6]
+    - [840, 9040.5]
   - - [2944, 4288, 1, 256]
-    - [844, 7552.22]
+    - [871, 7552.12]
   - - [1408, 3584, 1, 1280]
-    - [820, 8808.76]
+    - [847, 8808.66]
   - - [2368, 64, 1, 256]
-    - [756, 2320.51]
+    - [783, 2320.41]
   - - [1024, 128, 1, 128]
-    - [716, 1075.56]
+    - [743, 1075.46]
   - - [704, 128, 1, 3328]
-    - [749, 4985.02]
+    - [776, 4984.92]
   - - [5888, 4, 1, 128]
-    - [850, 33.6558]
+    - [877, 33.5558]
   - - [1856, 704, 1, 256]
-    - [825, 7110.98]
+    - [852, 7110.88]
   - - [1024, 1500, 1, 2816]
-    - [820, 8499.88]
+    - [847, 8499.78]
   - - [8448, 1, 1, 2816]
-    - [703, 251.469]
+    - [730, 251.369]
   - - [1024, 4, 1, 3328]
-    - [859, 541.032]
+    - [886, 540.932]
   - - [1024, 6000, 1, 2048]
-    - [820, 8698.59]
+    - [847, 8698.49]
   - - [512, 24000, 1, 2560]
-    - [813, 8963.7]
+    - [840, 8963.6]
   - - [6144, 3000, 1, 2560]
-    - [836, 8761.97]
+    - [863, 8761.87]
   - - [2368, 6784, 1, 3328]
-    - [830, 8867.49]
+    - [857, 8867.39]
   - - [1856, 1408, 1, 1280]
-    - [817, 7908.53]
+    - [844, 7908.43]
   - - [1856, 448, 1, 1280]
-    - [830, 6544.01]
+    - [857, 6543.91]
   - - [6784, 704, 1, 128]
-    - [796, 4086.45]
+    - [823, 4086.35]
   - - [4, 4, 1, 256]
-    - [763, 0.852941]
+    - [790, 0.752941]
   - - [128, 5888, 1, 128]
-    - [720, 2582.25]
+    - [747, 2582.15]
   - - [5056, 2944, 1, 128]
-    - [800, 4579.17]
+    - [827, 4579.07]
   - - [1408, 5888, 1, 256]
-    - [812, 8810.77]
+    - [839, 8810.67]
   - - [704, 2944, 1, 1280]
-    - [827, 8420.9]
+    - [854, 8420.8]
   - - [4288, 64, 1, 1280]
-    - [752, 4906.15]
+    - [779, 4906.05]
   - - [256, 64, 1, 256]
-    - [754, 689.953]
+    - [781, 689.853]
   - - [1024, 1024, 1, 256]
-    - [830, 5528.01]
+    - [857, 5527.91]
   - - [704, 1856, 1, 256]
-    - [814, 4452.92]
+    - [841, 4452.82]
   - - [2560, 64, 1, 2560]
-    - [743, 4563.09]
+    - [770, 4562.99]
   - - [3584, 704, 1, 1280]
-    - [820, 7898.77]
+    - [847, 7898.67]
   - - [256, 128, 1, 1280]
-    - [772, 2865.06]
+    - [799, 2864.96]
   - - [5888, 2368, 1, 256]
-    - [819, 8628.37]
+    - [846, 8628.27]
   - - [256, 2368, 1, 1280]
-    - [815, 6073.57]
+    - [842, 6073.47]
   - - [2944, 6784, 1, 128]
-    - [796, 4756.77]
+    - [823, 4756.67]
   - - [3584, 448, 1, 3328]
-    - [815, 7265.07]
+    - [842, 7264.97]
   - - [1408, 4, 1, 256]
-    - [856, 234.157]
+    - [883, 234.057]
   - - [704, 2368, 1, 3328]
-    - [813, 7248.98]
+    - [840, 7248.88]
   - - [2944, 448, 1, 256]
-    - [820, 6365.89]
+    - [847, 6365.79]
   - - [1856, 448, 1, 128]
-    - [798, 2976.34]
+    - [825, 2976.24]
   - - [4608, 6000, 1, 1536]
-    - [833, 9469.42]
+    - [860, 9469.32]
   - - [2368, 128, 1, 1280]
-    - [782, 4773.39]
+    - [809, 4773.29]
   - - [256, 5888, 1, 128]
-    - [797, 3112.0]
+    - [824, 3111.9]
   - - [64, 6784, 1, 256]
-    - [815, 3755.14]
+    - [842, 3755.04]
   - - [64, 5056, 1, 1280]
-    - [776, 4935.6]
+    - [803, 4935.5]
   - - [4, 6784, 1, 128]
-    - [851, 111.142]
+    - [878, 111.042]
   - - [3025, 64, 64, 64]
-    - [865, 6643.75]
+    - [892, 6643.65]
   - - [2944, 2944, 1, 1280]
-    - [813, 8869.55]
+    - [840, 8869.45]
   - - [5056, 448, 1, 3328]
-    - [846, 6706.2]
+    - [873, 6706.1]
   - - [4, 3584, 1, 1280]
-    - [763, 573.54]
+    - [790, 573.44]
   - - [1408, 128, 1, 128]
-    - [715, 1293.19]
+    - [742, 1293.09]
   - - [6784, 704, 1, 3328]
-    - [830, 8368.33]
+    - [857, 8368.23]
   - - [128, 64, 1, 1280]
-    - [789, 1260.41]
+    - [816, 1260.31]
   - - [2368, 256, 1, 1280]
-    - [815, 6154.47]
+    - [842, 6154.37]
   - - [4, 448, 1, 3328]
-    - [768, 351.738]
+    - [795, 351.638]
   - - [5888, 4288, 1, 128]
-    - [797, 4340.99]
+    - [824, 4340.89]
   - - [4, 5888, 1, 256]
-    - [745, 428.318]
+    - [772, 428.218]
   - - [1408, 2944, 1, 3328]
-    - [812, 9400.85]
+    - [839, 9400.75]
   - - [3584, 704, 1, 128]
-    - [799, 3392.55]
+    - [826, 3392.45]
   - - [64, 1024, 1, 256]
-    - [746, 1762.41]
+    - [773, 1762.31]
   - - [2368, 448, 1, 1280]
-    - [839, 5972.58]
+    - [866, 5972.48]
   - - [128, 3584, 1, 256]
-    - [815, 5224.32]
+    - [842, 5224.22]
   - - [704, 448, 1, 1280]
-    - [815, 4566.86]
+    - [842, 4566.76]
   - - [448, 5056, 1, 128]
-    - [797, 3876.19]
+    - [824, 3876.09]
   - - [6144, 4, 1, 2560]
-    - [739, 948.751]
+    - [766, 948.651]
   - - [5056, 3584, 1, 256]
-    - [829, 8162.56]
+    - [856, 8162.46]
   - - [4288, 4288, 1, 256]
-    - [836, 7653.34]
+    - [863, 7653.24]
   - - [1408, 5056, 1, 128]
-    - [803, 4554.34]
+    - [830, 4554.24]
   - - [2944, 3584, 1, 128]
-    - [809, 4147.0]
+    - [836, 4146.9]
   - - [3584, 2368, 1, 256]
-    - [830, 8195.05]
+    - [857, 8194.95]
   - - [5888, 5056, 1, 1280]
-    - [829, 9413.43]
+    - [856, 9413.33]
   - - [128, 1024, 1, 1280]
-    - [782, 4433.83]
+    - [809, 4433.73]
   - - [8448, 24000, 1, 2816]
-    - [823, 5227.12]
+    - [850, 5227.02]
   - - [64, 704, 1, 256]
-    - [746, 1441.89]
+    - [773, 1441.79]
   - - [4288, 256, 1, 1280]
-    - [845, 5687.8]
+    - [872, 5687.7]
   - - [3584, 3584, 1, 3328]
-    - [820, 9183.63]
+    - [847, 9183.53]
   - - [704, 64, 1, 128]
-    - [724, 402.835]
+    - [751, 402.735]
   - - [3072, 1500, 1, 128]
-    - [819, 7395.08]
+    - [846, 7394.98]
   - - [2048, 3136, 1, 512]
-    - [861, 8447.3]
+    - [888, 8447.2]
   - - [3025, 256, 64, 64]
-    - [869, 8063.79]
+    - [896, 8063.69]
   - - [5888, 6784, 1, 256]
-    - [813, 9282.01]
+    - [840, 9281.91]
   - - [4288, 2944, 1, 3328]
-    - [813, 9153.87]
+    - [840, 9153.77]
   - - [2944, 64, 1, 128]
-    - [730, 1463.53]
+    - [757, 1463.43]
   - - [1024, 128, 1, 3328]
-    - [780, 5377.41]
+    - [807, 5377.31]
   - - [1024, 16, 1, 500000]
-    - [696, 3997.13]
+    - [723, 3997.03]
   - - [4288, 128, 1, 3328]
-    - [784, 6053.31]
+    - [811, 6053.21]
   - - [7680, 128, 1, 2560]
-    - [830, 7769.24]
+    - [857, 7769.14]
   - - [256, 5056, 1, 1280]
-    - [839, 7200.84]
+    - [866, 7200.74]
   - - [1408, 256, 1, 128]
-    - [807, 1671.74]
+    - [834, 1671.64]
   - - [2944, 5888, 1, 3328]
-    - [819, 8642.18]
+    - [846, 8642.08]
   - - [6784, 5888, 1, 1280]
-    - [833, 8871.15]
+    - [860, 8871.05]
   - - [3072, 1, 1, 1024]
-    - [779, 205.972]
+    - [806, 205.872]
   - - [704, 128, 1, 256]
-    - [742, 1935.39]
+    - [769, 1935.29]
   - - [5888, 4288, 1, 1280]
-    - [820, 9176.7]
+    - [847, 9176.6]
   - - [1024, 24000, 1, 2048]
-    - [819, 8667.79]
+    - [846, 8667.69]
   - - [448, 256, 1, 1280]
-    - [752, 4327.95]
+    - [779, 4327.85]
   - - [5888, 3584, 1, 128]
-    - [797, 4669.45]
+    - [824, 4669.35]
   - - [64, 4288, 1, 3328]
-    - [777, 5375.04]
+    - [804, 5374.94]
   - - [448, 4, 1, 1280]
-    - [768, 289.716]
+    - [795, 289.616]
   - - [6784, 6784, 1, 3328]
-    - [826, 8306.73]
+    - [853, 8306.63]
   - - [5056, 4, 1, 1280]
-    - [738, 607.199]
+    - [765, 607.099]
   - - [4, 5888, 1, 3328]
-    - [763, 651.538]
+    - [790, 651.438]
   - - [256, 1408, 1, 1280]
-    - [815, 5177.09]
+    - [842, 5176.99]
   - - [3072, 16, 1, 1024]
-    - [774, 2207.63]
+    - [801, 2207.53]
   - - [704, 3584, 1, 128]
-    - [807, 3653.51]
+    - [834, 3653.41]
   - - [1024, 2, 1, 512]
-    - [794, 156.138]
+    - [821, 156.038]
   - - [5888, 448, 1, 3328]
-    - [815, 7896.85]
+    - [842, 7896.75]
   - - [2368, 4288, 1, 1280]
-    - [812, 8517.63]
+    - [839, 8517.53]
   - - [4288, 2944, 1, 128]
-    - [801, 4439.26]
+    - [828, 4439.16]
   - - [256, 64, 1, 3328]
-    - [787, 2704.76]
+    - [814, 2704.66]
   - - [2944, 64, 1, 3328]
-    - [752, 5647.15]
+    - [779, 5647.05]
   - - [6784, 64, 1, 3328]
-    - [825, 6434.61]
+    - [852, 6434.51]
   - - [5056, 2944, 1, 3328]
-    - [836, 8497.2]
+    - [863, 8497.1]
   - - [448, 128, 1, 256]
-    - [754, 1516.64]
+    - [781, 1516.54]
   - - [2944, 3584, 1, 256]
-    - [830, 8365.83]
+    - [857, 8365.73]
   - - [1408, 1408, 1, 3328]
-    - [813, 8440.42]
+    - [840, 8440.32]
   - - [1856, 128, 1, 1280]
-    - [815, 5242.93]
+    - [842, 5242.83]
   - - [3584, 3584, 1, 128]
-    - [797, 4385.94]
+    - [824, 4385.84]
   - - [64, 3584, 1, 256]
-    - [815, 3276.9]
+    - [842, 3276.8]
   - - [1408, 4, 1, 3328]
-    - [738, 605.504]
+    - [765, 605.404]
   - - [128, 2944, 1, 3328]
-    - [783, 6295.75]
+    - [810, 6295.65]
   - - [3584, 704, 1, 256]
-    - [820, 7711.64]
+    - [847, 7711.54]
   - - [2944, 448, 1, 3328]
-    - [831, 6503.97]
+    - [858, 6503.87]
   - - [1024, 2, 1, 500000]
-    - [700, 521.803]
+    - [727, 521.703]
   - - [3584, 1408, 1, 3328]
-    - [822, 8296.2]
+    - [849, 8296.1]
   - - [704, 3584, 1, 1280]
-    - [827, 7670.65]
+    - [854, 7670.55]
   - - [1024, 1408, 1, 128]
-    - [802, 2830.61]
+    - [829, 2830.51]
   - - [1856, 6784, 1, 256]
-    - [833, 8149.67]
+    - [860, 8149.57]
   - - [4288, 448, 1, 3328]
-    - [814, 7406.44]
+    - [841, 7406.34]
   - - [6784, 4288, 1, 128]
-    - [809, 4418.09]
+    - [836, 4417.99]
   - - [6784, 704, 1, 1280]
-    - [830, 8302.45]
+    - [857, 8302.35]
   - - [6144, 1, 1, 2560]
-    - [739, 243.427]
+    - [766, 243.327]
   - - [3584, 6784, 1, 256]
-    - [812, 9036.59]
+    - [839, 9036.49]
   - - [6144, 16, 1, 2560]
-    - [746, 3266.69]
+    - [773, 3266.59]
   - - [3584, 64, 1, 128]
-    - [730, 1555.19]
+    - [757, 1555.09]
   - - [5888, 1024, 1, 3328]
-    - [820, 8888.08]
+    - [847, 8887.98]
   - - [448, 64, 1, 128]
-    - [716, 248.074]
+    - [743, 247.974]
   - - [704, 6784, 1, 1280]
-    - [816, 7892.56]
+    - [843, 7892.46]
   - - [4, 448, 1, 256]
-    - [738, 70.8951]
-  - - [196, 1024, 64, 256]
-    - [864, 6630.86]
+    - [765, 70.7951]
   - - [5888, 128, 1, 256]
-    - [814, 5715.09]
+    - [841, 5714.99]
   - - [4096, 16, 1, 4096]
-    - [760, 3251.5]
+    - [787, 3251.4]
   - - [1856, 5056, 1, 3328]
-    - [829, 8740.27]
+    - [856, 8740.17]
   - - [4, 6784, 1, 256]
-    - [852, 360.412]
+    - [879, 360.312]
   - - [1024, 3584, 1, 128]
-    - [797, 3456.27]
+    - [824, 3456.17]
   - - [64, 704, 1, 3328]
-    - [765, 3817.47]
+    - [792, 3817.37]
   - - [2368, 2944, 1, 128]
-    - [803, 4605.47]
+    - [830, 4605.37]
   - - [5056, 64, 1, 256]
-    - [815, 3863.79]
+    - [842, 3863.69]
   - - [512, 1500, 1, 1536]
-    - [815, 6801.56]
+    - [842, 6801.46]
   - - [512, 1, 1, 500000]
-    - [704, 261.068]
+    - [731, 260.968]
   - - [5888, 2944, 1, 3328]
-    - [819, 8501.88]
+    - [846, 8501.78]
   - - [128, 3584, 1, 1280]
-    - [820, 5938.64]
+    - [847, 5938.54]
   - - [1024, 704, 1, 128]
-    - [806, 2172.29]
+    - [833, 2172.19]
   - - [1408, 2368, 1, 128]
-    - [802, 4023.2]
+    - [829, 4023.1]
   - - [5888, 2368, 1, 128]
-    - [803, 4424.62]
+    - [830, 4424.52]
   - - [128, 5056, 1, 3328]
-    - [815, 6692.16]
+    - [842, 6692.06]
   - - [3584, 6784, 1, 1280]
-    - [813, 9488.64]
+    - [840, 9488.54]
   - - [4288, 1856, 1, 256]
-    - [823, 8287.52]
+    - [850, 8287.42]
   - - [1856, 5888, 1, 256]
-    - [834, 7707.83]
+    - [861, 7707.73]
   - - [256, 256, 1, 256]
-    - [781, 1613.29]
+    - [808, 1613.19]
   - - [4288, 4288, 1, 3328]
-    - [823, 8923.59]
+    - [850, 8923.49]
   - - [1024, 1024, 1, 128]
-    - [803, 2553.71]
+    - [830, 2553.61]
   - - [4288, 1408, 1, 1280]
-    - [823, 8930.47]
+    - [850, 8930.37]
   - - [3584, 5056, 1, 128]
-    - [807, 4495.15]
+    - [834, 4495.05]
   - - [4, 1024, 1, 3328]
-    - [763, 415.694]
+    - [790, 415.594]
   - - [4, 704, 1, 128]
-    - [851, 13.9634]
+    - [878, 13.8634]
   - - [4288, 2368, 1, 256]
-    - [848, 7135.08]
+    - [875, 7134.98]
   - - [2944, 5056, 1, 1280]
-    - [820, 9118.61]
+    - [847, 9118.51]
   - - [448, 6784, 1, 256]
-    - [844, 5430.31]
+    - [871, 5430.21]
   - - [64, 128, 1, 128]
-    - [727, 83.057]
+    - [754, 82.957]
   - - [1856, 2368, 1, 128]
-    - [803, 4422.75]
+    - [830, 4422.65]
   - - [6784, 2368, 1, 3328]
-    - [816, 8769.4]
+    - [843, 8769.3]
   - - [1408, 6784, 1, 128]
-    - [803, 4739.0]
+    - [830, 4738.9]
   - - [256, 1024, 1, 1280]
-    - [825, 5722.21]
+    - [852, 5722.11]
   - - [704, 4, 1, 128]
-    - [851, 8.66578]
+    - [878, 8.56578]
   - - [1408, 4, 1, 128]
-    - [851, 26.1439]
+    - [878, 26.0439]
   - - [4288, 128, 1, 256]
-    - [825, 4865.38]
+    - [852, 4865.28]
   - - [4288, 1856, 1, 3328]
-    - [812, 9250.04]
+    - [839, 9249.94]
   - - [3584, 448, 1, 128]
-    - [803, 3029.59]
+    - [830, 3029.49]
   - - [64, 4288, 1, 128]
-    - [720, 1535.38]
+    - [747, 1535.28]
   - - [64, 448, 1, 3328]
-    - [790, 3457.36]
+    - [817, 3457.26]
   - - [448, 4, 1, 3328]
-    - [768, 367.328]
+    - [795, 367.228]
   - - [256, 4, 1, 3328]
-    - [859, 320.389]
+    - [886, 320.289]
   - - [4, 1408, 1, 1280]
-    - [856, 344.039]
+    - [883, 343.939]
   - - [3584, 64, 1, 1280]
-    - [744, 5191.07]
+    - [771, 5190.97]
   - - [1408, 448, 1, 128]
-    - [804, 2218.24]
+    - [831, 2218.14]
   - - [3584, 1024, 1, 1280]
-    - [826, 8253.11]
+    - [853, 8253.01]
   - - [1856, 5056, 1, 256]
-    - [844, 7552.55]
+    - [871, 7552.45]
   - - [4, 3584, 1, 256]
-    - [763, 325.456]
+    - [790, 325.356]
   - - [6784, 4288, 1, 3328]
-    - [819, 8655.34]
+    - [846, 8655.24]
   - - [4, 2944, 1, 1280]
-    - [763, 547.821]
+    - [790, 547.721]
   - - [1024, 4288, 1, 256]
-    - [820, 7788.83]
+    - [847, 7788.73]
   - - [5888, 3584, 1, 3328]
-    - [823, 9173.39]
+    - [850, 9173.29]
   - - [1856, 4, 1, 256]
-    - [854, 282.919]
+    - [881, 282.819]
   - - [4, 256, 1, 256]
-    - [763, 49.7485]
+    - [790, 49.6485]
   - - [5056, 3584, 1, 3328]
-    - [829, 8457.53]
+    - [856, 8457.43]
   - - [1408, 128, 1, 3328]
-    - [783, 5714.52]
+    - [810, 5714.42]
   - - [4, 64, 1, 1280]
-    - [859, 42.7667]
+    - [886, 42.6667]
   - - [2368, 1408, 1, 1280]
-    - [820, 8224.92]
+    - [847, 8224.82]
   - - [5056, 2944, 1, 1280]
-    - [812, 9295.13]
+    - [839, 9295.03]
   - - [8448, 6000, 1, 2816]
-    - [816, 8037.97]
+    - [843, 8037.87]
   - - [4, 4, 1, 128]
-    - [851, 0.1433898]
+    - [878, 0.0433898]
   - - [3584, 256, 1, 256]
-    - [815, 6116.79]
+    - [842, 6116.69]
   - - [3584, 2944, 1, 1280]
-    - [812, 8796.49]
+    - [839, 8796.39]
   - - [1024, 6784, 1, 256]
-    - [819, 8187.86]
+    - [846, 8187.76]
   - - [4, 128, 1, 256]
-    - [763, 30.4407]
+    - [790, 30.3407]
   - - [6784, 448, 1, 256]
-    - [815, 7862.3]
+    - [842, 7862.2]
   - - [5124, 9124, 1, 2048]
-    - [817, 8176.41]
+    - [844, 8176.31]
   - - [2944, 5056, 1, 3328]
-    - [812, 9328.34]
+    - [839, 9328.24]
   - - [6784, 4, 1, 128]
-    - [850, 204.9]
+    - [877, 204.8]
   - - [2944, 1408, 1, 128]
-    - [801, 3838.2]
+    - [828, 3838.1]
   - - [448, 128, 1, 3328]
-    - [766, 4632.16]
+    - [793, 4632.06]
   - - [64, 2944, 1, 3328]
-    - [783, 5663.47]
+    - [810, 5663.37]
   - - [5056, 6784, 1, 3328]
-    - [819, 8420.17]
+    - [846, 8420.07]
   - - [704, 2368, 1, 128]
-    - [803, 3321.79]
+    - [830, 3321.69]
   - - [3072, 1500, 1, 1024]
-    - [820, 8221.77]
+    - [847, 8221.67]
   - - [128, 2944, 1, 256]
-    - [815, 4550.52]
+    - [842, 4550.42]
   - - [128, 6784, 1, 128]
-    - [720, 2767.76]
+    - [747, 2767.66]
   - - [3584, 4288, 1, 256]
-    - [819, 8808.64]
+    - [846, 8808.54]
   - - [448, 1856, 1, 256]
-    - [824, 5166.63]
+    - [851, 5166.53]
   - - [1856, 6784, 1, 3328]
-    - [816, 8339.76]
+    - [843, 8339.66]
   - - [3584, 128, 1, 3328]
-    - [825, 6791.57]
+    - [852, 6791.47]
   - - [64, 1856, 1, 256]
-    - [747, 2210.03]
+    - [774, 2209.93]
   - - [64, 448, 1, 256]
-    - [779, 1008.35]
+    - [806, 1008.25]
   - - [5888, 4288, 1, 256]
-    - [819, 8869.63]
+    - [846, 8869.53]
   - - [128, 1500, 1, 1280]
-    - [776, 4733.54]
+    - [803, 4733.44]
   - - [5056, 1408, 1, 256]
-    - [817, 7523.31]
+    - [844, 7523.21]
   - - [35, 8457, 1, 4096]
-    - [710, 4023.17]
+    - [737, 4023.07]
   - - [64, 256, 1, 1280]
-    - [771, 1941.91]
+    - [798, 1941.81]
   - - [2944, 4, 1, 128]
-    - [850, 95.7426]
+    - [877, 95.6426]
   - - [3584, 1024, 1, 256]
-    - [842, 6553.68]
+    - [869, 6553.58]
   - - [512, 6000, 1, 1536]
-    - [816, 7357.25]
+    - [843, 7357.15]
   - - [256, 704, 1, 256]
-    - [815, 2912.81]
+    - [842, 2912.71]
   - - [5888, 5888, 1, 256]
-    - [826, 8802.7]
+    - [853, 8802.6]
   - - [4288, 1024, 1, 1280]
-    - [819, 8248.83]
+    - [846, 8248.73]
   - - [5888, 128, 1, 3328]
-    - [769, 6848.59]
+    - [796, 6848.49]
   - - [448, 6784, 1, 3328]
-    - [815, 8343.78]
+    - [842, 8343.68]
   - - [2944, 1408, 1, 1280]
-    - [812, 9229.48]
+    - [839, 9229.38]
   - - [3072, 6000, 1, 1024]
-    - [833, 9015.01]
+    - [860, 9014.91]
   - - [1024, 32, 1, 512]
-    - [754, 1498.07]
+    - [781, 1497.97]
   - - [2944, 1856, 1, 3328]
-    - [829, 7176.48]
+    - [856, 7176.38]
   - - [2368, 64, 1, 128]
-    - [720, 1206.48]
+    - [747, 1206.38]
   - - [256, 1024, 1, 128]
-    - [797, 1178.28]
+    - [824, 1178.18]
   - - [3584, 5888, 1, 1280]
-    - [819, 9023.58]
+    - [846, 9023.48]
   - - [64, 4, 1, 128]
-    - [851, 1.089372]
+    - [878, 0.989372]
   - - [6784, 1856, 1, 1280]
-    - [813, 8964.51]
+    - [840, 8964.41]
   - - [2944, 5056, 1, 256]
-    - [819, 8860.12]
+    - [846, 8860.02]
   - - [5888, 256, 1, 3328]
-    - [830, 8308.66]
+    - [857, 8308.56]
   - - [2944, 4288, 1, 128]
-    - [798, 4507.61]
+    - [825, 4507.51]
   - - [3584, 1408, 1, 256]
-    - [813, 8234.71]
+    - [840, 8234.61]
   - - [704, 3584, 1, 3328]
-    - [825, 7377.26]
+    - [852, 7377.16]
   - - [5056, 448, 1, 1280]
-    - [814, 7145.47]
+    - [841, 7145.37]
   - - [3584, 1856, 1, 3328]
-    - [830, 8954.81]
+    - [857, 8954.71]
   - - [64, 1408, 1, 128]
-    - [727, 731.974]
+    - [754, 731.874]
   - - [4288, 6784, 1, 1280]
-    - [819, 9166.55]
+    - [846, 9166.45]
   - - [1024, 3000, 1, 2048]
-    - [830, 7723.83]
+    - [857, 7723.73]
   - - [1408, 704, 1, 1280]
-    - [820, 7863.1]
+    - [847, 7863.0]
   - - [2944, 1024, 1, 256]
-    - [813, 5035.02]
+    - [840, 5034.92]
   - - [256, 64, 1, 128]
-    - [719, 150.757]
+    - [746, 150.657]
   - - [2368, 4288, 1, 3328]
-    - [817, 8568.84]
+    - [844, 8568.74]
   - - [4, 1408, 1, 256]
-    - [763, 219.885]
+    - [790, 219.785]
   - - [1024, 1408, 1, 1280]
-    - [845, 6761.13]
+    - [872, 6761.03]
   - - [64, 64, 1, 256]
-    - [745, 198.694]
+    - [772, 198.594]
   - - [704, 256, 1, 3328]
-    - [815, 4291.62]
+    - [842, 4291.52]
   - - [6784, 5056, 1, 256]
-    - [814, 8545.02]
+    - [841, 8544.92]
   - - [1856, 1856, 1, 128]
-    - [802, 4034.93]
+    - [829, 4034.83]
   - - [4288, 5888, 1, 256]
-    - [833, 8998.05]
+    - [860, 8997.95]
   - - [4, 704, 1, 3328]
-    - [768, 452.4]
+    - [795, 452.3]
   - - [35, 8457, 1, 2048]
-    - [711, 3375.37]
+    - [738, 3375.27]
   - - [448, 2944, 1, 256]
-    - [815, 6346.74]
+    - [842, 6346.64]
   - - [4, 4288, 1, 3328]
-    - [768, 630.978]
+    - [795, 630.878]
   - - [2944, 6784, 1, 256]
-    - [842, 8002.92]
+    - [869, 8002.82]
   - - [2944, 2944, 1, 128]
-    - [797, 4661.41]
+    - [824, 4661.31]
   - - [4, 4, 1, 1280]
-    - [768, 3.14762]
+    - [795, 3.04762]
   - - [1856, 3584, 1, 1280]
-    - [812, 8677.66]
+    - [839, 8677.56]
   - - [64, 2944, 1, 256]
-    - [815, 2926.95]
+    - [842, 2926.85]
   - - [3584, 1408, 1, 1280]
-    - [826, 8238.9]
+    - [853, 8238.8]
   - - [448, 256, 1, 128]
-    - [727, 1042.72]
+    - [754, 1042.62]
   - - [4288, 448, 1, 128]
-    - [803, 3698.82]
+    - [830, 3698.72]
   - - [5056, 256, 1, 1280]
-    - [820, 7058.5]
+    - [847, 7058.4]
   - - [1856, 1408, 1, 3328]
-    - [817, 8348.35]
+    - [844, 8348.25]
   - - [128, 128, 1, 128]
-    - [727, 145.736]
+    - [754, 145.636]
   - - [1024, 4288, 1, 3328]
-    - [813, 8042.61]
+    - [840, 8042.51]
   - - [448, 2368, 1, 256]
-    - [825, 5935.0]
+    - [852, 5934.9]
   - - [1024, 4, 1, 128]
-    - [851, 15.93]
+    - [878, 15.83]
   - - [64, 1408, 1, 1280]
-    - [749, 3865.49]
+    - [776, 3865.39]
   - - [64, 6784, 1, 1280]
-    - [845, 5629.61]
+    - [872, 5629.51]
   - - [5056, 448, 1, 256]
-    - [815, 7637.91]
+    - [842, 7637.81]
   - - [2944, 2368, 1, 3328]
-    - [823, 9112.44]
+    - [850, 9112.34]
   - - [704, 4288, 1, 3328]
-    - [815, 7950.2]
+    - [842, 7950.1]
   - - [1408, 128, 1, 256]
-    - [815, 2898.17]
+    - [842, 2898.07]
   - - [1024, 1856, 1, 1280]
-    - [813, 8087.51]
+    - [840, 8087.41]
   - - [6784, 1856, 1, 256]
-    - [844, 7538.25]
+    - [871, 7538.15]
   - - [512, 48000, 1, 2816]
-    - [812, 9704.21]
+    - [839, 9704.11]
   - - [512, 3000, 1, 2816]
-    - [814, 7621.63]
+    - [841, 7621.53]
   - - [128, 2368, 1, 3328]
-    - [777, 6038.94]
+    - [804, 6038.84]
   - - [1024, 5888, 1, 256]
-    - [829, 8185.82]
+    - [856, 8185.72]
   - - [64, 2944, 1, 1280]
-    - [776, 4540.24]
+    - [803, 4540.14]
   - - [6784, 1408, 1, 256]
-    - [829, 8574.0]
+    - [856, 8573.9]
   - - [5056, 64, 1, 3328]
-    - [777, 6310.97]
+    - [804, 6310.87]
   - - [128, 704, 1, 128]
-    - [716, 696.618]
+    - [743, 696.518]
   - - [1408, 2368, 1, 256]
-    - [815, 4995.06]
+    - [842, 4994.96]
   - - [1408, 1408, 1, 256]
-    - [812, 7552.34]
+    - [839, 7552.24]
   - - [4, 64, 1, 128]
-    - [850, 1.90441]
+    - [877, 1.80441]
   - - [64, 128, 1, 1280]
-    - [789, 1272.64]
+    - [816, 1272.54]
   - - [1024, 8, 1, 500000]
-    - [697, 2013.23]
+    - [724, 2013.13]
   - - [4, 2368, 1, 128]
-    - [851, 49.9526]
+    - [878, 49.8526]
   - - [2368, 2368, 1, 128]
-    - [802, 4483.8]
+    - [829, 4483.7]
   - - [64, 5888, 1, 128]
-    - [719, 1957.67]
+    - [746, 1957.57]
   - - [5888, 4, 1, 3328]
-    - [852, 638.798]
+    - [879, 638.698]
   - - [6784, 1408, 1, 128]
-    - [797, 4715.61]
+    - [824, 4715.51]
   - - [1408, 5056, 1, 256]
-    - [829, 8557.67]
+    - [856, 8557.57]
   - - [512, 50176, 1, 128]
-    - [860, 8809.39]
+    - [887, 8809.29]
   - - [5056, 128, 1, 3328]
-    - [752, 6810.66]
+    - [779, 6810.56]
   - - [128, 128, 1, 1280]
-    - [786, 1899.69]
+    - [813, 1899.59]
   - - [512, 2, 1, 512]
-    - [706, 87.4813]
+    - [733, 87.3813]
   - - [448, 704, 1, 256]
-    - [825, 3765.97]
+    - [852, 3765.87]
   - - [4288, 3584, 1, 128]
-    - [810, 4563.77]
+    - [837, 4563.67]
   - - [2944, 128, 1, 3328]
-    - [752, 6507.45]
+    - [779, 6507.35]
   - - [128, 5056, 1, 1280]
-    - [815, 6557.85]
+    - [842, 6557.75]
   - - [3584, 5056, 1, 1280]
-    - [812, 9407.93]
+    - [839, 9407.83]
   - - [256, 448, 1, 1280]
-    - [776, 4096.1]
+    - [803, 4096.0]
   - - [704, 704, 1, 128]
-    - [802, 2374.31]
+    - [829, 2374.21]
   - - [5056, 4, 1, 128]
-    - [850, 125.52]
+    - [877, 125.42]
   - - [704, 256, 1, 1280]
-    - [825, 4016.23]
+    - [852, 4016.13]
   - - [64, 2368, 1, 3328]
-    - [782, 5159.29]
+    - [809, 5159.19]
   - - [1856, 1024, 1, 128]
-    - [802, 3356.47]
+    - [829, 3356.37]
   - - [1856, 64, 1, 128]
-    - [719, 945.644]
+    - [746, 945.544]
   - - [4096, 64, 1, 4096]
-    - [785, 6260.24]
+    - [812, 6260.14]
   - - [1024, 24000, 1, 1536]
-    - [829, 9368.5]
+    - [856, 9368.4]
   - - [704, 4288, 1, 256]
-    - [826, 7329.39]
+    - [853, 7329.29]
   - - [5888, 2368, 1, 1280]
-    - [815, 8624.71]
+    - [842, 8624.61]
   - - [6784, 1856, 1, 3328]
-    - [819, 9012.45]
+    - [846, 9012.35]
   - - [64, 128, 1, 256]
-    - [745, 374.591]
+    - [772, 374.491]
   - - [2368, 5888, 1, 1280]
-    - [813, 9045.76]
+    - [840, 9045.66]
   - - [5888, 256, 1, 1280]
-    - [830, 7999.17]
+    - [857, 7999.07]
   - - [4, 5888, 1, 1280]
-    - [763, 615.839]
+    - [790, 615.739]
   - - [704, 128, 1, 128]
-    - [719, 693.269]
+    - [746, 693.169]
   - - [1024, 4, 1, 1280]
-    - [858, 372.464]
+    - [885, 372.364]
   - - [2368, 1856, 1, 3328]
-    - [830, 8246.91]
+    - [857, 8246.81]
   - - [2368, 128, 1, 128]
-    - [720, 1963.53]
+    - [747, 1963.43]
   - - [2944, 704, 1, 256]
-    - [830, 7116.24]
+    - [857, 7116.14]
   - - [5056, 128, 1, 128]
-    - [723, 2519.49]
+    - [750, 2519.39]
   - - [2368, 1024, 1, 3328]
-    - [815, 7959.13]
+    - [842, 7959.03]
   - - [35, 700, 1, 2048]
-    - [711, 1766.86]
+    - [738, 1766.76]
   - - [256, 704, 1, 3328]
-    - [815, 4296.56]
+    - [842, 4296.46]
   - - [704, 3584, 1, 256]
-    - [814, 7441.61]
+    - [841, 7441.51]
   - - [704, 2944, 1, 3328]
-    - [831, 7195.81]
+    - [858, 7195.71]
   - - [6784, 1024, 1, 128]
-    - [802, 4509.18]
+    - [829, 4509.08]
   - - [256, 448, 1, 128]
-    - [727, 838.003]
+    - [754, 837.903]
   - - [448, 1024, 1, 3328]
-    - [825, 6515.65]
+    - [852, 6515.55]
   - - [2944, 1024, 1, 3328]
-    - [820, 8751.63]
+    - [847, 8751.53]
   - - [2944, 5056, 1, 128]
-    - [797, 4799.73]
+    - [824, 4799.63]
   - - [2368, 256, 1, 256]
-    - [814, 4754.67]
+    - [841, 4754.57]
   - - [1408, 6784, 1, 256]
-    - [842, 7477.09]
+    - [869, 7476.99]
   - - [6784, 1408, 1, 3328]
-    - [820, 8968.57]
+    - [847, 8968.47]
   - - [4288, 6784, 1, 128]
-    - [795, 4455.74]
+    - [822, 4455.64]
   - - [1408, 2944, 1, 128]
-    - [807, 3862.79]
+    - [834, 3862.69]
   - - [704, 64, 1, 256]
-    - [746, 1441.89]
+    - [773, 1441.79]
   - - [3072, 4, 1, 1024]
-    - [764, 711.803]
+    - [791, 711.703]
   - - [256, 2368, 1, 3328]
-    - [839, 5199.73]
+    - [866, 5199.63]
   - - [6784, 2944, 1, 1280]
-    - [823, 8914.45]
+    - [850, 8914.35]
   - - [4288, 1856, 1, 128]
-    - [803, 4683.3]
+    - [830, 4683.2]
   - - [1856, 2944, 1, 128]
-    - [797, 4589.34]
+    - [824, 4589.24]
   - - [6784, 448, 1, 128]
-    - [797, 3918.53]
+    - [824, 3918.43]
   - - [64, 3584, 1, 128]
-    - [728, 1468.11]
+    - [755, 1468.01]
   - - [448, 5056, 1, 1280]
-    - [820, 7561.4]
+    - [847, 7561.3]
   - - [4288, 5056, 1, 1280]
-    - [812, 9304.11]
+    - [839, 9304.01]
   - - [2368, 1856, 1, 128]
-    - [802, 4322.17]
+    - [829, 4322.07]
   - - [128, 448, 1, 1280]
-    - [782, 3336.48]
+    - [809, 3336.38]
   - - [4288, 704, 1, 256]
-    - [825, 7834.65]
+    - [852, 7834.55]
   - - [256, 3584, 1, 128]
-    - [798, 2500.96]
+    - [825, 2500.86]
   - - [5888, 704, 1, 256]
-    - [844, 7244.49]
+    - [871, 7244.39]
   - - [3584, 1024, 1, 128]
-    - [809, 3169.03]
+    - [836, 3168.93]
   - - [256, 5888, 1, 3328]
-    - [830, 7763.47]
+    - [857, 7763.37]
   - - [1408, 4288, 1, 3328]
-    - [812, 9273.8]
+    - [839, 9273.7]
   - - [6784, 4288, 1, 256]
-    - [820, 8825.2]
+    - [847, 8825.1]
   - - [4288, 256, 1, 128]
-    - [799, 2621.54]
+    - [826, 2621.44]
   - - [448, 1856, 1, 3328]
-    - [840, 5859.8]
+    - [867, 5859.7]
   - - [5888, 256, 1, 256]
-    - [830, 7124.84]
+    - [857, 7124.74]
   - - [1024, 4, 1, 500000]
-    - [695, 1030.2]
+    - [722, 1030.1]
   - - [6784, 1024, 1, 1280]
-    - [812, 9083.11]
+    - [839, 9083.01]
   - - [5888, 1024, 1, 128]
-    - [799, 4297.16]
+    - [826, 4297.06]
   - - [1024, 128, 1, 256]
-    - [815, 2086.82]
+    - [842, 2086.72]
   - - [512, 16, 1, 500000]
-    - [696, 3921.96]
+    - [723, 3921.86]
   - - [128, 64, 1, 3328]
-    - [786, 1969.97]
+    - [813, 1969.87]
   - - [448, 64, 1, 256]
-    - [771, 1092.37]
+    - [798, 1092.27]
   - - [2368, 256, 1, 128]
-    - [802, 2174.84]
+    - [829, 2174.74]
   - - [6784, 3584, 1, 1280]
-    - [812, 9558.82]
+    - [839, 9558.72]
   - - [1024, 6784, 1, 1280]
-    - [821, 8637.72]
+    - [848, 8637.62]
   - - [2944, 64, 1, 1280]
-    - [743, 4770.13]
+    - [770, 4770.03]
   - - [1408, 2944, 1, 1280]
-    - [812, 9238.47]
+    - [839, 9238.37]
   - - [256, 1856, 1, 256]
-    - [838, 4498.43]
+    - [865, 4498.33]
   - - [1408, 2368, 1, 3328]
-    - [820, 8344.97]
+    - [847, 8344.87]
   - - [2944, 4, 1, 3328]
-    - [855, 661.209]
+    - [882, 661.109]
   - - [128, 1408, 1, 3328]
-    - [783, 5641.42]
+    - [810, 5641.32]
   - - [2944, 1856, 1, 128]
-    - [797, 4488.04]
+    - [824, 4487.94]
   - - [256, 2944, 1, 128]
-    - [807, 2233.18]
+    - [834, 2233.08]
   - - [256, 6784, 1, 128]
-    - [796, 3139.9]
+    - [823, 3139.8]
   - - [2368, 4, 1, 128]
-    - [851, 38.7612]
+    - [878, 38.6612]
   - - [1408, 256, 1, 3328]
-    - [847, 4927.67]
+    - [874, 4927.57]
   - - [1856, 4, 1, 128]
-    - [851, 42.3719]
+    - [878, 42.2719]
   - - [1024, 16, 1, 512]
-    - [763, 1115.61]
+    - [790, 1115.51]
   - - [5056, 6784, 1, 128]
-    - [798, 4963.45]
+    - [825, 4963.35]
   - - [4288, 5056, 1, 128]
-    - [796, 4928.09]
+    - [823, 4927.99]
   - - [1856, 5888, 1, 128]
-    - [803, 4865.15]
+    - [830, 4865.05]
   - - [7680, 2, 1, 2560]
-    - [739, 499.612]
+    - [766, 499.512]
   - - [3584, 1856, 1, 256]
-    - [829, 7978.38]
+    - [856, 7978.28]
   - - [4288, 3584, 1, 1280]
-    - [829, 7852.26]
+    - [856, 7852.16]
   - - [2368, 448, 1, 256]
-    - [844, 5238.93]
+    - [871, 5238.83]
   - - [4288, 256, 1, 3328]
-    - [815, 6751.34]
+    - [842, 6751.24]
   - - [1856, 704, 1, 128]
-    - [797, 3525.56]
+    - [824, 3525.46]
   - - [1408, 64, 1, 256]
-    - [756, 1884.8]
+    - [783, 1884.7]
   - - [64, 1856, 1, 128]
-    - [733, 888.205]
+    - [760, 888.105]
   - - [4, 256, 1, 128]
-    - [850, 7.38178]
+    - [877, 7.28178]
   - - [512, 16, 1, 512]
-    - [763, 663.756]
+    - [790, 663.656]
   - - [704, 5888, 1, 128]
-    - [797, 4424.55]
+    - [824, 4424.45]
   - - [6784, 3584, 1, 128]
-    - [799, 3823.4]
+    - [826, 3823.3]
   - - [1024, 64, 1, 256]
-    - [741, 1379.81]
+    - [768, 1379.71]
   - - [64, 2368, 1, 256]
-    - [815, 2424.93]
+    - [842, 2424.83]
   - - [5124, 1500, 1, 2048]
-    - [833, 8391.84]
+    - [860, 8391.74]
   - - [4288, 5056, 1, 3328]
-    - [819, 9274.14]
+    - [846, 9274.04]
   - - [4, 1856, 1, 1280]
-    - [763, 453.474]
+    - [790, 453.374]
   - - [4288, 128, 1, 128]
-    - [797, 2157.8]
+    - [824, 2157.7]
   - - [512, 2, 1, 500000]
-    - [707, 516.895]
+    - [734, 516.795]
   - - [1408, 1408, 1, 128]
-    - [798, 3600.49]
+    - [825, 3600.39]
   - - [7680, 16, 1, 2560]
-    - [778, 3542.59]
+    - [805, 3542.49]
   - - [1856, 128, 1, 128]
-    - [730, 1532.8]
+    - [757, 1532.7]
   - - [5056, 2368, 1, 256]
-    - [842, 7684.07]
+    - [869, 7683.97]
   - - [4288, 704, 1, 3328]
-    - [815, 7642.96]
+    - [842, 7642.86]
   - - [448, 3584, 1, 256]
-    - [825, 6734.07]
+    - [852, 6733.97]
   - - [2368, 64, 1, 1280]
-    - [776, 3962.24]
+    - [803, 3962.14]
   - - [2368, 1024, 1, 1280]
-    - [827, 7989.64]
+    - [854, 7989.54]
   - - [2944, 1408, 1, 3328]
-    - [830, 8954.66]
+    - [857, 8954.56]
   - - [6144, 1500, 1, 2560]
-    - [848, 8170.07]
+    - [875, 8169.97]
   - - [4224, 1, 1, 128]
-    - [779, 76.9]
+    - [806, 76.8]
   - - [1024, 1408, 1, 3328]
-    - [845, 6961.38]
+    - [872, 6961.28]
   - - [2944, 5888, 1, 1280]
-    - [826, 8797.53]
+    - [853, 8797.43]
   - - [8448, 2, 1, 2816]
-    - [701, 496.958]
+    - [728, 496.858]
   - - [1408, 4, 1, 1280]
-    - [856, 471.891]
+    - [883, 471.791]
   - - [5888, 3584, 1, 256]
-    - [833, 8246.3]
+    - [860, 8246.2]
   - - [2368, 5056, 1, 128]
-    - [796, 4906.9]
+    - [823, 4906.8]
   - - [1408, 1856, 1, 3328]
-    - [820, 9006.8]
+    - [847, 9006.7]
   - - [4, 4, 1, 3328]
-    - [768, 5.83793]
+    - [795, 5.73793]
   - - [5888, 5056, 1, 3328]
-    - [833, 8545.1]
+    - [860, 8545.0]
   - - [7680, 6000, 1, 2560]
-    - [826, 7996.0]
+    - [853, 7995.9]
   - - [6784, 1408, 1, 1280]
-    - [820, 8888.13]
+    - [847, 8888.03]
   - - [4, 1024, 1, 1280]
-    - [768, 302.109]
+    - [795, 302.009]
   - - [512, 3000, 1, 2560]
-    - [820, 7809.43]
+    - [847, 7809.33]
   - - [704, 2944, 1, 256]
-    - [825, 4909.24]
+    - [852, 4909.14]
   - - [4288, 64, 1, 256]
-    - [825, 3264.72]
+    - [852, 3264.62]
   - - [6784, 5888, 1, 3328]
-    - [833, 9544.52]
+    - [860, 9544.42]
   - - [2368, 4288, 1, 128]
-    - [796, 4873.03]
+    - [823, 4872.93]
   - - [64, 4288, 1, 1280]
-    - [782, 4656.42]
+    - [809, 4656.32]
   - - [6784, 64, 1, 1280]
-    - [815, 6230.43]
+    - [842, 6230.33]
   - - [3584, 128, 1, 128]
-    - [723, 2315.57]
+    - [750, 2315.47]
   - - [1024, 6784, 1, 128]
-    - [797, 3758.94]
+    - [824, 3758.84]
   - - [1024, 1500, 1, 1536]
-    - [846, 6972.0]
+    - [873, 6971.9]
   - - [1408, 64, 1, 3328]
-    - [749, 5079.58]
+    - [776, 5079.48]
   - - [6784, 4, 1, 256]
-    - [735, 487.938]
+    - [762, 487.838]
   - - [1408, 1408, 1, 1280]
-    - [848, 7423.31]
+    - [875, 7423.21]
   - - [256, 2368, 1, 256]
-    - [815, 4986.9]
+    - [842, 4986.8]
   - - [3072, 3000, 1, 1024]
-    - [817, 7844.01]
+    - [844, 7843.91]
   - - [448, 4288, 1, 3328]
-    - [816, 7204.79]
+    - [843, 7204.69]
   - - [2368, 1408, 1, 256]
-    - [848, 5897.96]
+    - [875, 5897.86]
   - - [704, 2368, 1, 256]
-    - [815, 7000.93]
+    - [842, 7000.83]
   - - [1024, 24000, 1, 2560]
-    - [842, 8562.31]
+    - [869, 8562.21]
   - - [2944, 448, 1, 1280]
-    - [830, 7155.93]
+    - [857, 7155.83]
   - - [5888, 2368, 1, 3328]
-    - [829, 9252.42]
+    - [856, 9252.32]
   - - [1024, 256, 1, 128]
-    - [811, 1255.88]
+    - [838, 1255.78]
   - - [5124, 9124, 1, 1760]
-    - [823, 9168.49]
+    - [850, 9168.39]
   - - [448, 1408, 1, 1280]
-    - [815, 6150.34]
+    - [842, 6150.24]
   - - [448, 1856, 1, 1280]
-    - [830, 6489.76]
+    - [857, 6489.66]
   - - [4288, 448, 1, 1280]
-    - [845, 6887.02]
+    - [872, 6886.92]
   - - [5888, 704, 1, 3328]
-    - [825, 8230.64]
+    - [852, 8230.54]
   - - [4, 1856, 1, 128]
-    - [851, 27.0964]
+    - [878, 26.9964]
   - - [5056, 256, 1, 128]
-    - [796, 3469.01]
+    - [823, 3468.91]
   - - [1856, 256, 1, 128]
-    - [797, 2534.16]
+    - [824, 2534.06]
   - - [128, 2368, 1, 256]
-    - [815, 3660.22]
+    - [842, 3660.12]
   - - [704, 4, 1, 256]
-    - [763, 134.596]
+    - [790, 134.496]
   - - [1024, 6784, 1, 3328]
-    - [817, 8482.75]
+    - [844, 8482.65]
   - - [1408, 5888, 1, 128]
-    - [797, 4644.52]
+    - [824, 4644.42]
   - - [4288, 4, 1, 128]
-    - [850, 35.8799]
+    - [877, 35.7799]
   - - [512, 3136, 1, 2048]
-    - [862, 6386.69]
+    - [889, 6386.59]
   - - [1408, 1024, 1, 256]
-    - [815, 5440.82]
+    - [842, 5440.72]
   - - [128, 64, 1, 256]
-    - [745, 380.019]
+    - [772, 379.919]
   - - [8448, 1500, 1, 2816]
-    - [812, 9155.92]
+    - [839, 9155.82]
   - - [256, 704, 1, 128]
-    - [797, 895.623]
+    - [824, 895.523]
   - - [2560, 7000, 1, 2560]
-    - [824, 8565.66]
+    - [851, 8565.56]
   - - [5888, 64, 1, 1280]
-    - [839, 5007.83]
+    - [866, 5007.73]
   - - [128, 4, 1, 3328]
-    - [858, 165.21]
+    - [885, 165.11]
   - - [5056, 6784, 1, 1280]
-    - [823, 9331.48]
+    - [850, 9331.38]
   - - [1024, 448, 1, 1280]
-    - [825, 6501.46]
+    - [852, 6501.36]
   - - [704, 5056, 1, 3328]
-    - [812, 8090.13]
+    - [839, 8090.03]
   - - [128, 5056, 1, 256]
-    - [825, 5537.37]
+    - [852, 5537.27]
   - - [3584, 5056, 1, 3328]
-    - [821, 8633.24]
+    - [848, 8633.14]
   - - [1856, 4, 1, 3328]
-    - [859, 582.814]
+    - [886, 582.714]
   - - [4, 2944, 1, 128]
-    - [850, 114.292]
+    - [877, 114.192]
   - - [2368, 2944, 1, 3328]
-    - [829, 8749.55]
+    - [856, 8749.45]
   - - [448, 448, 1, 1280]
-    - [753, 4694.93]
+    - [780, 4694.83]
   - - [128, 4, 1, 128]
-    - [850, 4.94734]
+    - [877, 4.84734]
   - - [2368, 3584, 1, 256]
-    - [829, 8418.59]
+    - [856, 8418.49]
   - - [4608, 3000, 1, 1536]
-    - [819, 9076.47]
+    - [846, 9076.37]
   - - [1024, 256, 1, 1280]
-    - [825, 5562.84]
+    - [852, 5562.74]
   - - [5056, 3584, 1, 1280]
-    - [819, 8365.09]
+    - [846, 8364.99]
   - - [5124, 9124, 1, 4096]
-    - [829, 8648.58]
+    - [856, 8648.48]
   - - [7680, 48000, 1, 2560]
-    - [823, 4098.26]
+    - [850, 4098.16]
   - - [1856, 704, 1, 1280]
-    - [815, 8141.04]
+    - [842, 8140.94]
   - - [1856, 2944, 1, 1280]
-    - [817, 8214.4]
+    - [844, 8214.3]
   - - [4608, 1500, 1, 1536]
-    - [825, 8424.53]
+    - [852, 8424.43]
   - - [1024, 48000, 1, 2816]
-    - [816, 8513.18]
+    - [843, 8513.08]
   - - [5124, 9124, 1, 2560]
-    - [833, 8641.24]
+    - [860, 8641.14]
   - - [128, 1024, 1, 256]
-    - [747, 2356.45]
+    - [774, 2356.35]
   - - [2944, 1408, 1, 256]
-    - [829, 8254.29]
+    - [856, 8254.19]
   - - [4288, 1408, 1, 3328]
-    - [823, 9138.49]
+    - [850, 9138.39]
   - - [3584, 64, 1, 3328]
-    - [736, 5629.62]
+    - [763, 5629.52]
   - - [5888, 2944, 1, 128]
-    - [797, 4119.33]
+    - [824, 4119.23]
   - - [2944, 1024, 1, 128]
-    - [799, 4002.96]
+    - [826, 4002.86]
   - - [128, 1, 1, 1024]
-    - [793, 20.0805]
+    - [820, 19.9805]
   - - [5124, 700, 1, 2048]
-    - [830, 7653.84]
+    - [857, 7653.74]
   - - [4, 4288, 1, 1280]
-    - [763, 587.749]
+    - [790, 587.649]
   - - [6784, 5056, 1, 128]
-    - [802, 4855.85]
+    - [829, 4855.75]
   - - [256, 1024, 1, 3328]
-    - [825, 6116.28]
+    - [852, 6116.18]
   - - [3584, 4, 1, 256]
-    - [737, 395.576]
+    - [764, 395.476]
   - - [1856, 64, 1, 3328]
-    - [752, 5732.6]
+    - [779, 5732.5]
   - - [4, 128, 1, 3328]
-    - [858, 162.689]
+    - [885, 162.589]
   - - [256, 12544, 1, 1024]
-    - [862, 7628.92]
+    - [889, 7628.82]
   - - [5888, 1408, 1, 3328]
-    - [823, 9524.43]
+    - [850, 9524.33]
   - - [448, 2944, 1, 128]
-    - [797, 3163.91]
+    - [824, 3163.81]
   - - [2368, 1856, 1, 256]
-    - [825, 8167.36]
+    - [852, 8167.26]
   - - [256, 5056, 1, 256]
-    - [815, 7292.13]
+    - [842, 7292.03]
   - - [5056, 5056, 1, 128]
-    - [803, 5043.99]
+    - [830, 5043.89]
   - - [448, 3584, 1, 3328]
-    - [820, 6839.56]
+    - [847, 6839.46]
   - - [4, 5056, 1, 3328]
-    - [768, 639.886]
+    - [795, 639.786]
   - - [256, 256, 1, 128]
-    - [727, 554.902]
+    - [754, 554.802]
   - - [5888, 256, 1, 128]
-    - [799, 3562.47]
+    - [826, 3562.37]
   - - [4, 5056, 1, 128]
-    - [850, 149.907]
+    - [877, 149.807]
   - - [448, 256, 1, 256]
-    - [746, 2121.5]
+    - [773, 2121.4]
   - - [704, 4, 1, 3328]
-    - [856, 455.919]
+    - [883, 455.819]
   - - [1408, 256, 1, 256]
-    - [815, 4352.68]
+    - [842, 4352.58]
   - - [3584, 1856, 1, 128]
-    - [806, 3933.23]
+    - [833, 3933.13]
   - - [4288, 4288, 1, 128]
-    - [797, 4888.61]
+    - [824, 4888.51]
   - - [1856, 1024, 1, 3328]
-    - [833, 8242.64]
+    - [860, 8242.54]
   - - [1856, 4288, 1, 128]
-    - [802, 4647.4]
+    - [829, 4647.3]
   - - [1024, 6000, 1, 2560]
-    - [827, 8526.75]
+    - [854, 8526.65]
   - - [1024, 5056, 1, 256]
-    - [812, 7343.83]
+    - [839, 7343.73]
   - - [5056, 5888, 1, 128]
-    - [801, 4053.5]
+    - [828, 4053.4]
   - - [2368, 1408, 1, 3328]
-    - [815, 8466.2]
+    - [842, 8466.1]
   - - [1024, 48000, 1, 1536]
-    - [833, 9487.74]
+    - [860, 9487.64]
   - - [5888, 448, 1, 256]
-    - [846, 6081.54]
+    - [873, 6081.44]
   - - [5888, 6784, 1, 128]
-    - [798, 4820.27]
+    - [825, 4820.17]
   - - [2368, 4, 1, 3328]
-    - [857, 620.628]
+    - [884, 620.528]
   - - [6784, 5056, 1, 1280]
-    - [842, 8525.5]
+    - [869, 8525.4]
   - - [5056, 704, 1, 1280]
-    - [812, 7933.06]
+    - [839, 7932.96]
   - - [1024, 48000, 1, 2560]
-    - [833, 8877.94]
+    - [860, 8877.84]
   - - [4608, 32, 1, 1536]
-    - [762, 3556.83]
+    - [789, 3556.73]
   - - [1024, 2368, 1, 128]
-    - [805, 2943.75]
+    - [832, 2943.65]
   - - [128, 704, 1, 256]
-    - [746, 2059.8]
+    - [773, 2059.7]
   - - [2368, 448, 1, 3328]
-    - [825, 5290.42]
+    - [852, 5290.32]
   - - [128, 5888, 1, 3328]
-    - [825, 7764.43]
+    - [852, 7764.33]
   - - [448, 128, 1, 1280]
-    - [776, 3373.28]
+    - [803, 3373.18]
   - - [6784, 4, 1, 3328]
-    - [735, 676.063]
+    - [762, 675.963]
   - - [4288, 4, 1, 1280]
-    - [768, 564.775]
+    - [795, 564.675]
   - - [1024, 64, 1, 3328]
-    - [782, 4293.48]
+    - [809, 4293.38]
   - - [3072, 48000, 1, 1024]
-    - [832, 7826.51]
+    - [859, 7826.41]
   - - [256, 4, 1, 128]
-    - [851, 4.93304]
+    - [878, 4.83304]
   - - [1024, 5888, 1, 128]
-    - [810, 3610.46]
+    - [837, 3610.36]
   - - [3584, 5888, 1, 128]
-    - [798, 4722.35]
+    - [825, 4722.25]
   - - [5056, 5888, 1, 256]
-    - [833, 9159.11]
+    - [860, 9159.01]
   - - [2368, 1024, 1, 256]
-    - [825, 7482.71]
+    - [852, 7482.61]
   - - [2944, 1856, 1, 256]
-    - [829, 8209.0]
+    - [856, 8208.9]
   - - [1856, 6784, 1, 1280]
-    - [825, 8205.43]
+    - [852, 8205.33]
   - - [64, 5056, 1, 128]
-    - [720, 2079.35]
+    - [747, 2079.25]
   - - [64, 6784, 1, 128]
-    - [720, 2437.58]
+    - [747, 2437.48]
   - - [448, 704, 1, 128]
-    - [796, 1506.45]
+    - [823, 1506.35]
   - - [4, 1024, 1, 128]
-    - [851, 17.3463]
+    - [878, 17.2463]
   - - [1408, 448, 1, 256]
-    - [815, 5545.45]
+    - [842, 5545.35]
   - - [1408, 704, 1, 128]
-    - [801, 2931.65]
+    - [828, 2931.55]
   - - [64, 256, 1, 3328]
-    - [787, 2816.52]
+    - [814, 2816.42]
   - - [8448, 3000, 1, 2816]
-    - [821, 8872.99]
+    - [848, 8872.89]
   - - [6784, 448, 1, 3328]
-    - [815, 7555.48]
+    - [842, 7555.38]
   - - [5056, 1856, 1, 1280]
-    - [813, 8652.36]
+    - [840, 8652.26]
   - - [1408, 1024, 1, 3328]
-    - [817, 7781.42]
+    - [844, 7781.32]
   - - [2368, 256, 1, 3328]
-    - [821, 5392.06]
+    - [848, 5391.96]
   - - [7680, 1500, 1, 2560]
-    - [819, 8919.72]
+    - [846, 8919.62]
   - - [5888, 3584, 1, 1280]
-    - [819, 9235.85]
+    - [846, 9235.75]
   - - [1856, 3584, 1, 3328]
-    - [830, 8348.83]
+    - [857, 8348.73]
   - - [5888, 128, 1, 1280]
-    - [815, 5928.61]
+    - [842, 5928.51]
   - - [1024, 2944, 1, 256]
-    - [846, 6630.27]
+    - [873, 6630.17]
   - - [448, 6784, 1, 1280]
-    - [827, 8332.45]
+    - [854, 8332.35]
   - - [256, 3584, 1, 1280]
-    - [817, 7140.19]
+    - [844, 7140.09]
   - - [448, 128, 1, 128]
-    - [719, 552.813]
+    - [746, 552.713]
   - - [704, 5056, 1, 256]
-    - [825, 7959.68]
+    - [852, 7959.58]
   - - [3584, 1024, 1, 3328]
-    - [817, 8386.84]
+    - [844, 8386.74]
   - - [2944, 1856, 1, 1280]
-    - [833, 7670.29]
+    - [860, 7670.19]
   - - [128, 256, 1, 128]
-    - [734, 258.37]
+    - [761, 258.27]
   - - [5056, 256, 1, 256]
-    - [825, 5736.77]
+    - [852, 5736.67]
   - - [2944, 4288, 1, 3328]
-    - [812, 8730.8]
+    - [839, 8730.7]
   - - [2368, 3584, 1, 3328]
-    - [814, 8437.71]
+    - [841, 8437.61]
   - - [2944, 704, 1, 1280]
-    - [825, 8342.53]
+    - [852, 8342.43]
   - - [128, 4, 1, 256]
-    - [745, 24.9242]
+    - [772, 24.8242]
   - - [2944, 3584, 1, 1280]
-    - [827, 8322.11]
+    - [854, 8322.01]
   - - [1856, 5888, 1, 1280]
-    - [812, 8911.91]
+    - [839, 8911.81]
   - - [256, 256, 1, 1280]
-    - [776, 3653.67]
+    - [803, 3653.57]
   - - [4608, 24000, 1, 1536]
-    - [826, 8931.06]
+    - [853, 8930.96]
   - - [4288, 1408, 1, 256]
-    - [813, 8338.45]
+    - [840, 8338.35]
   - - [3584, 64, 1, 256]
-    - [825, 3414.07]
+    - [852, 3413.97]
   - - [64, 1856, 1, 3328]
-    - [752, 5460.23]
+    - [779, 5460.13]
   - - [256, 1408, 1, 128]
-    - [796, 1424.09]
+    - [823, 1423.99]
   - - [5888, 1408, 1, 128]
-    - [807, 4177.88]
+    - [834, 4177.78]
   - - [4288, 2368, 1, 1280]
-    - [816, 8596.05]
+    - [843, 8595.95]
   - - [4, 4288, 1, 256]
-    - [852, 370.954]
+    - [879, 370.854]
   - - [256, 4288, 1, 128]
-    - [797, 2907.99]
+    - [824, 2907.89]
   - - [256, 128, 1, 3328]
-    - [790, 3644.88]
+    - [817, 3644.78]
   - - [512, 8, 1, 500000]
-    - [702, 2025.89]
+    - [729, 2025.79]
   - - [6784, 2368, 1, 256]
-    - [815, 8470.41]
+    - [842, 8470.31]
   - - [5888, 128, 1, 128]
-    - [720, 2604.55]
+    - [747, 2604.45]
   - - [1408, 448, 1, 3328]
-    - [825, 6540.62]
+    - [852, 6540.52]
   - - [1024, 24000, 1, 2816]
-    - [842, 8364.03]
+    - [869, 8363.93]
   - - [704, 1024, 1, 1280]
-    - [825, 7277.28]
+    - [852, 7277.18]
   - - [1856, 256, 1, 3328]
-    - [815, 7039.14]
+    - [842, 7039.04]
   - - [1856, 2944, 1, 256]
-    - [824, 8151.59]
+    - [851, 8151.49]
   - - [5056, 1024, 1, 128]
-    - [798, 4422.82]
+    - [825, 4422.72]
   - - [64, 5888, 1, 1280]
-    - [776, 4854.62]
+    - [803, 4854.52]
   - - [7680, 3000, 1, 2560]
-    - [829, 8789.57]
+    - [856, 8789.47]
   - - [4224, 1500, 1, 176]
-    - [825, 7902.14]
+    - [852, 7902.04]
   - - [5124, 700, 1, 2560]
-    - [815, 8232.59]
+    - [842, 8232.49]
   - - [6784, 256, 1, 128]
-    - [796, 3548.92]
+    - [823, 3548.82]
   - - [5888, 704, 1, 128]
-    - [803, 3959.65]
+    - [830, 3959.55]
   - - [6784, 64, 1, 128]
-    - [731, 2150.82]
+    - [758, 2150.72]
   - - [4, 448, 1, 1280]
-    - [856, 268.063]
+    - [883, 267.963]
   - - [1024, 4288, 1, 1280]
-    - [830, 8363.72]
+    - [857, 8363.62]
   - - [2368, 5056, 1, 3328]
-    - [829, 8581.85]
+    - [856, 8581.75]
   - - [448, 4, 1, 128]
-    - [850, 16.8673]
+    - [877, 16.7673]
   - - [4, 256, 1, 3328]
-    - [859, 201.988]
+    - [886, 201.888]
   - - [4288, 1024, 1, 3328]
-    - [825, 8567.72]
+    - [852, 8567.62]
   - - [6144, 48000, 1, 2560]
-    - [833, 3751.68]
+    - [860, 3751.58]
   - - [1024, 5056, 1, 3328]
-    - [812, 9440.66]
+    - [839, 9440.56]
   - - [1024, 1856, 1, 3328]
-    - [833, 8244.36]
+    - [860, 8244.26]
   - - [704, 704, 1, 1280]
-    - [825, 5529.99]
+    - [852, 5529.89]
   - - [128, 2368, 1, 1280]
-    - [782, 5062.38]
+    - [809, 5062.28]
   - - [3584, 4, 1, 128]
-    - [851, 61.5949]
+    - [878, 61.4949]
   - - [3584, 256, 1, 1280]
-    - [849, 6260.24]
+    - [876, 6260.14]
   - - [4, 128, 1, 128]
-    - [850, 1.2587]
+    - [877, 1.1587]
   - - [128, 4288, 1, 3328]
-    - [761, 6186.15]
+    - [788, 6186.05]
   - - [5124, 1500, 1, 2560]
-    - [829, 8432.62]
+    - [856, 8432.52]
   - - [3584, 128, 1, 1280]
-    - [815, 6547.85]
+    - [842, 6547.75]
   - - [4, 256, 1, 1280]
-    - [768, 180.144]
+    - [795, 180.044]
   - - [128, 704, 1, 3328]
-    - [740, 5177.81]
+    - [767, 5177.71]
   - - [4288, 6784, 1, 256]
-    - [813, 9005.34]
+    - [840, 9005.24]
   - - [3584, 2944, 1, 3328]
-    - [830, 8872.27]
+    - [857, 8872.17]
   - - [128, 1856, 1, 256]
-    - [815, 3690.48]
+    - [842, 3690.38]
   - - [64, 4288, 1, 256]
-    - [815, 3007.57]
+    - [842, 3007.47]
   - - [4, 3584, 1, 3328]
-    - [745, 639.99]
+    - [772, 639.89]
   - - [64, 4, 1, 3328]
-    - [859, 98.7074]
+    - [886, 98.6074]
   - - [4, 64, 1, 3328]
-    - [859, 91.9069]
+    - [886, 91.8069]
   - - [35, 700, 1, 2560]
-    - [713, 2397.65]
+    - [740, 2397.55]
   - - [5888, 2944, 1, 256]
-    - [823, 9031.28]
+    - [850, 9031.18]
   - - [4, 2368, 1, 256]
-    - [763, 256.968]
+    - [790, 256.868]
   - - [1856, 64, 1, 256]
-    - [747, 2222.96]
+    - [774, 2222.86]
   - - [5056, 128, 1, 1280]
-    - [815, 6557.85]
+    - [842, 6557.75]
   - - [448, 4288, 1, 1280]
-    - [839, 6891.66]
+    - [866, 6891.56]
   - - [256, 4288, 1, 256]
-    - [815, 6250.51]
+    - [842, 6250.41]
   - - [1024, 4288, 1, 128]
-    - [799, 3951.41]
+    - [826, 3951.31]
   - - [4, 1024, 1, 256]
-    - [763, 182.144]
+    - [790, 182.044]
   - - [5056, 4288, 1, 256]
-    - [819, 8933.43]
+    - [846, 8933.33]
   - - [1024, 448, 1, 256]
-    - [825, 4573.33]
+    - [852, 4573.23]
   - - [1024, 3584, 1, 256]
-    - [820, 7447.18]
+    - [847, 7447.08]
   - - [2944, 128, 1, 1280]
-    - [825, 5417.27]
-  - - [49, 2048, 64, 512]
-    - [868, 5916.91]
+    - [852, 5417.17]
   - - [2560, 32, 1, 2560]
-    - [762, 4076.99]
+    - [789, 4076.89]
   - - [64, 256, 1, 256]
-    - [779, 689.953]
+    - [806, 689.853]
   - - [1024, 4, 1, 512]
-    - [771, 288.17]
+    - [798, 288.07]
   - - [128, 2368, 1, 128]
-    - [725, 1809.68]
+    - [752, 1809.58]
   - - [256, 704, 1, 1280]
-    - [815, 4033.08]
+    - [842, 4032.98]
   - - [64, 2368, 1, 128]
-    - [716, 1165.88]
+    - [743, 1165.78]
   - - [176, 1500, 1, 1408]
-    - [743, 4922.13]
+    - [770, 4922.03]
   - - [448, 5888, 1, 1280]
-    - [825, 7550.21]
+    - [852, 7550.11]
   - - [512, 3000, 1, 2048]
-    - [847, 6562.44]
+    - [874, 6562.34]
   - - [5056, 448, 1, 128]
-    - [797, 3947.97]
+    - [824, 3947.87]
   - - [4288, 704, 1, 1280]
-    - [815, 8243.82]
+    - [842, 8243.72]
   - - [3584, 2944, 1, 128]
-    - [807, 4284.88]
+    - [834, 4284.78]
   - - [6784, 256, 1, 1280]
-    - [815, 7955.21]
+    - [842, 7955.11]
   - - [256, 2944, 1, 1280]
-    - [845, 6691.9]
+    - [872, 6691.8]
   - - [2560, 128, 1, 2560]
-    - [783, 5347.23]
+    - [810, 5347.13]
   - - [2368, 5888, 1, 3328]
-    - [820, 8919.07]
+    - [847, 8918.97]
   - - [4, 64, 1, 256]
-    - [768, 13.1032]
+    - [795, 13.0032]
   - - [704, 1024, 1, 3328]
-    - [845, 6648.12]
+    - [872, 6648.02]
   - - [2368, 1856, 1, 1280]
-    - [831, 8016.51]
+    - [858, 8016.41]
   - - [448, 5056, 1, 3328]
-    - [815, 8231.73]
+    - [842, 8231.63]
   - - [128, 448, 1, 128]
-    - [724, 441.208]
+    - [751, 441.108]
   - - [128, 6784, 1, 256]
-    - [825, 5850.05]
+    - [852, 5849.95]
   - - [512, 4, 1, 500000]
-    - [705, 1027.14]
+    - [732, 1027.04]
   - - [3584, 4288, 1, 128]
-    - [801, 4260.9]
+    - [828, 4260.8]
   - - [64, 448, 1, 128]
-    - [724, 253.554]
+    - [751, 253.454]
   - - [1024, 6000, 1, 2816]
-    - [829, 8886.14]
+    - [856, 8886.04]
   - - [5888, 4288, 1, 3328]
-    - [829, 8968.16]
+    - [856, 8968.06]
   - - [2368, 704, 1, 256]
-    - [845, 4663.24]
+    - [872, 4663.14]
   - - [256, 1856, 1, 3328]
-    - [817, 6480.63]
+    - [844, 6480.53]
   - - [1856, 128, 1, 256]
-    - [815, 3726.66]
+    - [842, 3726.56]
   - - [6784, 128, 1, 128]
-    - [718, 2824.01]
+    - [745, 2823.91]
   - - [3584, 1408, 1, 128]
-    - [801, 3666.78]
+    - [828, 3666.68]
   - - [1856, 5056, 1, 1280]
-    - [812, 8651.36]
+    - [839, 8651.26]
   - - [2944, 1024, 1, 1280]
-    - [823, 8765.21]
+    - [850, 8765.11]
   - - [5056, 4, 1, 256]
-    - [737, 428.688]
+    - [764, 428.588]
   - - [3584, 5888, 1, 3328]
-    - [823, 9347.75]
+    - [850, 9347.65]
   - - [2368, 4288, 1, 256]
-    - [833, 8013.1]
+    - [860, 8013.0]
   - - [1024, 2368, 1, 3328]
-    - [820, 8119.29]
+    - [847, 8119.19]
   - - [128, 3584, 1, 128]
-    - [720, 2584.62]
+    - [747, 2584.52]
   - - [704, 1408, 1, 256]
-    - [825, 6792.27]
+    - [852, 6792.17]
   - - [4096, 128, 1, 4096]
-    - [847, 6624.84]
+    - [874, 6624.74]
   - - [1024, 2944, 1, 128]
-    - [799, 3771.37]
+    - [826, 3771.27]
   - - [1024, 3584, 1, 1280]
-    - [820, 8952.71]
+    - [847, 8952.61]
   - - [4288, 5888, 1, 3328]
-    - [833, 9048.05]
+    - [860, 9047.95]
   - - [4288, 4, 1, 3328]
-    - [738, 615.206]
+    - [765, 615.106]
   - - [4608, 16, 1, 1536]
-    - [742, 2894.94]
+    - [769, 2894.84]
   - - [5888, 64, 1, 128]
-    - [729, 1827.16]
+    - [756, 1827.06]
   - - [4, 5888, 1, 128]
-    - [850, 179.544]
+    - [877, 179.444]
   - - [1024, 2944, 1, 3328]
-    - [821, 8298.77]
+    - [848, 8298.67]
   - - [2048, 64, 1, 2048]
-    - [750, 4963.77]
+    - [777, 4963.67]
   - - [6144, 2, 1, 2560]
-    - [739, 477.88]
+    - [766, 477.78]
   - - [256, 6784, 1, 1280]
-    - [813, 7491.94]
+    - [840, 7491.84]
   - - [1856, 3584, 1, 256]
-    - [825, 7580.6]
+    - [852, 7580.5]
   - - [128, 448, 1, 3328]
-    - [776, 4417.71]
+    - [803, 4417.61]
   - - [6784, 1856, 1, 128]
-    - [804, 4621.74]
+    - [831, 4621.64]
   - - [1024, 1500, 1, 2048]
-    - [825, 6284.5]
+    - [852, 6284.4]
   - - [5056, 128, 1, 256]
-    - [825, 5705.16]
+    - [852, 5705.06]
   - - [512, 24000, 1, 2816]
-    - [812, 8919.85]
+    - [839, 8919.75]
   - - [256, 5888, 1, 1280]
-    - [827, 7978.0]
+    - [854, 7977.9]
   - - [4, 128, 1, 1280]
-    - [768, 94.2609]
+    - [795, 94.1609]
   - - [4288, 6784, 1, 3328]
-    - [833, 9012.58]
+    - [860, 9012.48]
   - - [6784, 128, 1, 1280]
-    - [817, 6807.35]
+    - [844, 6807.25]
   - - [64, 1408, 1, 256]
-    - [746, 2045.19]
+    - [773, 2045.09]
   - - [2368, 1408, 1, 128]
-    - [797, 4340.73]
+    - [824, 4340.63]
   - - [1856, 448, 1, 256]
-    - [846, 3639.99]
+    - [873, 3639.89]
   - - [1408, 1024, 1, 128]
-    - [805, 3417.68]
+    - [832, 3417.58]
   - - [128, 64, 1, 128]
-    - [726, 68.7241]
+    - [753, 68.6241]
   - - [6784, 3584, 1, 3328]
-    - [823, 9425.63]
+    - [850, 9425.53]
   - - [1760, 7000, 1, 1760]
-    - [820, 8780.41]
+    - [847, 8780.31]
   - - [1024, 704, 1, 3328]
-    - [837, 5644.6]
+    - [864, 5644.5]
   - - [64, 64, 1, 128]
-    - [716, 38.2023]
+    - [743, 38.1023]
   - - [2368, 5056, 1, 1280]
-    - [834, 8462.41]
+    - [861, 8462.31]
   - - [64, 4, 1, 1280]
-    - [768, 46.6455]
+    - [795, 46.5455]
   - - [1408, 2368, 1, 1280]
-    - [820, 8235.08]
+    - [847, 8234.98]
   - - [128, 1408, 1, 1280]
-    - [782, 4491.66]
+    - [809, 4491.56]
   - - [1024, 1, 1, 512]
-    - [786, 82.02]
+    - [813, 81.92]
   - - [4, 1408, 1, 128]
-    - [850, 56.42]
+    - [877, 56.32]
   - - [704, 4288, 1, 128]
-    - [804, 3942.96]
+    - [831, 3942.86]
   - - [128, 1856, 1, 3328]
-    - [770, 6111.93]
+    - [797, 6111.83]
   - - [2944, 2944, 1, 256]
-    - [829, 8640.22]
+    - [856, 8640.12]
   - - [2944, 4, 1, 1280]
-    - [763, 554.265]
+    - [790, 554.165]
   - - [5888, 4, 1, 256]
-    - [745, 435.744]
+    - [772, 435.644]
   - - [6784, 256, 1, 256]
-    - [825, 7025.96]
+    - [852, 7025.86]
   - - [256, 5056, 1, 3328]
-    - [825, 8249.57]
+    - [852, 8249.47]
   - - [128, 4288, 1, 1280]
-    - [815, 5561.74]
+    - [842, 5561.64]
   - - [5056, 1856, 1, 128]
-    - [809, 3975.28]
+    - [836, 3975.18]
   - - [1024, 3000, 1, 1536]
-    - [830, 8544.54]
+    - [857, 8544.44]
   - - [5056, 1024, 1, 3328]
-    - [823, 9361.47]
+    - [850, 9361.37]
   - - [128, 128, 1, 256]
-    - [775, 699.151]
+    - [802, 699.051]
   - - [1760, 64, 1, 1760]
-    - [743, 4956.26]
+    - [770, 4956.16]
   - - [4288, 3584, 1, 3328]
-    - [843, 7506.18]
+    - [870, 7506.08]
   - - [448, 704, 1, 3328]
-    - [815, 4697.66]
+    - [842, 4697.56]
   - - [448, 448, 1, 128]
-    - [732, 1249.62]
+    - [759, 1249.52]
   - - [1024, 2368, 1, 1280]
-    - [825, 7756.44]
+    - [852, 7756.34]
   - - [1856, 704, 1, 3328]
-    - [825, 8340.66]
+    - [852, 8340.56]
   - - [512, 1500, 1, 2560]
-    - [827, 6041.39]
+    - [854, 6041.29]
   - - [5888, 6784, 1, 3328]
-    - [823, 9199.38]
+    - [850, 9199.28]
   - - [704, 4288, 1, 1280]
-    - [817, 8342.06]
+    - [844, 8341.96]
   - - [128, 50176, 1, 512]
-    - [863, 7589.48]
+    - [890, 7589.38]
   - - [704, 256, 1, 256]
-    - [815, 2912.81]
+    - [842, 2912.71]
   - - [1024, 48000, 1, 2048]
-    - [820, 8947.42]
+    - [847, 8947.32]
   - - [4288, 1024, 1, 128]
-    - [796, 4291.75]
+    - [823, 4291.65]
   - - [3136, 64, 128, 64]
-    - [878, 8175.16]
+    - [905, 8175.06]
   - - [784, 128, 128, 512]
-    - [877, 8190.63]
+    - [904, 8190.53]
   - - [784, 512, 256, 128]
-    - [875, 8637.24]
+    - [902, 8637.14]
   - - [3136, 256, 256, 64]
-    - [875, 8663.18]
+    - [902, 8663.08]
   - - [3136, 64, 128, 256]
-    - [873, 8943.56]
+    - [900, 8943.46]
   - - [3136, 64, 256, 64]
-    - [878, 8267.22]
+    - [905, 8267.12]
   - - [784, 512, 128, 128]
-    - [875, 8564.35]
+    - [902, 8564.25]
   - - [784, 128, 256, 512]
-    - [879, 8377.16]
+    - [906, 8377.06]
   - - [3136, 64, 256, 256]
-    - [880, 9033.98]
+    - [907, 9033.88]
   - - [3136, 256, 128, 64]
-    - [875, 8624.56]
+    - [902, 8624.46]
   - - [1024, 256, 1, 1024]
-    - [901, 6331.13]
+    - [928, 6331.03]
   - - [1024, 512, 1, 2048]
-    - [900, 8100.14]
+    - [927, 8100.04]
   - - [512, 200, 1, 512]
-    - [909, 2861.93]
+    - [936, 2861.83]
   - - [4096, 256, 1, 2048]
-    - [892, 8812.82]
+    - [919, 8812.72]
   - - [4096, 512, 1, 1024]
-    - [902, 9068.87]
+    - [929, 9068.77]
   - - [1024, 200, 1, 1024]
-    - [901, 5110.12]
+    - [928, 5110.02]
   - - [1024, 512, 1, 1024]
-    - [894, 7785.35]
+    - [921, 7785.25]
   - - [2048, 256, 1, 4096]
-    - [904, 8438.81]
+    - [931, 8438.71]
   - - [2048, 768, 1, 512]
-    - [886, 8618.53]
+    - [913, 8618.43]
   - - [512, 256, 1, 1024]
-    - [906, 4835.03]
+    - [933, 4834.93]
   - - [512, 768, 1, 2048]
-    - [903, 6909.04]
+    - [930, 6908.94]
   - - [2048, 256, 1, 1024]
-    - [899, 7941.98]
+    - [926, 7941.88]
   - - [1024, 256, 1, 2048]
-    - [896, 6997.9]
+    - [923, 6997.8]
   - - [2048, 200, 1, 512]
-    - [899, 5649.76]
+    - [926, 5649.66]
   - - [4096, 200, 1, 1024]
-    - [897, 6678.93]
+    - [924, 6678.83]
   - - [2048, 200, 1, 4096]
-    - [905, 6706.69]
+    - [932, 6706.59]
   - - [2048, 512, 1, 1024]
-    - [902, 8549.0]
+    - [929, 8548.9]
   - - [1024, 1024, 1, 512]
-    - [897, 8046.73]
+    - [924, 8046.63]
   - - [1024, 200, 1, 4096]
-    - [896, 5884.36]
+    - [923, 5884.26]
   - - [2048, 512, 1, 4096]
-    - [907, 8995.94]
+    - [934, 8995.84]
   - - [4096, 512, 1, 2048]
-    - [902, 9298.18]
+    - [929, 9298.08]
   - - [4096, 1024, 1, 2048]
-    - [884, 9790.77]
+    - [911, 9790.67]
   - - [2048, 1024, 1, 2048]
-    - [885, 9278.9]
+    - [912, 9278.8]
   - - [1024, 200, 1, 512]
-    - [901, 4535.46]
+    - [928, 4535.36]
   - - [1024, 1024, 1, 4096]
-    - [892, 8967.39]
+    - [919, 8967.29]
   - - [2048, 1024, 1, 4096]
-    - [887, 9500.56]
+    - [914, 9500.46]
   - - [4096, 200, 1, 2048]
-    - [893, 7082.68]
+    - [920, 7082.58]
   - - [2048, 200, 1, 1024]
-    - [899, 6212.04]
+    - [926, 6211.94]
   - - [1024, 768, 1, 512]
-    - [900, 7401.81]
+    - [927, 7401.71]
   - - [2048, 512, 1, 512]
-    - [897, 8124.66]
+    - [924, 8124.56]
   - - [2048, 200, 1, 2048]
-    - [899, 6561.9]
+    - [926, 6561.8]
   - - [2048, 256, 1, 2048]
-    - [900, 8224.23]
+    - [927, 8224.13]
   - - [512, 768, 1, 512]
-    - [898, 6469.46]
+    - [925, 6469.36]
   - - [512, 200, 1, 1024]
-    - [901, 3755.74]
+    - [928, 3755.64]
   - - [4096, 1024, 1, 1024]
-    - [884, 9605.95]
+    - [911, 9605.85]
   - - [4096, 256, 1, 4096]
-    - [907, 8961.39]
+    - [934, 8961.29]
   - - [1024, 512, 1, 512]
-    - [900, 7109.09]
+    - [927, 7108.99]
   - - [512, 256, 1, 512]
-    - [908, 4033.08]
+    - [935, 4032.98]
   - - [1024, 256, 1, 4096]
-    - [896, 7326.4]
+    - [923, 7326.3]
   - - [1024, 200, 1, 2048]
-    - [889, 5530.56]
+    - [916, 5530.46]
   - - [2048, 1024, 1, 512]
-    - [890, 8995.93]
+    - [917, 8995.83]
   - - [1024, 1024, 1, 2048]
-    - [897, 8830.21]
+    - [924, 8830.11]
   - - [4096, 256, 1, 1024]
-    - [897, 8581.8]
+    - [924, 8581.7]
   - - [512, 768, 1, 1024]
-    - [898, 6876.01]
+    - [925, 6875.91]
   - - [1024, 512, 1, 4096]
-    - [894, 8484.15]
+    - [921, 8484.05]
   - - [1024, 256, 1, 512]
-    - [891, 5668.08]
+    - [918, 5667.98]
   - - [4096, 200, 1, 4096]
-    - [904, 7018.69]
+    - [931, 7018.59]
   - - [2048, 256, 1, 512]
-    - [904, 7079.09]
+    - [931, 7078.99]
   - - [512, 200, 1, 2048]
-    - [909, 4283.5]
+    - [936, 4283.4]
   - - [1024, 1024, 1, 1024]
-    - [892, 8565.37]
+    - [919, 8565.27]
   - - [2048, 512, 1, 2048]
-    - [892, 8850.59]
+    - [919, 8850.49]
   - - [4096, 1024, 1, 4096]
-    - [885, 9843.28]
+    - [912, 9843.18]
   - - [2048, 1024, 1, 1024]
-    - [890, 9234.21]
+    - [917, 9234.11]
   - - [4096, 384, 1, 2048]
-    - [932, 8892.62]
+    - [959, 8892.52]
   - - [4096, 192, 1, 2048]
-    - [926, 8024.28]
-  - - [289, 160, 64, 768]
-    - [928, 6783.73]
+    - [953, 8024.18]
   - - [1225, 192, 64, 384]
-    - [915, 9373.93]
+    - [942, 9373.83]
   - - [5329, 64, 64, 160]
-    - [919, 9186.79]
-  - - [1225, 64, 64, 288]
-    - [910, 8492.51]
+    - [946, 9186.69]
   - - [1225, 64, 64, 384]
-    - [914, 8735.86]
+    - [941, 8735.76]
   - - [289, 128, 64, 1024]
-    - [929, 7000.3]
+    - [956, 7000.2]
   - - [4096, 320, 1, 1280]
-    - [934, 8302.36]
+    - [961, 8302.26]
   - - [4096, 384, 1, 1536]
-    - [916, 9052.55]
+    - [943, 9052.45]
   - - [4096, 192, 1, 1280]
-    - [931, 7561.95]
-  - - [289, 192, 64, 768]
-    - [927, 7882.6]
-  - - [1225, 48, 64, 256]
-    - [918, 6620.35]
+    - [958, 7561.85]
   - - [289, 192, 64, 1024]
-    - [925, 7347.09]
-  - - [1225, 64, 64, 192]
-    - [911, 8098.45]
+    - [952, 7346.99]
   - - [1225, 96, 64, 384]
-    - [912, 8303.18]
-  - - [1225, 48, 64, 288]
-    - [920, 6746.87]
+    - [939, 8303.08]
   - - [4096, 320, 1, 2048]
-    - [921, 8384.52]
+    - [948, 8384.42]
   - - [4096, 256, 1, 1536]
-    - [933, 8734.44]
-  - - [1225, 48, 64, 192]
-    - [920, 6516.46]
+    - [960, 8734.34]
   - - [4096, 384, 1, 1280]
-    - [930, 9023.34]
-  - - [1225, 64, 64, 256]
-    - [917, 8319.44]
+    - [957, 9023.24]
   - - [4096, 448, 1, 1280]
-    - [921, 8343.42]
-  - - [289, 128, 64, 768]
-    - [923, 7668.08]
+    - [948, 8343.32]
   - - [289, 256, 64, 1024]
-    - [924, 7535.56]
+    - [951, 7535.46]
   - - [4096, 448, 1, 2048]
-    - [921, 8572.41]
-  - - [5329, 80, 64, 64]
-    - [920, 6492.54]
-  - - [1225, 32, 64, 192]
-    - [913, 6278.64]
+    - [948, 8572.31]
   - - [289, 384, 64, 1024]
-    - [922, 7767.67]
+    - [949, 7767.57]
   - - [1024, 3594, 1, 4096]
-    - [941, 8661.52]
+    - [968, 8661.42]
   - - [4096, 3103, 1, 1024]
-    - [951, 9652.23]
+    - [978, 9652.13]
   - - [4096, 3136, 1, 1024]
-    - [935, 9723.15]
+    - [962, 9723.05]
   - - [1024, 3141, 1, 4096]
-    - [953, 8612.12]
+    - [980, 8612.02]
   - - [64, 147, 432, 148]
-    - [968, 6372.03]
+    - [995, 6371.93]
   - - [4096, 3559, 1, 1024]
-    - [940, 9906.35]
+    - [967, 9906.25]
   - - [4096, 3368, 1, 1024]
-    - [935, 9721.01]
+    - [962, 9720.91]
   - - [1024, 3335, 1, 4096]
-    - [959, 8990.29]
+    - [986, 8990.19]
   - - [1024, 3510, 1, 4096]
-    - [959, 9440.68]
+    - [986, 9440.58]
   - - [4096, 3209, 1, 1024]
-    - [940, 9632.76]
+    - [967, 9632.66]
   - - [4096, 3322, 1, 1024]
-    - [939, 9939.52]
+    - [966, 9939.42]
   - - [1024, 3400, 1, 4096]
-    - [958, 9156.09]
+    - [985, 9155.99]
   - - [1024, 3995, 1, 4096]
-    - [941, 9610.25]
+    - [968, 9610.15]
   - - [1024, 3503, 1, 4096]
-    - [959, 9446.57]
+    - [986, 9446.47]
   - - [4096, 3594, 1, 1024]
-    - [950, 9691.96]
+    - [977, 9691.86]
   - - [4096, 3473, 1, 1024]
-    - [939, 9698.9]
+    - [966, 9698.8]
   - - [4096, 3522, 1, 1024]
-    - [940, 9816.92]
+    - [967, 9816.82]
   - - [1024, 3103, 1, 4096]
-    - [937, 8491.05]
+    - [964, 8490.95]
   - - [1024, 3214, 1, 4096]
-    - [958, 8667.67]
+    - [985, 8667.57]
   - - [4096, 3449, 1, 1024]
-    - [950, 9795.71]
+    - [977, 9795.61]
   - - [1024, 3136, 1, 4096]
-    - [959, 8500.61]
+    - [986, 8500.51]
   - - [1024, 3955, 1, 33708]
-    - [939, 9634.94]
+    - [966, 9634.84]
   - - [1024, 3780, 1, 4096]
-    - [942, 9088.88]
+    - [969, 9088.78]
   - - [1024, 3906, 1, 33708]
-    - [940, 9515.46]
+    - [967, 9515.36]
   - - [1024, 3386, 1, 4096]
-    - [959, 9116.05]
+    - [986, 9115.95]
   - - [4096, 3396, 1, 1024]
-    - [950, 9665.6]
+    - [977, 9665.5]
   - - [1024, 3183, 1, 4096]
-    - [937, 8662.94]
+    - [964, 8662.84]
   - - [1024, 3098, 1, 4096]
-    - [953, 8490.22]
+    - [980, 8490.12]
   - - [1024, 3548, 1, 4096]
-    - [959, 9555.63]
+    - [986, 9555.53]
   - - [1024, 3224, 1, 4096]
-    - [952, 8760.88]
+    - [979, 8760.78]
   - - [4096, 3469, 1, 1024]
-    - [939, 9687.21]
+    - [966, 9687.11]
   - - [1024, 3582, 1, 4096]
-    - [956, 9691.0]
+    - [983, 9690.9]
   - - [1024, 2977, 1, 4096]
-    - [941, 9379.38]
+    - [968, 9379.28]
   - - [1024, 3939, 1, 1024]
-    - [938, 9172.11]
+    - [965, 9172.01]
   - - [64, 123, 528, 123]
-    - [986, 6346.17]
+    - [1013, 6346.07]
   - - [64, 12, 5040, 12]
-    - [963, 1536.1]
+    - [990, 1536.0]
   - - [4096, 3176, 1, 1024]
-    - [951, 9712.2]
+    - [978, 9712.1]
   - - [1024, 3559, 1, 4096]
-    - [955, 9579.84]
+    - [982, 9579.74]
   - - [1024, 3478, 1, 4096]
-    - [959, 9373.85]
+    - [986, 9373.75]
   - - [4096, 3343, 1, 1024]
-    - [935, 9638.77]
+    - [962, 9638.67]
   - - [4096, 3440, 1, 1024]
-    - [935, 9853.96]
+    - [962, 9853.86]
   - - [1024, 3996, 1, 33708]
-    - [939, 9733.55]
+    - [966, 9733.45]
   - - [1024, 4012, 1, 4096]
-    - [940, 9636.99]
+    - [967, 9636.89]
   - - [1024, 3322, 1, 4096]
-    - [959, 8945.12]
+    - [986, 8945.02]
   - - [1024, 3990, 1, 33708]
-    - [939, 9720.31]
+    - [966, 9720.21]
   - - [1024, 3314, 1, 4096]
-    - [959, 8944.72]
+    - [986, 8944.62]
   - - [4096, 3513, 1, 1024]
-    - [939, 9794.95]
+    - [966, 9794.85]
   - - [1024, 3562, 1, 4096]
-    - [959, 9597.28]
+    - [986, 9597.18]
   - - [1024, 3443, 1, 4096]
-    - [959, 9279.52]
+    - [986, 9279.42]
   - - [1024, 3554, 1, 4096]
-    - [956, 9552.16]
+    - [983, 9552.06]
   - - [1024, 3063, 1, 4096]
-    - [941, 9622.58]
+    - [968, 9622.48]
   - - [64, 111, 576, 112]
-    - [986, 6274.65]
+    - [1013, 6274.55]
   - - [4096, 3460, 1, 1024]
-    - [939, 9665.69]
+    - [966, 9665.59]
   - - [1024, 3209, 1, 4096]
-    - [938, 8708.39]
+    - [965, 8708.29]
   - - [1024, 3147, 1, 4096]
-    - [959, 8492.23]
+    - [986, 8492.13]
   - - [4096, 3387, 1, 1024]
-    - [936, 9761.34]
+    - [963, 9761.24]
   - - [4096, 3436, 1, 1024]
-    - [935, 9815.15]
+    - [962, 9815.05]
   - - [1024, 3341, 1, 4096]
-    - [958, 9005.07]
+    - [985, 9004.97]
   - - [1024, 3516, 1, 4096]
-    - [958, 9471.39]
+    - [985, 9471.29]
   - - [4096, 3277, 1, 1024]
-    - [939, 9807.12]
+    - [966, 9807.02]
   - - [1024, 3454, 1, 4096]
-    - [959, 9301.03]
+    - [986, 9300.93]
   - - [1024, 3969, 1, 4096]
-    - [939, 9539.82]
+    - [966, 9539.72]
   - - [1024, 3999, 1, 4096]
-    - [940, 9607.52]
+    - [967, 9607.42]
   - - [1024, 4032, 1, 4096]
-    - [941, 9693.47]
+    - [968, 9693.37]
   - - [4096, 3541, 1, 1024]
-    - [940, 9866.73]
+    - [967, 9866.63]
   - - [4096, 3334, 1, 1024]
-    - [951, 9614.41]
+    - [978, 9614.31]
   - - [1024, 3365, 1, 4096]
-    - [959, 9058.58]
+    - [986, 9058.48]
   - - [1024, 3527, 1, 4096]
-    - [959, 9510.31]
+    - [986, 9510.21]
   - - [1024, 3190, 1, 4096]
-    - [958, 8627.8]
+    - [985, 8627.7]
   - - [4096, 3906, 1, 1024]
-    - [936, 9817.78]
+    - [963, 9817.68]
   - - [1024, 3593, 1, 4096]
-    - [941, 8663.09]
+    - [968, 8662.99]
   - - [1024, 3336, 1, 4096]
-    - [959, 8991.13]
+    - [986, 8991.03]
   - - [4096, 3504, 1, 1024]
-    - [939, 9769.86]
+    - [966, 9769.76]
   - - [4096, 3977, 1, 1024]
-    - [940, 9742.62]
+    - [967, 9742.52]
   - - [1024, 3906, 1, 4096]
-    - [940, 9386.25]
+    - [967, 9386.15]
   - - [4096, 3415, 1, 1024]
-    - [950, 9802.7]
+    - [977, 9802.6]
   - - [1024, 3295, 1, 4096]
-    - [958, 8879.26]
+    - [985, 8879.16]
   - - [4096, 3321, 1, 1024]
-    - [940, 9931.43]
+    - [967, 9931.33]
   - - [1024, 3072, 1, 4096]
-    - [941, 9671.71]
+    - [968, 9671.61]
   - - [1024, 3408, 1, 4096]
-    - [958, 9182.83]
+    - [985, 9182.73]
   - - [1024, 3522, 1, 4096]
-    - [959, 9484.63]
+    - [986, 9484.53]
   - - [4096, 3751, 1, 1024]
-    - [940, 9778.86]
+    - [967, 9778.76]
   - - [4096, 3378, 1, 1024]
-    - [950, 9692.77]
+    - [977, 9692.67]
   - - [64, 77, 816, 77]
-    - [992, 4850.29]
+    - [1019, 4850.19]
   - - [1024, 3925, 1, 33708]
-    - [939, 9560.88]
+    - [966, 9560.78]
   - - [1024, 3990, 1, 1024]
-    - [941, 9272.75]
+    - [968, 9272.65]
   - - [1024, 3290, 1, 4096]
-    - [952, 8905.61]
+    - [979, 8905.51]
   - - [4096, 3500, 1, 1024]
-    - [940, 9761.82]
+    - [967, 9761.72]
   - - [4096, 3565, 1, 1024]
-    - [939, 9919.37]
+    - [966, 9919.27]
   - - [1024, 3484, 1, 4096]
-    - [958, 9376.52]
+    - [985, 9376.42]
   - - [4096, 3395, 1, 1024]
-    - [951, 9788.16]
+    - [978, 9788.06]
   - - [64, 92, 688, 92]
-    - [978, 5606.1]
+    - [1005, 5606.0]
   - - [1024, 3681, 1, 1024]
-    - [943, 8690.23]
+    - [970, 8690.13]
   - - [64, 159, 400, 159]
-    - [970, 6518.97]
+    - [997, 6518.87]
   - - [1024, 3584, 1, 1024]
-    - [958, 9365.37]
+    - [985, 9365.27]
   - - [4096, 3093, 1, 1024]
-    - [950, 9623.41]
+    - [977, 9623.31]
   - - [1024, 4050, 1, 1024]
-    - [942, 9354.14]
+    - [969, 9354.04]
   - - [1024, 3301, 1, 4096]
-    - [959, 8889.04]
+    - [986, 8888.94]
   - - [1024, 3581, 1, 4096]
-    - [958, 9673.82]
+    - [985, 9673.72]
   - - [4096, 3374, 1, 1024]
-    - [951, 9707.33]
+    - [978, 9707.23]
   - - [1024, 3449, 1, 4096]
-    - [959, 9270.9]
+    - [986, 9270.8]
   - - [4096, 3215, 1, 1024]
-    - [940, 9645.25]
+    - [967, 9645.15]
   - - [4096, 3312, 1, 1024]
-    - [940, 9888.72]
+    - [967, 9888.62]
   - - [4096, 3479, 1, 1024]
-    - [940, 9698.61]
+    - [967, 9698.51]
   - - [4096, 3544, 1, 1024]
-    - [940, 9875.09]
+    - [967, 9874.99]
   - - [1024, 3263, 1, 4096]
-    - [959, 8787.61]
+    - [986, 8787.51]
   - - [4096, 3455, 1, 1024]
-    - [950, 9845.29]
+    - [977, 9845.19]
   - - [1024, 3379, 1, 4096]
-    - [956, 9100.01]
+    - [983, 9099.91]
   - - [1024, 3490, 1, 4096]
-    - [959, 9397.49]
+    - [986, 9397.39]
   - - [1024, 3368, 1, 4096]
-    - [959, 9079.25]
+    - [986, 9079.15]
   - - [4096, 3186, 1, 1024]
-    - [935, 9750.17]
+    - [962, 9750.07]
   - - [1024, 3428, 1, 4096]
-    - [959, 9232.92]
+    - [986, 9232.82]
   - - [64, 85, 752, 84]
-    - [974, 5342.67]
+    - [1001, 5342.57]
   - - [4096, 3561, 1, 1024]
-    - [940, 9914.02]
+    - [967, 9913.92]
   - - [4096, 3418, 1, 1024]
-    - [950, 9765.86]
+    - [977, 9765.76]
   - - [1024, 3064, 1, 4096]
-    - [941, 9621.68]
+    - [968, 9621.58]
   - - [4096, 3259, 1, 1024]
-    - [940, 9765.52]
+    - [967, 9765.42]
   - - [4096, 3308, 1, 1024]
-    - [939, 9900.46]
+    - [966, 9900.36]
   - - [1024, 3533, 1, 4096]
-    - [959, 9520.12]
+    - [986, 9520.02]
   - - [1024, 3344, 1, 4096]
-    - [959, 9014.55]
+    - [986, 9014.45]
   - - [1024, 4030, 1, 1024]
-    - [941, 9354.1]
+    - [968, 9354.0]
   - - [4096, 3459, 1, 1024]
-    - [940, 9656.2]
+    - [967, 9656.1]
   - - [1024, 3572, 1, 4096]
-    - [956, 9640.07]
+    - [983, 9639.97]
   - - [1024, 3925, 1, 1024]
-    - [952, 9173.74]
+    - [979, 9173.64]
   - - [4096, 3435, 1, 1024]
-    - [935, 9778.2]
+    - [962, 9778.1]
   - - [1024, 3956, 1, 4096]
-    - [942, 9498.56]
+    - [969, 9498.46]
   - - [1024, 3463, 1, 4096]
-    - [959, 9332.46]
+    - [986, 9332.36]
   - - [4096, 3182, 1, 1024]
-    - [950, 9826.84]
+    - [977, 9826.74]
   - - [4096, 3976, 1, 1024]
-    - [950, 9741.99]
+    - [977, 9741.89]
   - - [1024, 3417, 1, 4096]
-    - [959, 9208.97]
+    - [986, 9208.87]
   - - [1024, 3528, 1, 4096]
-    - [959, 9509.09]
+    - [986, 9508.99]
   - - [4096, 3446, 1, 1024]
-    - [950, 9816.97]
+    - [977, 9816.87]
   - - [64, 122, 528, 123]
-    - [986, 6325.98]
+    - [1013, 6325.88]
   - - [1024, 3543, 1, 4096]
-    - [959, 9538.73]
+    - [986, 9538.63]
   - - [4096, 3287, 1, 1024]
-    - [939, 9846.04]
+    - [966, 9845.94]
   - - [1024, 3499, 1, 4096]
-    - [959, 9428.51]
+    - [986, 9428.41]
   - - [1024, 3231, 1, 4096]
-    - [952, 8769.91]
+    - [979, 8769.81]
   - - [64, 17, 3632, 17]
-    - [974, 1934.94]
+    - [1001, 1934.84]
   - - [4096, 3519, 1, 1024]
-    - [939, 9804.38]
+    - [966, 9804.28]
   - - [4096, 3552, 1, 1024]
-    - [939, 9892.65]
+    - [966, 9892.55]
   - - [1024, 3458, 1, 4096]
-    - [959, 9312.28]
+    - [986, 9312.18]
   - - [64, 93, 688, 92]
-    - [978, 5660.22]
+    - [1005, 5660.12]
   - - [1024, 3374, 1, 4096]
-    - [953, 9110.41]
+    - [980, 9110.31]
   - - [1024, 3396, 1, 4096]
-    - [959, 9145.79]
+    - [986, 9145.69]
   - - [1024, 2967, 1, 4096]
-    - [941, 9364.76]
+    - [968, 9364.66]
   - - [64, 19, 3264, 19]
-    - [978, 2142.47]
+    - [1005, 2142.37]
   - - [4096, 3482, 1, 1024]
-    - [939, 9714.2]
+    - [966, 9714.1]
   - - [64, 32, 1984, 32]
-    - [989, 3619.91]
+    - [1016, 3619.81]
   - - [64, 102, 624, 99]
-    - [980, 5515.33]
+    - [1007, 5515.23]
   - - [1024, 3226, 1, 4096]
-    - [938, 8790.47]
+    - [965, 8790.37]
   - - [4096, 3377, 1, 1024]
-    - [936, 9684.08]
+    - [963, 9683.98]
   - - [4096, 3426, 1, 1024]
-    - [951, 9869.94]
+    - [978, 9869.84]
   - - [4096, 2935, 1, 1024]
-    - [951, 9762.11]
+    - [978, 9762.01]
   - - [64, 133, 480, 133]
-    - [990, 5891.32]
+    - [1017, 5891.22]
   - - [1024, 3439, 1, 4096]
-    - [959, 9253.99]
+    - [986, 9253.89]
   - - [4096, 3267, 1, 1024]
-    - [939, 9783.9]
+    - [966, 9783.8]
   - - [4096, 3499, 1, 1024]
-    - [940, 9761.11]
+    - [967, 9761.01]
   - - [4096, 3356, 1, 1024]
-    - [951, 9679.44]
+    - [978, 9679.34]
   - - [64, 232, 272, 232]
-    - [994, 7181.03]
+    - [1021, 7180.93]
   - - [64, 162, 400, 159]
-    - [954, 6444.63]
+    - [981, 6444.53]
   - - [4096, 3939, 1, 1024]
-    - [950, 9878.0]
+    - [977, 9877.9]
   - - [1024, 3526, 1, 4096]
-    - [959, 9508.1]
+    - [986, 9508.0]
   - - [1024, 3859, 1, 33708]
-    - [940, 9402.13]
+    - [967, 9402.03]
   - - [1024, 3385, 1, 4096]
-    - [958, 9107.28]
+    - [985, 9107.18]
   - - [1024, 3496, 1, 4096]
-    - [959, 9418.0]
+    - [986, 9417.9]
   - - [4096, 3141, 1, 1024]
-    - [951, 9682.54]
+    - [978, 9682.44]
   - - [4096, 3510, 1, 1024]
-    - [939, 9786.59]
+    - [966, 9786.49]
   - - [1024, 3434, 1, 4096]
-    - [959, 9246.7]
+    - [986, 9246.6]
   - - [4096, 3969, 1, 1024]
-    - [939, 9714.85]
+    - [966, 9714.75]
   - - [1024, 3121, 1, 4096]
-    - [937, 8464.32]
+    - [964, 8464.22]
   - - [1024, 3232, 1, 4096]
-    - [959, 8711.73]
+    - [986, 8711.63]
   - - [1024, 4030, 1, 33708]
-    - [940, 9816.31]
+    - [967, 9816.21]
   - - [1024, 3780, 1, 33708]
-    - [948, 9315.54]
+    - [975, 9315.44]
   - - [1024, 3969, 1, 1024]
-    - [937, 9248.54]
+    - [964, 9248.44]
   - - [4096, 3527, 1, 1024]
-    - [939, 9832.94]
+    - [966, 9832.84]
   - - [4096, 3336, 1, 1024]
-    - [936, 9623.35]
+    - [963, 9623.25]
   - - [4096, 3290, 1, 1024]
-    - [939, 9852.21]
+    - [966, 9852.11]
   - - [64, 9, 6544, 9]
-    - [979, 1068.24]
+    - [1006, 1068.14]
   - - [1024, 3469, 1, 4096]
-    - [959, 9350.55]
+    - [986, 9350.45]
   - - [4096, 3490, 1, 1024]
-    - [939, 9737.56]
+    - [966, 9737.46]
   - - [4096, 3064, 1, 1024]
-    - [939, 9890.02]
+    - [966, 9889.92]
   - - [4096, 3582, 1, 1024]
-    - [940, 9961.38]
+    - [967, 9961.28]
   - - [1024, 3956, 1, 1024]
-    - [937, 9294.25]
+    - [964, 9294.15]
   - - [4096, 3417, 1, 1024]
-    - [935, 9811.66]
+    - [962, 9811.56]
   - - [1024, 2736, 1, 4096]
-    - [941, 8636.7]
+    - [968, 8636.6]
   - - [64, 78, 816, 78]
-    - [978, 4946.1]
+    - [1005, 4946.0]
   - - [1024, 3205, 1, 4096]
-    - [953, 8657.21]
+    - [980, 8657.11]
   - - [1024, 3143, 1, 4096]
-    - [953, 8567.87]
+    - [980, 8567.77]
   - - [1024, 4020, 1, 4096]
-    - [941, 9664.62]
+    - [968, 9664.52]
   - - [1024, 3318, 1, 4096]
-    - [938, 8967.05]
+    - [965, 8966.95]
   - - [4096, 3364, 1, 1024]
-    - [951, 9697.18]
+    - [978, 9697.08]
   - - [1024, 3353, 1, 4096]
-    - [959, 9034.17]
+    - [986, 9034.07]
   - - [1024, 3464, 1, 4096]
-    - [959, 9326.05]
+    - [986, 9325.95]
   - - [4096, 3205, 1, 1024]
-    - [939, 9619.1]
+    - [966, 9619.0]
   - - [4096, 3318, 1, 1024]
-    - [940, 9932.66]
+    - [967, 9932.56]
   - - [1024, 3402, 1, 4096]
-    - [958, 9153.49]
+    - [985, 9153.39]
   - - [4096, 3181, 1, 1024]
-    - [950, 9789.15]
+    - [977, 9789.05]
   - - [4096, 3550, 1, 1024]
-    - [940, 9888.13]
+    - [967, 9888.03]
   - - [4096, 3445, 1, 1024]
-    - [950, 9752.65]
+    - [977, 9752.55]
   - - [1024, 3138, 1, 4096]
-    - [936, 8484.1]
+    - [963, 8484.0]
   - - [64, 99, 624, 99]
-    - [986, 5323.99]
+    - [1013, 5323.89]
   - - [4096, 3079, 1, 1024]
-    - [936, 9562.26]
+    - [963, 9562.16]
   - - [4096, 3144, 1, 1024]
-    - [950, 9686.66]
+    - [977, 9686.56]
   - - [4096, 3860, 1, 1024]
-    - [951, 9733.42]
+    - [978, 9733.32]
   - - [1024, 3515, 1, 4096]
-    - [959, 9478.44]
+    - [986, 9478.34]
   - - [4096, 3408, 1, 1024]
-    - [936, 9764.96]
+    - [963, 9764.86]
   - - [64, 101, 624, 102]
-    - [986, 5482.79]
+    - [1013, 5482.69]
   - - [1024, 3181, 1, 4096]
-    - [938, 8593.26]
+    - [965, 8593.16]
   - - [4096, 3298, 1, 1024]
-    - [940, 9867.72]
+    - [967, 9867.62]
   - - [4096, 3585, 1, 1024]
-    - [950, 9633.01]
+    - [977, 9632.91]
   - - [1024, 3550, 1, 4096]
-    - [959, 9564.46]
+    - [986, 9564.36]
   - - [1024, 4020, 1, 1024]
-    - [942, 9339.15]
+    - [969, 9339.05]
   - - [4096, 3481, 1, 1024]
-    - [940, 9714.0]
+    - [967, 9713.9]
   - - [4096, 3530, 1, 1024]
-    - [940, 9833.99]
+    - [967, 9833.89]
   - - [4096, 3425, 1, 1024]
-    - [936, 9675.66]
+    - [963, 9675.56]
   - - [4096, 4026, 1, 1024]
-    - [940, 9849.77]
+    - [967, 9849.67]
   - - [1024, 3860, 1, 1024]
-    - [953, 9073.59]
+    - [980, 9073.49]
   - - [4096, 3975, 1, 1024]
-    - [940, 9737.72]
+    - [967, 9737.62]
   - - [1024, 3286, 1, 4096]
-    - [937, 8884.24]
+    - [964, 8884.14]
   - - [1024, 3176, 1, 4096]
-    - [937, 8597.48]
+    - [964, 8597.38]
   - - [1024, 3894, 1, 4096]
-    - [941, 9359.13]
+    - [968, 9359.03]
   - - [4096, 3355, 1, 1024]
-    - [950, 9693.09]
+    - [977, 9692.99]
   - - [4096, 3404, 1, 1024]
-    - [950, 9786.12]
+    - [977, 9786.02]
   - - [1024, 3501, 1, 4096]
-    - [958, 9426.14]
+    - [985, 9426.04]
   - - [4096, 3245, 1, 1024]
-    - [940, 9723.57]
+    - [967, 9723.47]
   - - [1024, 3431, 1, 4096]
-    - [956, 9244.32]
+    - [983, 9244.22]
   - - [1024, 4000, 1, 1024]
-    - [952, 9344.03]
+    - [979, 9343.93]
   - - [4096, 3509, 1, 1024]
-    - [939, 9781.72]
+    - [966, 9781.62]
   - - [4096, 3558, 1, 1024]
-    - [940, 9905.15]
+    - [967, 9905.05]
   - - [1024, 3535, 1, 4096]
-    - [958, 9519.15]
+    - [985, 9519.05]
   - - [1024, 3414, 1, 4096]
-    - [956, 9198.05]
+    - [983, 9197.95]
   - - [1024, 3445, 1, 4096]
-    - [959, 9279.66]
+    - [986, 9279.56]
   - - [1024, 3436, 1, 4096]
-    - [959, 9259.7]
+    - [986, 9259.6]
   - - [4096, 3472, 1, 1024]
-    - [940, 9685.27]
+    - [967, 9685.17]
   - - [1024, 3211, 1, 4096]
-    - [938, 8708.41]
+    - [965, 8708.31]
   - - [64, 7, 8192, 7]
-    - [975, 802.916]
+    - [1002, 802.816]
   - - [4096, 3383, 1, 1024]
-    - [950, 9734.82]
+    - [977, 9734.72]
   - - [4096, 3448, 1, 1024]
-    - [951, 9828.54]
+    - [978, 9828.44]
   - - [1024, 3343, 1, 4096]
-    - [952, 9010.46]
+    - [979, 9010.36]
   - - [1024, 3518, 1, 4096]
-    - [959, 9468.02]
+    - [986, 9467.92]
   - - [4096, 3289, 1, 1024]
-    - [940, 9844.16]
+    - [967, 9844.06]
   - - [1024, 3440, 1, 4096]
-    - [955, 9269.52]
+    - [982, 9269.42]
   - - [1024, 4032, 1, 33708]
-    - [939, 9822.41]
+    - [966, 9822.31]
   - - [4096, 3489, 1, 1024]
-    - [939, 9742.03]
+    - [966, 9741.93]
   - - [4096, 3346, 1, 1024]
-    - [936, 9616.74]
+    - [963, 9616.64]
   - - [1024, 3534, 1, 4096]
-    - [958, 9524.29]
+    - [985, 9524.19]
   - - [1024, 3079, 1, 4096]
-    - [953, 8397.77]
+    - [980, 8397.67]
   - - [1024, 3955, 1, 4096]
-    - [940, 9492.25]
+    - [967, 9492.15]
   - - [4096, 3236, 1, 1024]
-    - [940, 9706.03]
+    - [967, 9705.93]
   - - [1024, 3545, 1, 4096]
-    - [958, 9551.97]
+    - [985, 9551.87]
   - - [1024, 3144, 1, 4096]
-    - [952, 8556.8]
+    - [979, 8556.7]
   - - [4096, 3780, 1, 1024]
-    - [939, 9847.6]
+    - [966, 9847.5]
   - - [4096, 3163, 1, 1024]
-    - [950, 9717.79]
+    - [977, 9717.69]
   - - [4096, 3468, 1, 1024]
-    - [940, 9686.49]
+    - [967, 9686.39]
   - - [1024, 3539, 1, 4096]
-    - [959, 9526.99]
+    - [986, 9526.89]
   - - [1024, 3541, 1, 4096]
-    - [959, 9532.86]
+    - [986, 9532.76]
   - - [4096, 3363, 1, 1024]
-    - [935, 9699.1]
+    - [962, 9699.0]
   - - [1024, 3475, 1, 4096]
-    - [959, 9357.1]
+    - [986, 9357.0]
   - - [4096, 3110, 1, 1024]
-    - [951, 9659.68]
+    - [978, 9659.58]
   - - [1024, 3509, 1, 4096]
-    - [958, 9450.59]
+    - [985, 9450.49]
   - - [1024, 3413, 1, 4096]
-    - [959, 9185.91]
+    - [986, 9185.81]
   - - [1024, 3975, 1, 1024]
-    - [937, 9315.52]
+    - [964, 9315.42]
   - - [4096, 3549, 1, 1024]
-    - [940, 9884.82]
+    - [967, 9884.72]
   - - [4096, 3342, 1, 1024]
-    - [950, 9644.37]
+    - [977, 9644.27]
   - - [1024, 2985, 1, 4096]
-    - [940, 9392.17]
+    - [967, 9392.07]
   - - [1024, 3876, 1, 33708]
-    - [939, 9442.32]
+    - [966, 9442.22]
   - - [4096, 3280, 1, 1024]
-    - [939, 9820.02]
+    - [966, 9819.92]
   - - [4096, 3191, 1, 1024]
-    - [951, 9862.18]
+    - [978, 9862.08]
   - - [4096, 3512, 1, 1024]
-    - [940, 9793.21]
+    - [967, 9793.11]
   - - [1024, 3560, 1, 4096]
-    - [956, 9555.55]
+    - [983, 9555.45]
   - - [4096, 2499, 1, 1024]
-    - [940, 9669.45]
+    - [967, 9669.35]
   - - [1024, 3248, 1, 4096]
-    - [937, 8811.94]
+    - [964, 8811.84]
   - - [4096, 3423, 1, 1024]
-    - [951, 9729.77]
+    - [978, 9729.67]
   - - [64, 111, 576, 111]
-    - [986, 5982.73]
+    - [1013, 5982.63]
   - - [4096, 3297, 1, 1024]
-    - [939, 9865.29]
+    - [966, 9865.19]
   - - [4096, 3154, 1, 1024]
-    - [951, 9613.52]
+    - [978, 9613.42]
   - - [1024, 3303, 1, 4096]
-    - [938, 8951.89]
+    - [965, 8951.79]
   - - [1024, 3222, 1, 4096]
-    - [958, 8682.99]
+    - [985, 8682.89]
   - - [1024, 3978, 1, 1024]
-    - [942, 9235.03]
+    - [969, 9234.93]
   - - [4096, 3529, 1, 1024]
-    - [940, 9831.72]
+    - [967, 9831.62]
   - - [4096, 3386, 1, 1024]
-    - [950, 9755.77]
+    - [977, 9755.67]
   - - [64, 134, 480, 134]
-    - [965, 5990.63]
+    - [992, 5990.53]
   - - [1024, 3451, 1, 4096]
-    - [956, 9277.71]
+    - [983, 9277.61]
   - - [4096, 3562, 1, 1024]
-    - [940, 9908.92]
+    - [967, 9908.82]
   - - [4096, 3276, 1, 1024]
-    - [939, 9818.14]
+    - [966, 9818.04]
   - - [64, 135, 480, 132]
-    - [994, 6071.87]
+    - [1021, 6071.77]
   - - [1024, 3894, 1, 33708]
-    - [939, 9487.89]
+    - [966, 9487.79]
   - - [64, 134, 480, 132]
-    - [993, 6091.75]
+    - [1020, 6091.65]
   - - [4096, 3540, 1, 1024]
-    - [940, 9862.89]
+    - [967, 9862.79]
   - - [1024, 3416, 1, 4096]
-    - [958, 9206.27]
+    - [985, 9206.17]
   - - [1024, 4005, 1, 33708]
-    - [939, 9757.29]
+    - [966, 9757.19]
   - - [1024, 3942, 1, 4096]
-    - [942, 9455.85]
+    - [969, 9455.75]
   - - [4096, 3403, 1, 1024]
-    - [950, 9739.46]
+    - [977, 9739.36]
   - - [4096, 3381, 1, 1024]
-    - [951, 9760.14]
+    - [978, 9760.04]
   - - [1024, 3492, 1, 4096]
-    - [955, 9391.79]
+    - [982, 9391.69]
   - - [4096, 3101, 1, 1024]
-    - [951, 9626.02]
+    - [978, 9625.92]
   - - [1024, 3430, 1, 4096]
-    - [959, 9232.14]
+    - [986, 9232.04]
   - - [1024, 3977, 1, 4096]
-    - [942, 9563.0]
+    - [969, 9562.9]
   - - [1024, 3640, 1, 4096]
-    - [941, 8761.5]
+    - [968, 8761.4]
   - - [4096, 3557, 1, 1024]
-    - [940, 9905.52]
+    - [967, 9905.42]
   - - [4096, 3414, 1, 1024]
-    - [936, 9755.49]
+    - [963, 9755.39]
   - - [1024, 3391, 1, 4096]
-    - [959, 9142.66]
+    - [986, 9142.56]
   - - [64, 134, 480, 135]
-    - [968, 5922.15]
+    - [995, 5922.05]
   - - [64, 16, 3840, 16]
-    - [984, 2080.61]
+    - [1011, 2080.51]
   - - [1024, 3356, 1, 4096]
-    - [959, 9051.09]
+    - [986, 9050.99]
   - - [4096, 3320, 1, 1024]
-    - [940, 9929.57]
+    - [967, 9929.47]
   - - [4096, 2765, 1, 1024]
-    - [940, 9750.28]
+    - [967, 9750.18]
   - - [64, 162, 400, 162]
-    - [957, 6515.29]
+    - [984, 6515.19]
   - - [1024, 3411, 1, 4096]
-    - [959, 9185.72]
+    - [986, 9185.62]
   - - [1024, 3978, 1, 4096]
-    - [939, 9562.77]
+    - [966, 9562.67]
   - - [4096, 3487, 1, 1024]
-    - [940, 9733.85]
+    - [967, 9733.75]
   - - [4096, 3520, 1, 1024]
-    - [939, 9813.95]
+    - [966, 9813.85]
   - - [4096, 3942, 1, 1024]
-    - [950, 9804.39]
+    - [977, 9804.29]
   - - [4096, 3431, 1, 1024]
-    - [935, 9819.06]
+    - [962, 9818.96]
   - - [1024, 3271, 1, 4096]
-    - [952, 8913.08]
+    - [979, 8912.98]
   - - [4096, 4020, 1, 1024]
-    - [939, 9831.42]
+    - [966, 9831.32]
   - - [1024, 3481, 1, 4096]
-    - [955, 9376.15]
+    - [982, 9376.05]
   - - [1024, 3419, 1, 4096]
-    - [958, 9208.68]
+    - [985, 9208.58]
   - - [1024, 4059, 1, 4096]
-    - [942, 9733.83]
+    - [969, 9733.73]
   - - [4096, 3345, 1, 1024]
-    - [951, 9651.43]
+    - [978, 9651.33]
   - - [4096, 3394, 1, 1024]
-    - [951, 9780.43]
+    - [978, 9780.33]
   - - [1024, 3298, 1, 4096]
-    - [958, 8889.63]
+    - [985, 8889.53]
   - - [4096, 3235, 1, 1024]
-    - [940, 9705.81]
+    - [967, 9705.71]
   - - [1024, 3681, 1, 33708]
-    - [947, 9146.22]
+    - [974, 9146.12]
   - - [1024, 3840, 1, 4096]
-    - [940, 9253.95]
+    - [967, 9253.85]
   - - [1024, 3362, 1, 4096]
-    - [959, 9059.81]
+    - [986, 9059.71]
   - - [4096, 3467, 1, 1024]
-    - [939, 9677.51]
+    - [966, 9677.41]
   - - [1024, 3349, 1, 4096]
-    - [959, 9034.07]
+    - [986, 9033.97]
   - - [1024, 3460, 1, 4096]
-    - [959, 9322.94]
+    - [986, 9322.84]
   - - [4096, 3214, 1, 1024]
-    - [940, 9644.46]
+    - [967, 9644.36]
   - - [1024, 3398, 1, 4096]
-    - [959, 9157.29]
+    - [986, 9157.19]
   - - [4096, 3478, 1, 1024]
-    - [939, 9706.66]
+    - [966, 9706.56]
   - - [1024, 4050, 1, 33708]
-    - [939, 9865.14]
+    - [966, 9865.04]
   - - [1024, 3244, 1, 4096]
-    - [955, 8744.53]
+    - [982, 8744.43]
   - - [4096, 3341, 1, 1024]
-    - [951, 9646.79]
+    - [978, 9646.69]
   - - [4096, 3454, 1, 1024]
-    - [936, 9880.56]
+    - [963, 9880.46]
   - - [1024, 3166, 1, 4096]
-    - [953, 8618.46]
+    - [980, 8618.36]
   - - [1024, 3425, 1, 4096]
-    - [959, 9225.32]
+    - [986, 9225.22]
   - - [4096, 3295, 1, 1024]
-    - [940, 9863.81]
+    - [967, 9863.71]
   - - [4096, 3072, 1, 1024]
-    - [939, 9971.09]
+    - [966, 9970.99]
   - - [4096, 3822, 1, 1024]
-    - [940, 9952.07]
+    - [967, 9951.97]
   - - [1024, 3681, 1, 4096]
-    - [941, 8856.94]
+    - [968, 8856.84]
   - - [1024, 4050, 1, 4096]
-    - [941, 9717.58]
+    - [968, 9717.48]
   - - [4096, 3495, 1, 1024]
-    - [939, 9741.14]
+    - [966, 9741.04]
   - - [4096, 3560, 1, 1024]
-    - [940, 9909.14]
+    - [967, 9909.04]
   - - [1024, 3524, 1, 4096]
-    - [958, 9503.2]
+    - [985, 9503.1]
   - - [1024, 3942, 1, 33708]
-    - [939, 9602.67]
+    - [966, 9602.57]
   - - [1024, 3304, 1, 4096]
-    - [938, 8928.76]
+    - [965, 8928.66]
   - - [1024, 3387, 1, 4096]
-    - [959, 9127.65]
+    - [986, 9127.55]
   - - [1024, 3498, 1, 4096]
-    - [958, 9423.39]
+    - [985, 9423.29]
   - - [4096, 3458, 1, 1024]
-    - [939, 9642.63]
+    - [966, 9642.53]
   - - [4096, 2967, 1, 1024]
-    - [939, 9626.71]
+    - [966, 9626.61]
   - - [64, 8, 7280, 8]
-    - [961, 1032.61]
+    - [988, 1032.51]
   - - [4096, 3385, 1, 1024]
-    - [935, 9735.77]
+    - [962, 9735.67]
   - - [4096, 3434, 1, 1024]
-    - [950, 9808.9]
+    - [977, 9808.8]
   - - [1024, 3519, 1, 4096]
-    - [959, 9484.83]
+    - [986, 9484.73]
   - - [1024, 3511, 1, 4096]
-    - [959, 9456.47]
+    - [986, 9456.37]
   - - [1024, 3288, 1, 4096]
-    - [958, 8864.05]
+    - [985, 8863.95]
   - - [1024, 2918, 1, 4096]
-    - [941, 9170.35]
+    - [968, 9170.25]
   - - [4096, 3573, 1, 1024]
-    - [940, 9945.85]
+    - [967, 9945.75]
   - - [1024, 3822, 1, 33708]
-    - [949, 9331.0]
+    - [976, 9330.9]
   - - [64, 102, 624, 102]
-    - [986, 5531.17]
+    - [1013, 5531.07]
   - - [4096, 3539, 1, 1024]
-    - [940, 9855.39]
+    - [967, 9855.29]
   - - [4096, 3332, 1, 1024]
-    - [951, 9648.97]
+    - [978, 9648.87]
   - - [4096, 3286, 1, 1024]
-    - [940, 9846.42]
+    - [967, 9846.32]
   - - [1024, 4026, 1, 4096]
-    - [941, 9675.94]
+    - [968, 9675.84]
   - - [1024, 3277, 1, 4096]
-    - [955, 8836.21]
+    - [982, 8836.11]
   - - [1024, 3471, 1, 4096]
-    - [959, 9346.33]
+    - [986, 9346.23]
   - - [4096, 3518, 1, 1024]
-    - [940, 9804.2]
+    - [967, 9804.1]
   - - [1024, 3393, 1, 4096]
-    - [959, 9148.99]
+    - [986, 9148.89]
   - - [4096, 3413, 1, 1024]
-    - [936, 9785.17]
+    - [963, 9785.07]
   - - [4096, 3303, 1, 1024]
-    - [940, 9884.37]
+    - [967, 9884.27]
   - - [1024, 3207, 1, 4096]
-    - [937, 8714.69]
+    - [964, 8714.59]
   - - [1024, 3894, 1, 1024]
-    - [953, 9181.51]
+    - [980, 9181.41]
   - - [1024, 3977, 1, 1024]
-    - [953, 9240.9]
+    - [980, 9240.8]
   - - [64, 135, 480, 133]
-    - [968, 5923.4]
+    - [995, 5923.3]
   - - [4096, 3535, 1, 1024]
-    - [940, 9839.55]
+    - [967, 9839.45]
   - - [4096, 3376, 1, 1024]
-    - [935, 9712.02]
+    - [962, 9711.92]
   - - [1024, 3355, 1, 4096]
-    - [959, 9043.27]
+    - [986, 9043.17]
   - - [64, 27, 2336, 27]
-    - [987, 2929.9]
+    - [1014, 2929.8]
   - - [1024, 3466, 1, 4096]
-    - [959, 9339.1]
+    - [986, 9339.0]
   - - [4096, 3266, 1, 1024]
-    - [940, 9789.29]
+    - [967, 9789.19]
   - - [1024, 3404, 1, 4096]
-    - [959, 9176.76]
+    - [986, 9176.66]
   - - [1024, 3999, 1, 1024]
-    - [952, 9391.91]
+    - [979, 9391.81]
   - - [64, 148, 432, 143]
-    - [965, 6182.92]
+    - [992, 6182.82]
   - - [4096, 3498, 1, 1024]
-    - [939, 9764.56]
+    - [966, 9764.46]
   - - [1024, 4032, 1, 1024]
-    - [937, 9402.03]
+    - [964, 9401.93]
   - - [1024, 3410, 1, 4096]
-    - [958, 9183.5]
+    - [985, 9183.4]
   - - [4096, 3393, 1, 1024]
-    - [951, 9695.49]
+    - [978, 9695.39]
   - - [1024, 3140, 1, 4096]
-    - [952, 8504.86]
+    - [979, 8504.76]
   - - [1024, 3910, 1, 33708]
-    - [939, 9526.06]
+    - [966, 9525.96]
   - - [1024, 3334, 1, 4096]
-    - [958, 8987.59]
+    - [985, 8987.49]
   - - [4096, 3140, 1, 1024]
-    - [951, 9660.71]
+    - [978, 9660.61]
   - - [1024, 4005, 1, 4096]
-    - [942, 9629.88]
+    - [969, 9629.78]
   - - [1024, 3579, 1, 4096]
-    - [958, 9661.45]
+    - [985, 9661.35]
   - - [4096, 3372, 1, 1024]
-    - [951, 9697.32]
+    - [978, 9697.22]
   - - [1024, 3245, 1, 4096]
-    - [952, 8847.76]
+    - [979, 8847.66]
   - - [64, 38, 1680, 38]
-    - [962, 3340.44]
+    - [989, 3340.34]
   - - [4096, 3956, 1, 1024]
-    - [951, 9911.15]
+    - [978, 9911.05]
   - - [4096, 3213, 1, 1024]
-    - [939, 9643.11]
+    - [966, 9643.01]
   - - [1024, 3361, 1, 4096]
-    - [959, 9062.24]
+    - [986, 9062.14]
   - - [1024, 3536, 1, 4096]
-    - [958, 9530.65]
+    - [985, 9530.55]
   - - [1024, 3968, 1, 1024]
-    - [953, 9377.92]
+    - [980, 9377.82]
   - - [4096, 3477, 1, 1024]
-    - [940, 9700.77]
+    - [967, 9700.67]
   - - [4096, 3526, 1, 1024]
-    - [940, 9824.41]
+    - [967, 9824.31]
   - - [1024, 4005, 1, 1024]
-    - [937, 9362.39]
+    - [964, 9362.29]
   - - [1024, 3530, 1, 4096]
-    - [956, 9487.17]
+    - [983, 9487.07]
   - - [1024, 3944, 1, 4096]
-    - [941, 9464.55]
+    - [968, 9464.45]
   - - [4096, 3453, 1, 1024]
-    - [950, 9826.77]
+    - [977, 9826.67]
   - - [4096, 3184, 1, 1024]
-    - [951, 9833.59]
+    - [978, 9833.49]
   - - [4096, 3579, 1, 1024]
-    - [940, 9962.55]
+    - [967, 9962.45]
   - - [4096, 3351, 1, 1024]
-    - [951, 9653.34]
+    - [978, 9653.24]
   - - [4096, 3416, 1, 1024]
-    - [935, 9810.4]
+    - [962, 9810.3]
   - - [64, 100, 624, 100]
-    - [986, 5408.55]
+    - [1013, 5408.45]
   - - [1024, 3822, 1, 4096]
-    - [941, 9196.2]
+    - [968, 9196.1]
   - - [1024, 3796, 1, 4096]
-    - [941, 9131.96]
+    - [968, 9131.86]
   - - [4096, 3257, 1, 1024]
-    - [939, 9767.34]
+    - [966, 9767.24]
   - - [4096, 3306, 1, 1024]
-    - [939, 9893.35]
+    - [966, 9893.25]
   - - [1024, 3505, 1, 4096]
-    - [959, 9450.02]
+    - [986, 9449.92]
   - - [1024, 3315, 1, 4096]
-    - [952, 8979.77]
+    - [979, 8979.67]
   - - [1024, 3486, 1, 4096]
-    - [958, 9393.48]
+    - [985, 9393.38]
   - - [4096, 3457, 1, 1024]
-    - [939, 9653.19]
+    - [966, 9653.09]
   - - [4096, 3870, 1, 1024]
-    - [936, 9717.51]
+    - [963, 9717.41]
   - - [1024, 3447, 1, 4096]
-    - [959, 9273.14]
+    - [986, 9273.04]
   - - [1024, 3558, 1, 4096]
-    - [956, 9567.33]
+    - [983, 9567.23]
   - - [4096, 3433, 1, 1024]
-    - [936, 9759.26]
+    - [963, 9759.16]
   - - [4096, 3180, 1, 1024]
-    - [951, 9738.63]
+    - [978, 9738.53]
   - - [1024, 3213, 1, 4096]
-    - [937, 8692.25]
+    - [964, 8692.15]
   - - [1024, 3900, 1, 4096]
-    - [941, 9388.61]
+    - [968, 9388.51]
   - - [4096, 3444, 1, 1024]
-    - [950, 9869.73]
+    - [977, 9869.63]
   - - [1024, 3504, 1, 4096]
-    - [959, 9429.38]
+    - [986, 9429.28]
   - - [4096, 4059, 1, 1024]
-    - [940, 9920.79]
+    - [967, 9920.69]
   - - [1024, 3442, 1, 4096]
-    - [959, 9273.01]
+    - [986, 9272.91]
   - - [4096, 3517, 1, 1024]
-    - [939, 9808.19]
+    - [966, 9808.09]
   - - [1024, 3566, 1, 4096]
-    - [958, 9622.89]
+    - [985, 9622.79]
   - - [4096, 3248, 1, 1024]
-    - [939, 9730.33]
+    - [966, 9730.23]
   - - [1024, 3547, 1, 4096]
-    - [958, 9564.73]
+    - [985, 9564.63]
   - - [64, 59, 1088, 59]
-    - [977, 4611.76]
+    - [1004, 4611.66]
   - - [1024, 3340, 1, 4096]
-    - [958, 8992.21]
+    - [985, 8992.11]
   - - [4096, 3480, 1, 1024]
-    - [940, 9710.17]
+    - [967, 9710.07]
   - - [1024, 3968, 1, 4096]
-    - [940, 9543.11]
+    - [967, 9543.01]
   - - [4096, 3424, 1, 1024]
-    - [936, 9808.66]
+    - [963, 9808.56]
   - - [1024, 3906, 1, 1024]
-    - [938, 9150.54]
+    - [965, 9150.44]
   - - [4096, 3265, 1, 1024]
-    - [939, 9786.85]
+    - [966, 9786.75]
   - - [1024, 3384, 1, 4096]
-    - [959, 9119.56]
+    - [986, 9119.46]
   - - [1024, 3494, 1, 4096]
-    - [956, 9415.52]
+    - [983, 9415.42]
   - - [1024, 3236, 1, 4096]
-    - [953, 8767.14]
+    - [980, 8767.04]
   - - [4096, 3497, 1, 1024]
-    - [940, 9750.86]
+    - [967, 9750.76]
   - - [4096, 3354, 1, 1024]
-    - [951, 9665.17]
+    - [978, 9665.07]
   - - [4096, 3055, 1, 1024]
-    - [940, 9884.09]
+    - [967, 9883.99]
   - - [64, 11, 5456, 11]
-    - [963, 1368.34]
+    - [990, 1368.24]
   - - [4096, 3244, 1, 1024]
-    - [939, 9720.02]
+    - [966, 9719.92]
   - - [4096, 3139, 1, 1024]
-    - [950, 9737.06]
+    - [977, 9736.96]
   - - [4096, 3508, 1, 1024]
-    - [939, 9771.66]
+    - [966, 9771.56]
   - - [4096, 4050, 1, 1024]
-    - [939, 9898.79]
+    - [966, 9898.69]
   - - [1024, 3472, 1, 4096]
-    - [958, 9353.83]
+    - [985, 9353.73]
   - - [1024, 3861, 1, 1024]
-    - [937, 9061.32]
+    - [964, 9061.22]
   - - [1024, 3910, 1, 1024]
-    - [941, 9043.54]
+    - [968, 9043.44]
   - - [4096, 3371, 1, 1024]
-    - [951, 9738.24]
+    - [978, 9738.14]
   - - [64, 65, 992, 65]
-    - [990, 4354.59]
+    - [1017, 4354.49]
   - - [1024, 3751, 1, 4096]
-    - [940, 9018.74]
+    - [967, 9018.64]
   - - [4096, 3325, 1, 1024]
-    - [939, 9958.73]
+    - [966, 9958.63]
   - - [1024, 3321, 1, 4096]
-    - [959, 8952.55]
+    - [986, 8952.45]
   - - [1024, 3944, 1, 1024]
-    - [938, 9117.35]
+    - [965, 9117.25]
   - - [4096, 3525, 1, 1024]
-    - [940, 9822.14]
+    - [967, 9822.04]
   - - [4096, 3382, 1, 1024]
-    - [951, 9720.21]
+    - [978, 9720.11]
   - - [64, 122, 528, 122]
-    - [986, 6389.33]
+    - [1013, 6389.23]
   - - [1024, 3453, 1, 4096]
-    - [956, 9305.03]
+    - [983, 9304.93]
   - - [4096, 3564, 1, 1024]
-    - [939, 9911.32]
+    - [966, 9911.22]
   - - [4096, 3288, 1, 1024]
-    - [939, 9841.17]
+    - [966, 9841.07]
   - - [1024, 3925, 1, 4096]
-    - [940, 9418.95]
+    - [967, 9418.85]
   - - [1024, 3057, 1, 4096]
-    - [941, 9590.51]
+    - [968, 9590.41]
   - - [4096, 3488, 1, 1024]
-    - [940, 9732.5]
+    - [967, 9732.4]
   - - [4096, 3046, 1, 1024]
-    - [940, 9850.72]
+    - [967, 9850.62]
   - - [1024, 3189, 1, 4096]
-    - [952, 8677.02]
+    - [979, 8676.92]
   - - [4096, 3399, 1, 1024]
-    - [936, 9673.09]
+    - [963, 9672.99]
   - - [1024, 3383, 1, 4096]
-    - [959, 9102.37]
+    - [986, 9102.27]
   - - [1024, 3415, 1, 4096]
-    - [959, 9216.37]
+    - [986, 9216.27]
   - - [1024, 3388, 1, 4096]
-    - [959, 9127.53]
+    - [986, 9127.43]
   - - [1024, 3376, 1, 4096]
-    - [956, 9090.53]
+    - [983, 9090.43]
   - - [1024, 3473, 1, 4096]
-    - [959, 9354.12]
+    - [986, 9354.02]
   - - [4096, 3162, 1, 1024]
-    - [935, 9694.83]
+    - [962, 9694.73]
   - - [1024, 3448, 1, 4096]
-    - [959, 9283.45]
+    - [986, 9283.35]
   - - [4096, 3362, 1, 1024]
-    - [951, 9673.33]
+    - [978, 9673.23]
   - - [64, 228, 272, 228]
-    - [944, 7039.13]
+    - [971, 7039.03]
   - - [1024, 3262, 1, 4096]
-    - [953, 8850.84]
+    - [980, 8850.74]
   - - [1024, 3184, 1, 4096]
-    - [938, 8625.37]
+    - [965, 8625.27]
   - - [1024, 3378, 1, 4096]
-    - [958, 9105.27]
+    - [985, 9105.17]
   - - [4096, 3548, 1, 1024]
-    - [939, 9877.83]
+    - [966, 9877.73]
   - - [4096, 2977, 1, 1024]
-    - [939, 9647.81]
+    - [966, 9647.71]
   - - [64, 21, 2976, 21]
-    - [974, 2364.81]
+    - [1001, 2364.71]
   - - [64, 112, 576, 111]
-    - [973, 5973.68]
+    - [1000, 5973.58]
   - - [4096, 3443, 1, 1024]
-    - [935, 9784.5]
+    - [962, 9784.4]
   - - [1024, 3289, 1, 4096]
-    - [959, 8874.04]
+    - [986, 8873.94]
   - - [1024, 3483, 1, 4096]
-    - [955, 9380.57]
+    - [982, 9380.47]
   - - [4096, 3190, 1, 1024]
-    - [951, 9850.96]
+    - [978, 9850.86]
   - - [1024, 3421, 1, 4096]
-    - [959, 9214.06]
+    - [986, 9213.96]
   - - [1024, 3514, 1, 4096]
-    - [958, 9458.23]
+    - [985, 9458.13]
   - - [1024, 3532, 1, 4096]
-    - [959, 9513.03]
+    - [986, 9512.93]
   - - [1024, 3565, 1, 4096]
-    - [958, 9630.6]
+    - [985, 9630.5]
   - - [4096, 3422, 1, 1024]
-    - [936, 9733.79]
+    - [963, 9733.69]
   - - [4096, 3263, 1, 1024]
-    - [940, 9776.94]
+    - [967, 9776.84]
   - - [4096, 3296, 1, 1024]
-    - [940, 9860.61]
+    - [967, 9860.51]
   - - [4096, 3640, 1, 1024]
-    - [950, 9782.3]
+    - [977, 9782.2]
   - - [4096, 3463, 1, 1024]
-    - [939, 9672.0]
+    - [966, 9671.9]
   - - [4096, 3528, 1, 1024]
-    - [940, 9829.98]
+    - [967, 9829.88]
   - - [1024, 3351, 1, 4096]
-    - [953, 9054.37]
+    - [980, 9054.27]
   - - [1024, 3462, 1, 4096]
-    - [959, 9327.85]
+    - [986, 9327.75]
   - - [4096, 3226, 1, 1024]
-    - [940, 9674.93]
+    - [967, 9674.83]
   - - [4096, 3439, 1, 1024]
-    - [935, 9823.18]
+    - [962, 9823.08]
   - - [4096, 3121, 1, 1024]
-    - [935, 9672.64]
+    - [962, 9672.54]
   - - [1024, 4059, 1, 33708]
-    - [939, 9885.72]
+    - [966, 9885.62]
   - - [1024, 3311, 1, 4096]
-    - [959, 8910.01]
+    - [986, 8909.91]
   - - [1024, 3230, 1, 4096]
-    - [959, 8705.9]
+    - [986, 8705.8]
   - - [4096, 3353, 1, 1024]
-    - [951, 9671.86]
+    - [978, 9671.76]
   - - [4096, 3402, 1, 1024]
-    - [936, 9727.04]
+    - [963, 9726.94]
   - - [1024, 3427, 1, 4096]
-    - [959, 9233.55]
+    - [986, 9233.45]
   - - [1024, 3346, 1, 4096]
-    - [959, 9015.77]
+    - [986, 9015.67]
   - - [1024, 3126, 1, 4096]
-    - [953, 8519.31]
+    - [980, 8519.21]
   - - [1024, 3796, 1, 1024]
-    - [937, 8916.75]
+    - [964, 8916.65]
   - - [1024, 3990, 1, 4096]
-    - [941, 9600.86]
+    - [968, 9600.76]
   - - [1024, 3257, 1, 4096]
-    - [937, 8790.42]
+    - [964, 8790.32]
   - - [4096, 3996, 1, 1024]
-    - [940, 9788.25]
+    - [967, 9788.15]
   - - [64, 143, 432, 143]
-    - [968, 6087.24]
+    - [995, 6087.14]
   - - [1024, 3306, 1, 4096]
-    - [952, 9035.69]
+    - [979, 9035.59]
   - - [1024, 3389, 1, 4096]
-    - [959, 9134.92]
+    - [986, 9134.82]
   - - [1024, 3500, 1, 4096]
-    - [959, 9443.33]
+    - [986, 9443.23]
   - - [1024, 3999, 1, 33708]
-    - [940, 9741.24]
+    - [967, 9741.14]
   - - [4096, 3486, 1, 1024]
-    - [940, 9719.67]
+    - [967, 9719.57]
   - - [1024, 3438, 1, 4096]
-    - [959, 9259.38]
+    - [986, 9259.28]
   - - [4096, 3616, 1, 1024]
-    - [950, 9739.77]
+    - [977, 9739.67]
   - - [1024, 3955, 1, 1024]
-    - [952, 9260.37]
+    - [979, 9260.27]
   - - [4096, 3430, 1, 1024]
-    - [951, 9819.95]
+    - [978, 9819.85]
   - - [4096, 3271, 1, 1024]
-    - [940, 9802.04]
+    - [967, 9801.94]
   - - [1024, 3364, 1, 4096]
-    - [952, 9144.63]
+    - [979, 9144.53]
   - - [64, 54, 1184, 54]
-    - [972, 4315.78]
+    - [999, 4315.68]
   - - [1024, 3497, 1, 4096]
-    - [959, 9429.42]
+    - [986, 9429.32]
   - - [4096, 3503, 1, 1024]
-    - [939, 9764.48]
+    - [966, 9764.38]
   - - [4096, 3344, 1, 1024]
-    - [936, 9614.16]
+    - [963, 9614.06]
   - - [1024, 3457, 1, 4096]
-    - [959, 9320.6]
+    - [986, 9320.5]
   - - [4096, 3466, 1, 1024]
-    - [939, 9677.81]
+    - [966, 9677.71]
   - - [1024, 3976, 1, 33708]
-    - [940, 9685.38]
+    - [967, 9685.28]
   - - [1024, 3395, 1, 4096]
-    - [958, 9146.39]
+    - [985, 9146.29]
   - - [4096, 3361, 1, 1024]
-    - [950, 9677.89]
+    - [977, 9677.79]
   - - [1024, 3751, 1, 33708]
-    - [948, 9234.69]
+    - [975, 9234.59]
   - - [1024, 3822, 1, 1024]
-    - [937, 8977.83]
+    - [964, 8977.73]
   - - [4096, 3315, 1, 1024]
-    - [940, 9922.54]
+    - [967, 9922.44]
   - - [1024, 3163, 1, 4096]
-    - [952, 8577.79]
+    - [979, 8577.69]
   - - [4096, 3547, 1, 1024]
-    - [940, 9882.92]
+    - [967, 9882.82]
   - - [4096, 3340, 1, 1024]
-    - [950, 9635.42]
+    - [977, 9635.32]
   - - [1024, 3296, 1, 4096]
-    - [959, 8874.66]
+    - [986, 8874.56]
   - - [1024, 3468, 1, 4096]
-    - [959, 9350.26]
+    - [986, 9350.16]
   - - [4096, 3294, 1, 1024]
-    - [939, 9856.87]
+    - [966, 9856.77]
   - - [1024, 3406, 1, 4096]
-    - [955, 9162.84]
+    - [982, 9162.74]
   - - [1024, 3860, 1, 33708]
-    - [939, 9403.56]
+    - [966, 9403.46]
   - - [1024, 3584, 1, 4096]
-    - [956, 9677.44]
+    - [983, 9677.34]
   - - [4096, 3189, 1, 1024]
-    - [951, 9820.69]
+    - [978, 9820.59]
   - - [4096, 3494, 1, 1024]
-    - [939, 9747.68]
+    - [966, 9747.58]
   - - [64, 135, 480, 135]
-    - [965, 5966.34]
+    - [992, 5966.24]
   - - [1024, 3093, 1, 4096]
-    - [953, 8446.06]
+    - [980, 8445.96]
   - - [4096, 3421, 1, 1024]
-    - [936, 9776.03]
+    - [963, 9775.93]
   - - [1024, 3479, 1, 4096]
-    - [959, 9376.54]
+    - [986, 9376.44]
   - - [1024, 3433, 1, 4096]
-    - [959, 9251.14]
+    - [986, 9251.04]
   - - [4096, 3311, 1, 1024]
-    - [939, 9901.53]
+    - [966, 9901.43]
   - - [1024, 3381, 1, 4096]
-    - [959, 9103.99]
+    - [986, 9103.89]
   - - [1024, 3996, 1, 4096]
-    - [940, 9609.56]
+    - [967, 9609.46]
   - - [4096, 3384, 1, 1024]
-    - [950, 9750.01]
+    - [977, 9749.91]
   - - [1024, 3247, 1, 4096]
-    - [938, 8872.59]
+    - [965, 8872.49]
   - - [1024, 3169, 1, 4096]
-    - [937, 8597.61]
+    - [964, 8597.51]
   - - [1024, 3088, 1, 4096]
-    - [953, 8410.07]
+    - [980, 8409.97]
   - - [1024, 3363, 1, 4096]
-    - [959, 9069.5]
+    - [986, 9069.4]
   - - [1024, 3538, 1, 4096]
-    - [958, 9529.68]
+    - [985, 9529.58]
   - - [1024, 3996, 1, 1024]
-    - [942, 9323.06]
+    - [969, 9322.96]
   - - [4096, 3169, 1, 1024]
-    - [936, 9821.4]
+    - [963, 9821.3]
   - - [4096, 3538, 1, 1024]
-    - [939, 9859.42]
+    - [966, 9859.32]
   - - [4096, 3401, 1, 1024]
-    - [936, 9754.5]
+    - [963, 9754.4]
   - - [4096, 3581, 1, 1024]
-    - [939, 9960.71]
+    - [966, 9960.61]
   - - [1024, 3180, 1, 4096]
-    - [937, 8635.05]
+    - [964, 8634.95]
   - - [1024, 3870, 1, 1024]
-    - [938, 9085.69]
+    - [965, 9085.59]
   - - [4096, 3555, 1, 1024]
-    - [939, 9905.74]
+    - [966, 9905.64]
   - - [4096, 3412, 1, 1024]
-    - [951, 9778.56]
+    - [978, 9778.46]
   - - [4096, 3302, 1, 1024]
-    - [939, 9888.71]
+    - [966, 9888.61]
   - - [1024, 3561, 1, 4096]
-    - [955, 9597.05]
+    - [982, 9596.95]
   - - [1024, 3302, 1, 4096]
-    - [959, 8900.87]
+    - [986, 8900.77]
   - - [1024, 3976, 1, 4096]
-    - [941, 9563.22]
+    - [968, 9563.12]
   - - [4096, 3485, 1, 1024]
-    - [939, 9722.57]
+    - [966, 9722.47]
   - - [4096, 3534, 1, 1024]
-    - [939, 9847.22]
+    - [966, 9847.12]
   - - [1024, 3110, 1, 4096]
-    - [952, 8458.56]
+    - [979, 8458.46]
   - - [1024, 3401, 1, 4096]
-    - [959, 9174.81]
+    - [986, 9174.71]
   - - [4096, 3216, 1, 1024]
-    - [939, 9645.49]
+    - [966, 9645.39]
   - - [1024, 4020, 1, 33708]
-    - [939, 9793.61]
+    - [966, 9793.51]
   - - [1024, 3215, 1, 4096]
-    - [959, 8677.51]
+    - [986, 8677.41]
   - - [4096, 3566, 1, 1024]
-    - [939, 9924.78]
+    - [966, 9924.68]
   - - [1024, 3137, 1, 4096]
-    - [937, 8547.07]
+    - [964, 8546.97]
   - - [4096, 3359, 1, 1024]
-    - [936, 9673.73]
+    - [963, 9673.63]
   - - [4096, 3392, 1, 1024]
-    - [951, 9757.51]
+    - [978, 9757.41]
   - - [1024, 3506, 1, 4096]
-    - [959, 9443.0]
+    - [986, 9442.9]
   - - [4096, 3233, 1, 1024]
-    - [939, 9698.7]
+    - [966, 9698.6]
   - - [1024, 3444, 1, 4096]
-    - [959, 9275.54]
+    - [986, 9275.44]
   - - [1024, 3975, 1, 4096]
-    - [940, 9556.87]
+    - [967, 9556.77]
   - - [1024, 3870, 1, 33708]
-    - [939, 9427.44]
+    - [966, 9427.34]
   - - [4096, 3465, 1, 1024]
-    - [940, 9675.01]
+    - [967, 9674.91]
   - - [4096, 3968, 1, 1024]
-    - [936, 9927.93]
+    - [963, 9927.83]
   - - [1024, 3523, 1, 4096]
-    - [959, 9494.15]
+    - [986, 9494.05]
   - - [64, 10, 5952, 10]
-    - [963, 1224.16]
+    - [990, 1224.06]
   - - [4096, 3990, 1, 1024]
-    - [939, 9771.27]
+    - [966, 9771.17]
   - - [1024, 3549, 1, 4096]
-    - [958, 9553.42]
+    - [985, 9553.32]
   - - [1024, 3342, 1, 4096]
-    - [959, 9007.31]
+    - [986, 9007.21]
   - - [4096, 3476, 1, 1024]
-    - [939, 9703.66]
+    - [966, 9703.56]
   - - [64, 232, 272, 228]
-    - [945, 7078.93]
+    - [972, 7078.83]
   - - [1024, 3418, 1, 4096]
-    - [959, 9213.09]
+    - [986, 9212.99]
   - - [1024, 3859, 1, 1024]
-    - [938, 9087.54]
+    - [965, 9087.44]
   - - [4096, 3339, 1, 1024]
-    - [951, 9594.0]
+    - [978, 9593.9]
   - - [4096, 3452, 1, 1024]
-    - [936, 9872.69]
+    - [963, 9872.59]
   - - [4096, 3293, 1, 1024]
-    - [939, 9842.65]
+    - [966, 9842.55]
   - - [4096, 3840, 1, 1024]
-    - [940, 10030.8]
+    - [967, 10030.7]
   - - [1024, 3369, 1, 4096]
-    - [937, 9099.72]
+    - [964, 9099.62]
   - - [64, 193, 320, 193]
-    - [967, 6425.8]
+    - [994, 6425.7]
   - - [1024, 3544, 1, 4096]
-    - [956, 9556.64]
+    - [983, 9556.54]
   - - [4096, 3493, 1, 1024]
-    - [940, 9743.34]
+    - [967, 9743.24]
   - - [4096, 3350, 1, 1024]
-    - [951, 9653.11]
+    - [978, 9653.01]
   - - [64, 71, 896, 71]
-    - [991, 4686.73]
+    - [1018, 4686.63]
   - - [4096, 3256, 1, 1024]
-    - [939, 9763.78]
+    - [966, 9763.68]
   - - [1024, 3870, 1, 4096]
-    - [941, 9305.28]
+    - [968, 9305.18]
   - - [4096, 4012, 1, 1024]
-    - [940, 9817.35]
+    - [967, 9817.25]
   - - [1024, 3280, 1, 4096]
-    - [959, 8842.02]
+    - [986, 8841.92]
   - - [4096, 3456, 1, 1024]
-    - [935, 9874.43]
+    - [962, 9874.33]
   - - [1024, 3555, 1, 4096]
-    - [958, 9599.63]
+    - [985, 9599.53]
   - - [4096, 3014, 1, 1024]
-    - [939, 9762.28]
+    - [966, 9762.18]
   - - [1024, 3474, 1, 4096]
-    - [959, 9373.67]
+    - [986, 9373.57]
   - - [4096, 3367, 1, 1024]
-    - [935, 9694.64]
+    - [962, 9694.54]
   - - [4096, 3432, 1, 1024]
-    - [951, 9855.27]
+    - [978, 9855.17]
   - - [64, 84, 752, 84]
-    - [978, 5247.18]
+    - [1005, 5247.08]
   - - [4096, 3273, 1, 1024]
-    - [940, 9801.87]
+    - [967, 9801.77]
   - - [4096, 3130, 1, 1024]
-    - [936, 9672.52]
+    - [963, 9672.42]
   - - [1024, 2984, 1, 4096]
-    - [941, 9403.7]
+    - [968, 9403.6]
   - - [1024, 3995, 1, 1024]
-    - [953, 9392.61]
+    - [980, 9392.51]
   - - [1024, 3517, 1, 4096]
-    - [959, 9481.39]
+    - [986, 9481.29]
   - - [1024, 3455, 1, 4096]
-    - [959, 9302.29]
+    - [986, 9302.19]
   - - [1024, 3939, 1, 4096]
-    - [941, 9469.89]
+    - [968, 9469.79]
   - - [64, 49, 1296, 49]
-    - [971, 3938.96]
+    - [998, 3938.86]
   - - [64, 14, 4368, 14]
-    - [963, 1802.47]
+    - [990, 1802.37]
   - - [64, 25, 2512, 25]
-    - [982, 2760.54]
+    - [1009, 2760.44]
   - - [4096, 3147, 1, 1024]
-    - [951, 9713.03]
+    - [978, 9712.93]
   - - [4096, 3516, 1, 1024]
-    - [939, 9805.93]
+    - [966, 9805.83]
   - - [1024, 3876, 1, 4096]
-    - [941, 9320.56]
+    - [968, 9320.46]
   - - [1024, 3191, 1, 4096]
-    - [938, 8640.76]
+    - [965, 8640.66]
   - - [4096, 3411, 1, 1024]
-    - [950, 9737.37]
+    - [977, 9737.27]
   - - [1024, 3337, 1, 4096]
-    - [959, 8990.13]
+    - [986, 8990.03]
   - - [1024, 3512, 1, 4096]
-    - [959, 9459.65]
+    - [986, 9459.55]
   - - [4096, 3301, 1, 1024]
-    - [939, 9877.26]
+    - [966, 9877.16]
   - - [1024, 3450, 1, 4096]
-    - [958, 9283.11]
+    - [985, 9283.01]
   - - [4096, 3533, 1, 1024]
-    - [939, 9848.62]
+    - [966, 9848.52]
   - - [4096, 3390, 1, 1024]
-    - [951, 9764.61]
+    - [978, 9764.51]
   - - [4096, 3231, 1, 1024]
-    - [939, 9693.81]
+    - [966, 9693.71]
   - - [1024, 2499, 1, 4096]
-    - [958, 9304.81]
+    - [985, 9304.71]
   - - [1024, 3186, 1, 4096]
-    - [938, 8649.55]
+    - [965, 8649.45]
   - - [1024, 3380, 1, 4096]
-    - [959, 9101.77]
+    - [986, 9101.67]
   - - [4096, 3496, 1, 1024]
-    - [940, 9754.3]
+    - [967, 9754.2]
   - - [1024, 3956, 1, 33708]
-    - [939, 9636.77]
+    - [966, 9636.67]
   - - [1024, 3976, 1, 1024]
-    - [941, 9248.41]
+    - [968, 9248.31]
   - - [4096, 2736, 1, 1024]
-    - [939, 9651.91]
+    - [966, 9651.81]
   - - [1024, 3291, 1, 4096]
-    - [959, 8868.94]
+    - [986, 8868.84]
   - - [1024, 3944, 1, 33708]
-    - [940, 9607.0]
+    - [967, 9606.9]
   - - [1024, 3485, 1, 4096]
-    - [958, 9385.96]
+    - [985, 9385.86]
   - - [4096, 3138, 1, 1024]
-    - [936, 9672.15]
+    - [963, 9672.05]
   - - [1024, 3423, 1, 4096]
-    - [959, 9222.77]
+    - [986, 9222.67]
   - - [1024, 3491, 1, 4096]
-    - [959, 9405.02]
+    - [986, 9404.92]
   - - [1024, 3860, 1, 4096]
-    - [942, 9282.94]
+    - [969, 9282.84]
   - - [4096, 3211, 1, 1024]
-    - [939, 9640.42]
+    - [966, 9640.32]
   - - [1024, 3221, 1, 4096]
-    - [953, 8709.4]
+    - [980, 8709.3]
   - - [1024, 2917, 1, 4096]
-    - [941, 9177.11]
+    - [968, 9177.01]
   - - [4096, 3475, 1, 1024]
-    - [939, 9703.45]
+    - [966, 9703.35]
   - - [4096, 3524, 1, 1024]
-    - [939, 9816.23]
+    - [966, 9816.13]
   - - [4096, 2985, 1, 1024]
-    - [940, 9686.91]
+    - [967, 9686.81]
   - - [1024, 3480, 1, 4096]
-    - [959, 9380.2]
+    - [986, 9380.1]
   - - [4096, 3222, 1, 1024]
-    - [939, 9666.8]
+    - [966, 9666.7]
   - - [4096, 3451, 1, 1024]
-    - [935, 9877.91]
+    - [962, 9877.81]
   - - [1024, 3969, 1, 33708]
-    - [939, 9669.64]
+    - [966, 9669.54]
   - - [1024, 3640, 1, 1024]
-    - [946, 8565.68]
+    - [973, 8565.58]
   - - [1024, 3297, 1, 4096]
-    - [955, 8889.22]
+    - [982, 8889.12]
   - - [4096, 3944, 1, 1024]
-    - [936, 9902.85]
+    - [963, 9902.75]
   - - [1024, 3216, 1, 4096]
-    - [938, 8695.88]
+    - [965, 8695.78]
   - - [1024, 3840, 1, 1024]
-    - [952, 9046.05]
+    - [979, 9045.95]
   - - [4096, 3349, 1, 1024]
-    - [950, 9676.82]
+    - [977, 9676.72]
   - - [4096, 3398, 1, 1024]
-    - [936, 9775.84]
+    - [963, 9775.74]
   - - [1024, 3154, 1, 4096]
-    - [953, 8662.26]
+    - [980, 8662.16]
   - - [1024, 3978, 1, 33708]
-    - [940, 9689.16]
+    - [967, 9689.06]
   - - [1024, 3348, 1, 4096]
-    - [959, 9014.67]
+    - [986, 9014.57]
   - - [4096, 3304, 1, 1024]
-    - [940, 9886.8]
+    - [967, 9886.7]
   - - [4096, 4030, 1, 1024]
-    - [940, 9859.1]
+    - [967, 9859.0]
   - - [1024, 4026, 1, 1024]
-    - [937, 9326.64]
+    - [964, 9326.54]
   - - [4096, 3471, 1, 1024]
-    - [939, 9683.0]
+    - [966, 9682.9]
   - - [1024, 3259, 1, 4096]
-    - [953, 8792.19]
+    - [980, 8792.09]
   - - [64, 132, 480, 132]
-    - [993, 6027.86]
+    - [1020, 6027.76]
   - - [1024, 3308, 1, 4096]
-    - [958, 8905.14]
+    - [985, 8905.04]
   - - [4096, 3391, 1, 1024]
-    - [951, 9765.35]
+    - [978, 9765.25]
   - - [1024, 3312, 1, 4096]
-    - [959, 8917.74]
+    - [986, 8917.64]
   - - [1024, 3502, 1, 4096]
-    - [959, 9435.62]
+    - [986, 9435.52]
   - - [1024, 3968, 1, 33708]
-    - [939, 9668.24]
+    - [966, 9668.14]
   - - [1024, 3424, 1, 4096]
-    - [955, 9215.99]
+    - [982, 9215.89]
   - - [64, 13, 4672, 13]
-    - [964, 1662.35]
+    - [991, 1662.25]
   - - [4096, 4032, 1, 1024]
-    - [950, 9877.82]
+    - [977, 9877.72]
   - - [1024, 3900, 1, 1024]
-    - [953, 9116.93]
+    - [980, 9116.83]
   - - [4096, 3442, 1, 1024]
-    - [950, 9773.18]
+    - [977, 9773.08]
   - - [1024, 3366, 1, 4096]
-    - [959, 9079.46]
+    - [986, 9079.36]
   - - [4096, 3999, 1, 1024]
-    - [939, 9786.46]
+    - [966, 9786.36]
   - - [1024, 3477, 1, 4096]
-    - [959, 9364.89]
+    - [986, 9364.79]
   - - [1024, 2505, 1, 4096]
-    - [959, 9304.03]
+    - [986, 9303.93]
   - - [4096, 3515, 1, 1024]
-    - [939, 9797.93]
+    - [966, 9797.83]
   - - [1024, 3564, 1, 4096]
-    - [955, 9632.86]
+    - [982, 9632.76]
   - - [4096, 3057, 1, 1024]
-    - [940, 9880.19]
+    - [967, 9880.09]
   - - [1024, 3339, 1, 4096]
-    - [938, 9029.86]
+    - [965, 9029.76]
   - - [4096, 3262, 1, 1024]
-    - [939, 9780.1]
+    - [966, 9780.0]
   - - [1024, 4030, 1, 4096]
-    - [942, 9682.0]
+    - [969, 9681.9]
   - - [1024, 3265, 1, 4096]
-    - [959, 8797.52]
+    - [986, 8797.42]
   - - [1024, 3459, 1, 4096]
-    - [959, 9313.06]
+    - [986, 9312.96]
   - - [4096, 3462, 1, 1024]
-    - [940, 9669.73]
+    - [967, 9669.63]
   - - [64, 85, 752, 85]
-    - [978, 5186.93]
+    - [1005, 5186.83]
   - - [1024, 3513, 1, 4096]
-    - [956, 9469.15]
+    - [983, 9469.05]
   - - [1024, 3397, 1, 4096]
-    - [959, 9151.77]
+    - [986, 9151.67]
   - - [4096, 3572, 1, 1024]
-    - [939, 9945.7]
+    - [966, 9945.6]
   - - [4096, 3389, 1, 1024]
-    - [951, 9740.86]
+    - [978, 9740.76]
   - - [4096, 3438, 1, 1024]
-    - [951, 9822.47]
+    - [978, 9822.37]
   - - [64, 102, 624, 100]
-    - [986, 5487.0]
+    - [1013, 5486.9]
   - - [1024, 3640, 1, 33708]
-    - [947, 9083.53]
+    - [974, 9083.43]
   - - [1024, 3995, 1, 33708]
-    - [940, 9731.99]
+    - [967, 9731.89]
   - - [1024, 3165, 1, 4096]
-    - [952, 8601.9]
+    - [979, 8601.8]
   - - [4096, 3543, 1, 1024]
-    - [940, 9868.63]
+    - [967, 9868.53]
   - - [4096, 3352, 1, 1024]
-    - [935, 9668.44]
+    - [962, 9668.34]
   - - [1024, 3359, 1, 4096]
-    - [956, 9050.33]
+    - [983, 9050.23]
   - - [1024, 3470, 1, 4096]
-    - [959, 9355.17]
+    - [986, 9355.07]
   - - [64, 15, 4096, 15]
-    - [963, 1945.43]
+    - [990, 1945.33]
   - - [1024, 3392, 1, 4096]
-    - [958, 9139.71]
+    - [985, 9139.61]
   - - [64, 78, 816, 77]
-    - [970, 4870.56]
+    - [997, 4870.46]
   - - [4096, 3137, 1, 1024]
-    - [935, 9600.22]
+    - [962, 9600.12]
   - - [4096, 3506, 1, 1024]
-    - [940, 9779.08]
+    - [967, 9778.98]
   - - [1024, 3095, 1, 4096]
-    - [952, 8381.24]
+    - [979, 8381.14]
   - - [1024, 3859, 1, 4096]
-    - [939, 9288.63]
+    - [966, 9288.53]
   - - [4096, 3369, 1, 1024]
-    - [951, 9697.73]
+    - [978, 9697.63]
   - - [64, 45, 1424, 45]
-    - [988, 3883.74]
+    - [1015, 3883.64]
   - - [1024, 3435, 1, 4096]
-    - [959, 9264.62]
+    - [986, 9264.52]
   - - [1024, 3354, 1, 4096]
-    - [959, 9035.47]
+    - [986, 9035.37]
   - - [1024, 3055, 1, 4096]
-    - [940, 9597.45]
+    - [967, 9597.35]
   - - [4096, 3523, 1, 1024]
-    - [939, 9821.79]
+    - [966, 9821.69]
   - - [4096, 3380, 1, 1024]
-    - [935, 9721.39]
+    - [962, 9721.29]
   - - [1024, 3233, 1, 4096]
-    - [952, 8724.75]
+    - [979, 8724.65]
   - - [4096, 3221, 1, 1024]
-    - [939, 9661.04]
+    - [966, 9660.94]
   - - [4096, 3270, 1, 1024]
-    - [939, 9797.92]
+    - [966, 9797.82]
   - - [4096, 3593, 1, 1024]
-    - [950, 9679.31]
+    - [977, 9679.21]
   - - [1024, 3358, 1, 4096]
-    - [959, 9051.82]
+    - [986, 9051.72]
   - - [1024, 3540, 1, 4096]
-    - [959, 9533.59]
+    - [986, 9533.49]
   - - [4096, 3502, 1, 1024]
-    - [940, 9760.65]
+    - [967, 9760.55]
   - - [4096, 2505, 1, 1024]
-    - [940, 9680.52]
+    - [967, 9680.42]
   - - [4096, 3397, 1, 1024]
-    - [950, 9785.85]
+    - [977, 9785.75]
   - - [1024, 3300, 1, 4096]
-    - [953, 8907.85]
+    - [980, 8907.75]
   - - [4096, 3095, 1, 1024]
-    - [936, 9618.78]
+    - [963, 9618.68]
   - - [1024, 3182, 1, 4096]
-    - [952, 8606.16]
+    - [979, 8606.06]
   - - [1024, 3299, 1, 4096]
-    - [958, 8885.48]
+    - [985, 8885.38]
   - - [1024, 3276, 1, 4096]
-    - [953, 8872.75]
+    - [980, 8872.65]
   - - [1024, 3360, 1, 4096]
-    - [956, 9044.2]
+    - [983, 9044.1]
   - - [4096, 3360, 1, 1024]
-    - [951, 9681.39]
+    - [978, 9681.29]
   - - [4096, 2918, 1, 1024]
-    - [935, 9732.74]
+    - [962, 9732.64]
   - - [1024, 3939, 1, 33708]
-    - [939, 9595.96]
+    - [966, 9595.86]
   - - [4096, 3314, 1, 1024]
-    - [940, 9915.02]
+    - [967, 9914.92]
   - - [1024, 3319, 1, 4096]
-    - [959, 8956.37]
+    - [986, 8956.27]
   - - [64, 35, 1808, 35]
-    - [976, 3060.27]
+    - [1003, 3060.17]
   - - [1024, 3942, 1, 1024]
-    - [952, 9211.83]
+    - [979, 9211.73]
   - - [1024, 3465, 1, 4096]
-    - [959, 9340.73]
+    - [986, 9340.63]
   - - [4096, 3546, 1, 1024]
-    - [940, 9875.41]
+    - [967, 9875.31]
   - - [1024, 3403, 1, 4096]
-    - [952, 9224.34]
+    - [979, 9224.24]
   - - [1024, 3948, 1, 1024]
-    - [938, 9245.63]
+    - [965, 9245.53]
   - - [4096, 3441, 1, 1024]
-    - [951, 9758.72]
+    - [978, 9758.62]
   - - [1024, 3139, 1, 4096]
-    - [952, 8582.84]
+    - [979, 8582.74]
   - - [1024, 3563, 1, 4096]
-    - [959, 9620.74]
+    - [986, 9620.64]
   - - [1024, 3508, 1, 4096]
-    - [956, 9449.36]
+    - [983, 9449.26]
   - - [1024, 3975, 1, 33708]
-    - [939, 9683.55]
+    - [966, 9683.45]
   - - [1024, 3446, 1, 4096]
-    - [958, 9289.51]
+    - [985, 9289.41]
   - - [1024, 3529, 1, 4096]
-    - [955, 9491.29]
+    - [982, 9491.19]
   - - [64, 112, 576, 112]
-    - [980, 6387.14]
+    - [1007, 6387.04]
   - - [4096, 3461, 1, 1024]
-    - [940, 9663.33]
+    - [967, 9663.23]
   - - [1024, 3574, 1, 4096]
-    - [958, 9662.88]
+    - [985, 9662.78]
   - - [1024, 3101, 1, 4096]
-    - [953, 8468.34]
+    - [980, 8468.24]
   - - [1024, 3927, 1, 1024]
-    - [938, 9207.97]
+    - [965, 9207.87]
   - - [4096, 3224, 1, 1024]
-    - [940, 9665.61]
+    - [967, 9665.51]
   - - [4096, 3437, 1, 1024]
-    - [936, 9857.21]
+    - [963, 9857.11]
   - - [4096, 3900, 1, 1024]
-    - [951, 9826.25]
+    - [978, 9826.15]
   - - [1024, 3495, 1, 4096]
-    - [959, 9412.41]
+    - [986, 9412.31]
   - - [1024, 3977, 1, 33708]
-    - [939, 9687.87]
+    - [966, 9687.77]
   - - [1024, 3328, 1, 4096]
-    - [959, 8975.57]
+    - [986, 8975.47]
   - - [4096, 3168, 1, 1024]
-    - [935, 9754.87]
+    - [962, 9754.77]
   - - [1024, 4026, 1, 33708]
-    - [939, 9807.24]
+    - [966, 9807.14]
   - - [1024, 3292, 1, 4096]
-    - [952, 8901.83]
+    - [979, 8901.73]
   - - [1024, 3294, 1, 4096]
-    - [959, 8877.03]
+    - [986, 8876.93]
   - - [4096, 3335, 1, 1024]
-    - [936, 9616.23]
+    - [963, 9616.13]
   - - [4096, 3400, 1, 1024]
-    - [950, 9710.73]
+    - [977, 9710.63]
   - - [1024, 3287, 1, 4096]
-    - [937, 8908.07]
+    - [964, 8907.97]
   - - [1024, 3910, 1, 4096]
-    - [941, 9401.03]
+    - [968, 9400.93]
   - - [1024, 3780, 1, 1024]
-    - [952, 8863.29]
+    - [979, 8863.19]
   - - [4096, 3098, 1, 1024]
-    - [936, 9606.47]
+    - [963, 9606.37]
   - - [1024, 3584, 1, 33708]
-    - [959, 9775.33]
+    - [986, 9775.23]
   - - [64, 29, 2176, 29]
-    - [981, 3135.03]
+    - [1008, 3134.93]
   - - [1024, 3371, 1, 4096]
-    - [937, 9117.81]
+    - [964, 9117.71]
   - - [1024, 3546, 1, 4096]
-    - [959, 9547.3]
+    - [986, 9547.2]
   - - [1024, 4012, 1, 1024]
-    - [941, 9353.73]
+    - [968, 9353.63]
   - - [4096, 3505, 1, 1024]
-    - [939, 9773.17]
+    - [966, 9773.07]
   - - [4096, 3554, 1, 1024]
-    - [939, 9895.59]
+    - [966, 9895.49]
   - - [4096, 3063, 1, 1024]
-    - [939, 9898.98]
+    - [966, 9898.88]
   - - [1024, 3900, 1, 33708]
-    - [940, 9502.93]
+    - [967, 9502.83]
   - - [1024, 3345, 1, 4096]
-    - [959, 9015.85]
+    - [986, 9015.75]
   - - [1024, 3357, 1, 4096]
-    - [959, 9041.23]
+    - [986, 9041.13]
   - - [1024, 3282, 1, 4096]
-    - [952, 8860.17]
+    - [979, 8860.07]
   - - [4096, 3484, 1, 1024]
-    - [940, 9721.33]
+    - [967, 9721.23]
   - - [1024, 3557, 1, 4096]
-    - [956, 9573.48]
+    - [983, 9573.38]
   - - [1024, 3476, 1, 4096]
-    - [959, 9361.72]
+    - [986, 9361.62]
   - - [1024, 3751, 1, 1024]
-    - [953, 8849.11]
+    - [980, 8849.01]
   - - [4096, 3379, 1, 1024]
-    - [936, 9741.49]
+    - [963, 9741.39]
   - - [4096, 3428, 1, 1024]
-    - [935, 9767.82]
+    - [962, 9767.72]
   - - [4096, 3126, 1, 1024]
-    - [950, 9701.9]
+    - [977, 9701.8]
   - - [64, 41, 1552, 41]
-    - [985, 3555.69]
+    - [1012, 3555.59]
   - - [1024, 3325, 1, 4096]
-    - [937, 8962.41]
+    - [964, 8962.31]
   - - [4096, 3501, 1, 1024]
-    - [939, 9762.01]
+    - [966, 9761.91]
   - - [4096, 3358, 1, 1024]
-    - [935, 9680.42]
+    - [962, 9680.32]
   - - [1024, 3441, 1, 4096]
-    - [959, 9271.27]
+    - [986, 9271.17]
   - - [1024, 3552, 1, 4096]
-    - [955, 9565.42]
+    - [982, 9565.32]
   - - [4096, 3232, 1, 1024]
-    - [940, 9696.81]
+    - [967, 9696.71]
   - - [64, 18, 3440, 18]
-    - [960, 2059.33]
+    - [987, 2059.23]
   - - [1024, 3412, 1, 4096]
-    - [959, 9199.28]
+    - [986, 9199.18]
   - - [1024, 3372, 1, 4096]
-    - [956, 9083.49]
+    - [983, 9083.39]
   - - [1024, 3585, 1, 4096]
-    - [946, 8710.29]
+    - [973, 8710.19]
   - - [4096, 3143, 1, 1024]
-    - [951, 9692.12]
+    - [978, 9692.02]
   - - [4096, 3464, 1, 1024]
-    - [939, 9661.93]
+    - [966, 9661.83]
   - - [1024, 3145, 1, 4096]
-    - [938, 8526.33]
+    - [965, 8526.23]
   - - [4096, 3375, 1, 1024]
-    - [950, 9734.78]
+    - [977, 9734.68]
   - - [4096, 2917, 1, 1024]
-    - [935, 9714.57]
+    - [962, 9714.47]
   - - [4096, 3978, 1, 1024]
-    - [940, 9741.43]
+    - [967, 9741.33]
   - - [1024, 2765, 1, 4096]
-    - [941, 8706.75]
+    - [968, 8706.65]
   - - [64, 148, 432, 148]
-    - [966, 6372.17]
+    - [993, 6372.07]
   - - [1024, 3452, 1, 4096]
-    - [958, 9301.38]
+    - [985, 9301.28]
   - - [4096, 3584, 1, 1024]
-    - [940, 10005.7]
+    - [967, 10005.6]
   - - [4096, 3545, 1, 1024]
-    - [940, 9877.87]
+    - [967, 9877.77]
   - - [1024, 3352, 1, 4096]
-    - [959, 9035.19]
+    - [986, 9035.09]
   - - [64, 159, 400, 160]
-    - [968, 6952.11]
+    - [995, 6952.01]
   - - [4096, 3292, 1, 1024]
-    - [939, 9856.51]
+    - [966, 9856.41]
   - - [1024, 3525, 1, 4096]
-    - [959, 9501.5]
+    - [986, 9501.4]
   - - [1024, 3266, 1, 4096]
-    - [959, 8817.43]
+    - [986, 8817.33]
   - - [1024, 3382, 1, 4096]
-    - [958, 9101.54]
+    - [985, 9101.44]
   - - [4096, 3492, 1, 1024]
-    - [939, 9747.29]
+    - [966, 9747.19]
   - - [4096, 3419, 1, 1024]
-    - [951, 9745.88]
+    - [978, 9745.78]
   - - [1024, 3796, 1, 33708]
-    - [948, 9356.26]
+    - [975, 9356.16]
   - - [1024, 3293, 1, 4096]
-    - [955, 8868.4]
+    - [982, 8868.3]
   - - [4096, 3796, 1, 1024]
-    - [940, 9885.36]
+    - [967, 9885.26]
   - - [1024, 3487, 1, 4096]
-    - [956, 9391.34]
+    - [983, 9391.24]
   - - [4096, 3166, 1, 1024]
-    - [951, 9718.46]
+    - [978, 9718.36]
   - - [64, 102, 624, 101]
-    - [980, 5547.84]
+    - [1007, 5547.74]
   - - [1024, 3409, 1, 4096]
-    - [959, 9187.88]
+    - [986, 9187.78]
   - - [1024, 3520, 1, 4096]
-    - [958, 9485.09]
+    - [985, 9484.99]
   - - [1024, 3573, 1, 4096]
-    - [959, 9652.71]
+    - [986, 9652.61]
   - - [4096, 3366, 1, 1024]
-    - [935, 9684.31]
+    - [962, 9684.21]
   - - [4096, 3720, 1, 1024]
-    - [951, 9703.34]
+    - [978, 9703.24]
   - - [4096, 3207, 1, 1024]
-    - [939, 9626.21]
+    - [966, 9626.11]
   - - [4096, 3272, 1, 1024]
-    - [939, 9795.51]
+    - [966, 9795.41]
   - - [1024, 3390, 1, 4096]
-    - [959, 9125.88]
+    - [986, 9125.78]
   - - [4096, 3183, 1, 1024]
-    - [951, 9825.87]
+    - [978, 9825.77]
   - - [4096, 3536, 1, 1024]
-    - [940, 9846.51]
+    - [967, 9846.41]
   - - [4096, 3563, 1, 1024]
-    - [940, 9913.8]
+    - [967, 9913.7]
   - - [1024, 3482, 1, 4096]
-    - [959, 9376.91]
+    - [986, 9376.81]
   - - [4096, 3447, 1, 1024]
-    - [950, 9875.09]
+    - [977, 9874.99]
   - - [4096, 3955, 1, 1024]
-    - [935, 9922.39]
+    - [962, 9922.29]
   - - [4096, 4005, 1, 1024]
-    - [940, 9803.43]
+    - [967, 9803.33]
   - - [1024, 3493, 1, 4096]
-    - [959, 9411.37]
+    - [986, 9411.27]
   - - [4096, 3410, 1, 1024]
-    - [935, 9788.34]
+    - [962, 9788.24]
   - - [1024, 3422, 1, 4096]
-    - [958, 9216.28]
+    - [985, 9216.18]
   - - [1024, 3350, 1, 4096]
-    - [953, 9068.02]
+    - [980, 9067.92]
   - - [4096, 3300, 1, 1024]
-    - [940, 9883.29]
+    - [967, 9883.19]
   - - [4096, 3910, 1, 1024]
-    - [950, 9800.12]
+    - [977, 9800.02]
   - - [1024, 3489, 1, 4096]
-    - [959, 9398.66]
+    - [986, 9398.56]
   - - [4096, 3483, 1, 1024]
-    - [939, 9715.96]
+    - [966, 9715.86]
   - - [4096, 3532, 1, 1024]
-    - [940, 9837.99]
+    - [967, 9837.89]
   - - [64, 101, 624, 101]
-    - [980, 5452.28]
+    - [1007, 5452.18]
   - - [4096, 3230, 1, 1024]
-    - [940, 9683.6]
+    - [967, 9683.5]
   - - [4096, 3427, 1, 1024]
-    - [935, 9760.72]
+    - [962, 9760.62]
   - - [1024, 3377, 1, 4096]
-    - [959, 9101.17]
+    - [986, 9101.07]
   - - [1024, 3488, 1, 4096]
-    - [958, 9381.99]
+    - [985, 9381.89]
   - - [1024, 3616, 1, 4096]
-    - [941, 8709.33]
+    - [968, 8709.23]
   - - [1024, 3426, 1, 4096]
-    - [959, 9229.43]
+    - [986, 9229.33]
   - - [4096, 3357, 1, 1024]
-    - [951, 9668.5]
+    - [978, 9668.4]
   - - [4096, 3406, 1, 1024]
-    - [936, 9748.57]
+    - [963, 9748.47]
   - - [1024, 3046, 1, 4096]
-    - [941, 9590.43]
+    - [968, 9590.33]
   - - [1024, 3272, 1, 4096]
-    - [952, 8930.2]
+    - [979, 8930.1]
   - - [1024, 3256, 1, 4096]
-    - [937, 8828.16]
+    - [964, 8828.06]
   - - [4096, 3247, 1, 1024]
-    - [939, 9741.81]
+    - [966, 9741.71]
   - - [4096, 3088, 1, 1024]
-    - [951, 9589.07]
+    - [978, 9588.97]
   - - [1024, 3531, 1, 4096]
-    - [958, 9501.06]
+    - [985, 9500.96]
   - - [64, 160, 400, 160]
-    - [994, 7334.03]
+    - [1021, 7333.93]
   - - [4096, 3511, 1, 1024]
-    - [940, 9789.38]
+    - [967, 9789.28]
   - - [1024, 3720, 1, 33708]
-    - [949, 9214.68]
+    - [976, 9214.58]
   - - [1024, 3267, 1, 4096]
-    - [952, 8831.04]
+    - [979, 8830.94]
   - - [1024, 3270, 1, 4096]
-    - [953, 8876.68]
+    - [980, 8876.58]
   - - [1024, 3461, 1, 4096]
-    - [958, 9327.55]
+    - [985, 9327.45]
   - - [4096, 3474, 1, 1024]
-    - [939, 9697.04]
+    - [966, 9696.94]
   - - [4096, 2984, 1, 1024]
-    - [940, 9674.08]
+    - [967, 9673.98]
   - - [1024, 3399, 1, 4096]
-    - [958, 9158.58]
+    - [985, 9158.48]
   - - [4096, 3574, 1, 1024]
-    - [939, 9942.3]
+    - [966, 9942.2]
   - - [1024, 3876, 1, 1024]
-    - [953, 9085.13]
+    - [980, 9085.03]
   - - [4096, 3337, 1, 1024]
-    - [936, 9611.43]
+    - [963, 9611.33]
   - - [4096, 3450, 1, 1024]
-    - [951, 9930.35]
+    - [978, 9930.25]
   - - [1024, 3720, 1, 1024]
-    - [937, 8755.49]
+    - [964, 8755.39]
   - - [1024, 4059, 1, 1024]
-    - [942, 9366.67]
+    - [969, 9366.57]
   - - [4096, 3291, 1, 1024]
-    - [939, 9856.33]
+    - [966, 9856.23]
   - - [64, 93, 688, 93]
-    - [983, 5497.11]
+    - [1010, 5497.01]
   - - [4096, 3995, 1, 1024]
-    - [939, 9776.67]
+    - [966, 9776.57]
   - - [64, 147, 432, 147]
-    - [969, 6233.88]
+    - [996, 6233.78]
   - - [4096, 3491, 1, 1024]
-    - [939, 9742.94]
+    - [966, 9742.84]
   - - [4096, 3348, 1, 1024]
-    - [951, 9634.11]
+    - [978, 9634.01]
   - - [4096, 3925, 1, 1024]
-    - [950, 9848.54]
+    - [977, 9848.44]
   - - [4096, 3894, 1, 1024]
-    - [950, 9812.55]
+    - [977, 9812.45]
   - - [1024, 3456, 1, 4096]
-    - [959, 9317.91]
+    - [986, 9317.81]
   - - [1024, 3394, 1, 4096]
-    - [958, 9148.86]
+    - [985, 9148.76]
   - - [64, 100, 624, 102]
-    - [980, 5416.95]
+    - [1007, 5416.85]
   - - [4096, 3165, 1, 1024]
-    - [950, 9743.35]
+    - [977, 9743.25]
   - - [4096, 3470, 1, 1024]
-    - [940, 9691.04]
+    - [967, 9690.94]
   - - [1024, 3014, 1, 4096]
-    - [941, 9486.26]
+    - [968, 9486.16]
   - - [1024, 3375, 1, 4096]
-    - [959, 9082.71]
+    - [986, 9082.61]
   - - [4096, 3859, 1, 1024]
-    - [950, 9738.87]
+    - [977, 9738.77]
   - - [4096, 3365, 1, 1024]
-    - [951, 9694.74]
+    - [978, 9694.64]
   - - [1024, 3162, 1, 4096]
-    - [952, 8550.31]
+    - [979, 8550.21]
   - - [1024, 3840, 1, 33708]
-    - [949, 9409.08]
+    - [976, 9408.98]
   - - [1024, 3437, 1, 4096]
-    - [959, 9270.49]
+    - [986, 9270.39]
   - - [4096, 3319, 1, 1024]
-    - [940, 9927.15]
+    - [967, 9927.05]
   - - [1024, 3320, 1, 4096]
-    - [959, 8962.29]
+    - [986, 8962.19]
   - - [64, 23, 2720, 23]
-    - [982, 2569.53]
+    - [1009, 2569.43]
   - - [4096, 3328, 1, 1024]
-    - [939, 9997.41]
+    - [966, 9997.31]
   - - [1024, 3235, 1, 4096]
-    - [959, 8724.31]
+    - [986, 8724.21]
   - - [4096, 3282, 1, 1024]
-    - [940, 9827.13]
+    - [967, 9827.03]
   - - [1024, 3367, 1, 4096]
-    - [952, 9084.02]
+    - [979, 9083.92]
   - - [1024, 3542, 1, 4096]
-    - [959, 9533.1]
+    - [986, 9533.0]
   - - [64, 177, 352, 177]
-    - [945, 6817.91]
+    - [972, 6817.81]
   - - [4096, 3145, 1, 1024]
-    - [936, 9710.28]
+    - [963, 9710.18]
   - - [4096, 3514, 1, 1024]
-    - [939, 9793.06]
+    - [966, 9792.96]
   - - [1024, 3432, 1, 4096]
-    - [959, 9249.39]
+    - [986, 9249.29]
   - - [4096, 3409, 1, 1024]
-    - [935, 9721.6]
+    - [962, 9721.5]
   - - [1024, 4012, 1, 33708]
-    - [939, 9773.35]
+    - [966, 9773.25]
   - - [4096, 3876, 1, 1024]
-    - [936, 9745.65]
+    - [963, 9745.55]
   - - [4096, 3299, 1, 1024]
-    - [939, 9873.53]
+    - [966, 9873.43]
   - - [1024, 3168, 1, 4096]
-    - [952, 8597.13]
+    - [979, 8597.03]
   - - [4096, 3681, 1, 1024]
-    - [951, 9840.03]
+    - [978, 9839.93]
   - - [4096, 3531, 1, 1024]
-    - [940, 9847.76]
+    - [967, 9847.66]
   - - [4096, 3388, 1, 1024]
-    - [951, 9772.28]
+    - [978, 9772.18]
   - - [1024, 3720, 1, 4096]
-    - [940, 8951.6]
+    - [967, 8951.5]
   - - [1024, 3332, 1, 4096]
-    - [959, 8978.97]
+    - [986, 8978.87]
   - - [1024, 3273, 1, 4096]
-    - [953, 8982.49]
+    - [980, 8982.39]
   - - [1024, 2935, 1, 4096]
-    - [942, 9224.89]
+    - [969, 9224.79]
   - - [1024, 3467, 1, 4096]
-    - [956, 9329.33]
+    - [983, 9329.23]
   - - [4096, 3542, 1, 1024]
-    - [939, 9858.51]
+    - [966, 9858.41]
   - - [1024, 3130, 1, 4096]
-    - [938, 8526.66]
+    - [965, 8526.56]
   - - [1024, 3405, 1, 4096]
-    - [959, 9163.44]
+    - [986, 9163.34]
   - - [1024, 3960, 1, 1024]
-    - [937, 9280.36]
+    - [964, 9280.26]
   - - [4096, 3405, 1, 1024]
-    - [950, 9710.2]
+    - [977, 9710.1]
   - - [512, 512, 1, 1024]
-    - [1136, 6670.96]
+    - [1163, 6670.86]
   - - [8, 500, 1, 512]
-    - [1032, 228.671]
+    - [1059, 228.571]
   - - [512, 512, 1, 2000]
-    - [1169, 7629.44]
+    - [1196, 7629.34]
   - - [32, 512, 1, 512]
-    - [1029, 904.045]
+    - [1056, 903.945]
   - - [100, 1024, 1, 2048]
-    - [1091, 3196.98]
+    - [1118, 3196.88]
   - - [8, 512, 1, 500]
-    - [1022, 237.137]
+    - [1049, 237.037]
   - - [8, 500, 1, 1024]
-    - [1086, 289.366]
+    - [1113, 289.266]
   - - [100, 2000, 1, 1024]
-    - [1125, 3368.52]
+    - [1152, 3368.42]
   - - [64, 1024, 1, 100]
-    - [1024, 941.709]
+    - [1051, 941.609]
   - - [64, 1024, 1, 500]
-    - [1151, 2659.84]
+    - [1178, 2659.74]
   - - [64, 1024, 1, 1024]
-    - [1089, 2452.91]
+    - [1116, 2452.81]
   - - [128, 2000, 1, 100]
-    - [1145, 2560.1]
+    - [1172, 2560.0]
   - - [2, 500, 1, 2048]
-    - [1086, 72.2127]
+    - [1113, 72.1127]
   - - [16, 512, 1, 10]
-    - [1000, 18.3857]
+    - [1027, 18.2857]
   - - [64, 2000, 1, 1024]
-    - [1156, 2800.78]
+    - [1183, 2800.68]
   - - [100, 1024, 1, 1024]
-    - [1084, 3034.17]
+    - [1111, 3034.07]
   - - [8, 512, 1, 10]
-    - [1062, 9.24286]
+    - [1089, 9.14286]
   - - [16, 500, 1, 2048]
-    - [1086, 565.846]
+    - [1113, 565.746]
   - - [10, 100, 1, 500]
-    - [1022, 58.5112]
+    - [1049, 58.4112]
   - - [16, 100, 1, 10]
-    - [1062, 3.67143]
+    - [1089, 3.57143]
   - - [500, 1024, 1, 512]
-    - [1152, 6514.61]
+    - [1179, 6514.51]
   - - [128, 1024, 1, 512]
-    - [1170, 4194.4]
+    - [1197, 4194.3]
   - - [512, 500, 1, 2000]
-    - [1128, 7347.98]
+    - [1155, 7347.88]
   - - [2, 100, 1, 2000]
-    - [1022, 20.9333]
+    - [1049, 20.8333]
   - - [500, 512, 1, 100]
-    - [1144, 2539.78]
+    - [1171, 2539.68]
   - - [100, 1024, 1, 500]
-    - [1170, 3216.18]
+    - [1197, 3216.08]
   - - [256, 100, 1, 2048]
-    - [1180, 1689.17]
+    - [1207, 1689.07]
   - - [2, 512, 1, 512]
-    - [1036, 50.5123]
+    - [1063, 50.4123]
   - - [128, 2000, 1, 512]
-    - [1156, 4641.46]
+    - [1183, 4641.36]
   - - [2, 100, 1, 10]
-    - [1000, 0.496825]
+    - [1027, 0.396825]
   - - [16, 2000, 1, 2048]
-    - [1044, 1266.25]
+    - [1071, 1266.15]
   - - [200, 100, 1, 100]
-    - [1190, 316.556]
+    - [1217, 316.456]
   - - [256, 1024, 1, 100]
-    - [1146, 2686.0]
+    - [1173, 2685.9]
   - - [200, 500, 1, 1024]
-    - [1195, 3282.15]
+    - [1222, 3282.05]
   - - [500, 100, 1, 100]
-    - [1109, 631.413]
+    - [1136, 631.313]
   - - [4, 100, 1, 10]
-    - [1007, 0.977193]
+    - [1034, 0.877193]
   - - [32, 100, 1, 512]
-    - [1086, 198.935]
+    - [1113, 198.835]
   - - [100, 2000, 1, 512]
-    - [1156, 3832.44]
+    - [1183, 3832.34]
   - - [16, 1024, 1, 512]
-    - [1070, 794.476]
+    - [1097, 794.376]
   - - [200, 512, 1, 100]
-    - [1188, 1306.22]
+    - [1215, 1306.12]
   - - [4, 1024, 1, 1024]
-    - [1029, 213.225]
+    - [1056, 213.125]
   - - [512, 1024, 1, 512]
-    - [1153, 7049.35]
+    - [1180, 7049.25]
   - - [4, 512, 1, 10]
-    - [1061, 4.59123]
+    - [1088, 4.49123]
   - - [2, 2048, 1, 2000]
-    - [1022, 300.393]
+    - [1049, 300.293]
   - - [64, 2048, 1, 10]
-    - [1182, 241.041]
+    - [1209, 240.941]
   - - [128, 100, 1, 10]
-    - [1187, 27.6862]
+    - [1214, 27.5862]
   - - [4, 512, 1, 2048]
-    - [1022, 146.549]
+    - [1049, 146.449]
   - - [64, 2048, 1, 500]
-    - [1162, 4015.79]
+    - [1189, 4015.69]
   - - [512, 512, 1, 512]
-    - [1117, 6123.17]
+    - [1144, 6123.07]
   - - [500, 500, 1, 2000]
-    - [1128, 7126.67]
+    - [1155, 7126.57]
   - - [10, 1024, 1, 2000]
-    - [1095, 807.671]
+    - [1122, 807.571]
   - - [256, 100, 1, 100]
-    - [1107, 296.396]
+    - [1134, 296.296]
   - - [32, 2000, 1, 2048]
-    - [1050, 2167.3]
+    - [1077, 2167.2]
   - - [64, 1024, 1, 2048]
-    - [1083, 2383.23]
+    - [1110, 2383.13]
   - - [200, 2048, 1, 512]
-    - [1158, 5264.04]
+    - [1185, 5263.94]
   - - [256, 500, 1, 10]
-    - [1140, 210.626]
+    - [1167, 210.526]
   - - [16, 1024, 1, 100]
-    - [1020, 262.664]
+    - [1047, 262.564]
   - - [32, 1024, 1, 1024]
-    - [1025, 1476.97]
+    - [1052, 1476.87]
   - - [512, 500, 1, 512]
-    - [1114, 5851.53]
+    - [1141, 5851.43]
   - - [128, 1024, 1, 2000]
-    - [1198, 5516.6]
+    - [1225, 5516.5]
   - - [8, 100, 1, 500]
-    - [1022, 46.3963]
+    - [1049, 46.2963]
   - - [100, 2000, 1, 2048]
-    - [1177, 3715.63]
+    - [1204, 3715.53]
   - - [10, 512, 1, 512]
-    - [1032, 292.671]
+    - [1059, 292.571]
   - - [8, 500, 1, 10]
-    - [1061, 8.87193]
+    - [1088, 8.77193]
   - - [10, 2000, 1, 1024]
-    - [1075, 640.1]
+    - [1102, 640.0]
   - - [16, 1024, 1, 10]
-    - [1060, 36.6714]
+    - [1087, 36.5714]
   - - [16, 512, 1, 2048]
-    - [1039, 585.897]
+    - [1066, 585.797]
   - - [256, 512, 1, 10]
-    - [1105, 230.861]
+    - [1132, 230.761]
   - - [2, 2000, 1, 100]
-    - [1067, 64.2026]
+    - [1094, 64.1026]
   - - [128, 512, 1, 2048]
-    - [1034, 3106.99]
+    - [1061, 3106.89]
   - - [128, 512, 1, 100]
-    - [1027, 952.658]
+    - [1054, 952.558]
   - - [512, 2000, 1, 1024]
-    - [1124, 8066.07]
+    - [1151, 8065.97]
   - - [64, 500, 1, 2048]
-    - [1193, 1857.7]
+    - [1220, 1857.6]
   - - [64, 2000, 1, 2048]
-    - [1175, 3442.12]
+    - [1202, 3442.02]
   - - [64, 2048, 1, 512]
-    - [1176, 3315.76]
+    - [1203, 3315.66]
   - - [10, 2000, 1, 512]
-    - [1022, 785.376]
+    - [1049, 785.276]
   - - [32, 2000, 1, 500]
-    - [1025, 2500.1]
+    - [1052, 2500.0]
   - - [64, 2000, 1, 10]
-    - [1013, 231.984]
+    - [1040, 231.884]
   - - [500, 100, 1, 10]
-    - [1110, 88.1282]
+    - [1137, 88.0282]
   - - [128, 1024, 1, 500]
-    - [1161, 4096.1]
+    - [1188, 4096.0]
   - - [64, 100, 1, 2048]
-    - [1022, 587.34]
+    - [1049, 587.24]
   - - [64, 100, 1, 10]
-    - [1181, 12.0403]
+    - [1208, 11.9403]
   - - [16, 512, 1, 500]
-    - [1032, 461.361]
+    - [1059, 461.261]
   - - [32, 2000, 1, 1024]
-    - [1019, 1713.91]
+    - [1046, 1713.81]
   - - [200, 512, 1, 1024]
-    - [1198, 3244.46]
+    - [1225, 3244.36]
   - - [128, 2048, 1, 10]
-    - [1014, 455.211]
+    - [1041, 455.111]
   - - [200, 100, 1, 2000]
-    - [1022, 1462.09]
+    - [1049, 1461.99]
   - - [2, 100, 1, 512]
-    - [1022, 12.5272]
+    - [1049, 12.4272]
   - - [64, 2048, 1, 100]
-    - [1188, 1689.17]
+    - [1215, 1689.07]
   - - [32, 512, 1, 100]
-    - [1021, 266.074]
+    - [1048, 265.974]
   - - [16, 512, 1, 1024]
-    - [1086, 569.978]
+    - [1113, 569.878]
   - - [4, 1024, 1, 512]
-    - [1076, 208.151]
+    - [1103, 208.051]
   - - [64, 2000, 1, 100]
-    - [1188, 1649.58]
+    - [1215, 1649.48]
   - - [512, 2048, 1, 512]
-    - [1124, 7849.09]
+    - [1151, 7848.99]
   - - [2, 500, 1, 500]
-    - [1010, 53.5188]
+    - [1037, 53.4188]
   - - [32, 100, 1, 100]
-    - [1021, 57.2429]
+    - [1048, 57.1429]
   - - [100, 500, 1, 2000]
-    - [1025, 2784.06]
+    - [1052, 2783.96]
   - - [200, 2000, 1, 100]
-    - [1097, 2994.11]
+    - [1124, 2994.01]
   - - [10, 512, 1, 10]
-    - [1057, 11.1345]
+    - [1084, 11.0345]
   - - [100, 500, 1, 2048]
-    - [1197, 2361.72]
+    - [1224, 2361.62]
   - - [4, 2048, 1, 500]
-    - [1032, 379.359]
+    - [1059, 379.259]
   - - [200, 500, 1, 100]
-    - [1158, 1288.76]
+    - [1185, 1288.66]
   - - [500, 500, 1, 500]
-    - [1114, 5425.45]
+    - [1141, 5425.35]
   - - [2, 100, 1, 1024]
-    - [1086, 16.3025]
+    - [1113, 16.2025]
   - - [128, 2048, 1, 512]
-    - [1172, 4699.6]
+    - [1199, 4699.5]
   - - [200, 2000, 1, 1024]
-    - [1122, 4621.04]
+    - [1149, 4620.94]
   - - [32, 512, 1, 1024]
-    - [1085, 1028.12]
+    - [1112, 1028.02]
   - - [100, 2048, 1, 500]
-    - [1146, 4142.49]
+    - [1173, 4142.39]
   - - [256, 100, 1, 1024]
-    - [1176, 1443.62]
+    - [1203, 1443.52]
   - - [16, 2000, 1, 500]
-    - [1071, 1428.67]
+    - [1098, 1428.57]
   - - [128, 100, 1, 100]
-    - [1021, 213.433]
+    - [1048, 213.333]
   - - [500, 500, 1, 2048]
-    - [1118, 6639.1]
+    - [1145, 6639.0]
   - - [32, 512, 1, 10]
-    - [1054, 36.0298]
+    - [1081, 35.9298]
   - - [128, 100, 1, 1024]
-    - [1082, 791.598]
+    - [1109, 791.498]
   - - [16, 500, 1, 2000]
-    - [1095, 694.544]
+    - [1122, 694.444]
   - - [4, 2048, 1, 100]
-    - [1066, 129.72]
+    - [1093, 129.62]
   - - [64, 500, 1, 500]
-    - [1008, 1333.43]
+    - [1035, 1333.33]
   - - [500, 1024, 1, 2048]
-    - [1127, 7031.86]
+    - [1154, 7031.76]
   - - [512, 2048, 1, 100]
-    - [1102, 5285.26]
+    - [1129, 5285.16]
   - - [128, 512, 1, 1024]
-    - [1194, 2519.2]
+    - [1221, 2519.1]
   - - [128, 512, 1, 2000]
-    - [1192, 3608.91]
+    - [1219, 3608.81]
   - - [128, 2000, 1, 2000]
-    - [1165, 7017.64]
+    - [1192, 7017.54]
   - - [2, 512, 1, 10]
-    - [1058, 2.13175]
+    - [1085, 2.03175]
   - - [10, 512, 1, 500]
-    - [1022, 293.678]
+    - [1049, 293.578]
   - - [4, 1024, 1, 2000]
-    - [1042, 326.215]
+    - [1069, 326.115]
   - - [256, 100, 1, 2000]
-    - [1179, 1768.06]
+    - [1206, 1767.96]
   - - [512, 2048, 1, 2000]
-    - [1124, 8674.62]
+    - [1151, 8674.52]
   - - [100, 100, 1, 10]
-    - [1186, 21.6517]
+    - [1213, 21.5517]
   - - [256, 500, 1, 1024]
-    - [1126, 4833.14]
+    - [1153, 4833.04]
   - - [128, 512, 1, 10]
-    - [1014, 132.229]
+    - [1041, 132.129]
   - - [256, 100, 1, 500]
-    - [1173, 914.386]
+    - [1200, 914.286]
   - - [64, 100, 1, 512]
-    - [1080, 369.109]
+    - [1107, 369.009]
   - - [64, 512, 1, 500]
-    - [1022, 1600.1]
+    - [1049, 1600.0]
   - - [64, 2048, 1, 2000]
-    - [1176, 5925.6]
+    - [1203, 5925.5]
   - - [100, 2048, 1, 1024]
-    - [1134, 3260.6]
+    - [1161, 3260.5]
   - - [200, 2000, 1, 10]
-    - [1014, 595.338]
+    - [1041, 595.238]
   - - [128, 1024, 1, 100]
-    - [1158, 1689.17]
+    - [1185, 1689.07]
   - - [16, 2000, 1, 100]
-    - [1021, 493.927]
+    - [1048, 493.827]
   - - [8, 100, 1, 512]
-    - [1022, 49.8087]
+    - [1049, 49.7087]
   - - [500, 2048, 1, 1024]
-    - [1124, 7651.71]
+    - [1151, 7651.61]
   - - [500, 2000, 1, 10]
-    - [1112, 1008.16]
+    - [1139, 1008.06]
   - - [32, 100, 1, 500]
-    - [1086, 187.016]
+    - [1113, 186.916]
   - - [256, 1024, 1, 2048]
-    - [1127, 6190.95]
+    - [1154, 6190.85]
   - - [32, 500, 1, 2048]
-    - [1022, 1083.7]
+    - [1049, 1083.6]
   - - [4, 2000, 1, 10]
-    - [1065, 17.6439]
+    - [1092, 17.5439]
   - - [128, 500, 1, 2000]
-    - [1082, 3516.58]
+    - [1109, 3516.48]
   - - [8, 1024, 1, 10]
-    - [1056, 18.0649]
+    - [1083, 17.9649]
   - - [2, 500, 1, 100]
-    - [1001, 16.1256]
+    - [1028, 16.0256]
   - - [10, 500, 1, 512]
-    - [1022, 291.009]
+    - [1049, 290.909]
   - - [10, 2000, 1, 10]
-    - [1000, 38.5615]
+    - [1027, 38.4615]
   - - [500, 512, 1, 512]
-    - [1117, 5893.63]
+    - [1144, 5893.53]
   - - [32, 500, 1, 500]
-    - [1022, 892.957]
+    - [1049, 892.857]
   - - [256, 500, 1, 2000]
-    - [1131, 6237.92]
+    - [1158, 6237.82]
   - - [100, 500, 1, 100]
-    - [1033, 726.844]
+    - [1060, 726.744]
   - - [500, 2048, 1, 100]
-    - [1106, 4867.02]
+    - [1133, 4866.92]
   - - [10, 1024, 1, 512]
-    - [1022, 520.227]
+    - [1049, 520.127]
   - - [2, 2048, 1, 512]
-    - [1032, 151.628]
+    - [1059, 151.528]
   - - [256, 512, 1, 100]
-    - [1111, 1590.78]
+    - [1138, 1590.68]
   - - [10, 2048, 1, 100]
-    - [1022, 324.151]
+    - [1049, 324.051]
   - - [8, 2048, 1, 100]
-    - [1077, 256.1]
+    - [1104, 256.0]
   - - [512, 100, 1, 512]
-    - [1173, 2100.61]
+    - [1200, 2100.51]
   - - [4, 500, 1, 500]
-    - [1022, 115.841]
+    - [1049, 115.741]
   - - [64, 100, 1, 1024]
-    - [1022, 450.21]
+    - [1049, 450.11]
   - - [2, 2048, 1, 1024]
-    - [1079, 137.708]
+    - [1106, 137.608]
   - - [2, 500, 1, 2000]
-    - [1048, 90.3527]
+    - [1075, 90.2527]
   - - [512, 1024, 1, 500]
-    - [1153, 6898.63]
+    - [1180, 6898.53]
   - - [128, 2000, 1, 500]
-    - [1158, 5161.39]
+    - [1185, 5161.29]
   - - [32, 512, 1, 2048]
-    - [1092, 1103.86]
+    - [1119, 1103.76]
   - - [10, 100, 1, 2000]
-    - [1022, 106.032]
+    - [1049, 105.932]
   - - [4, 100, 1, 512]
-    - [1022, 24.7154]
+    - [1049, 24.6154]
   - - [2, 512, 1, 2048]
-    - [1086, 73.3246]
+    - [1113, 73.2246]
   - - [200, 512, 1, 2048]
-    - [1198, 3954.01]
+    - [1225, 3953.91]
   - - [200, 2000, 1, 2000]
-    - [1160, 6230.63]
+    - [1187, 6230.53]
   - - [100, 100, 1, 2000]
-    - [1022, 827.915]
+    - [1049, 827.815]
   - - [500, 2048, 1, 2000]
-    - [1123, 8388.04]
+    - [1150, 8387.94]
   - - [64, 2048, 1, 2048]
-    - [1168, 3406.64]
+    - [1195, 3406.54]
   - - [16, 2000, 1, 1024]
-    - [1028, 1024.1]
+    - [1055, 1024.0]
   - - [512, 2048, 1, 1024]
-    - [1101, 8061.22]
+    - [1128, 8061.12]
   - - [10, 500, 1, 500]
-    - [1032, 284.191]
+    - [1059, 284.091]
   - - [200, 1024, 1, 2048]
-    - [1196, 4886.29]
+    - [1223, 4886.19]
   - - [10, 2000, 1, 2000]
-    - [1022, 1449.38]
+    - [1049, 1449.28]
   - - [8, 2000, 1, 500]
-    - [1071, 719.524]
+    - [1098, 719.424]
   - - [2, 100, 1, 2048]
-    - [1086, 19.945]
+    - [1113, 19.845]
   - - [32, 100, 1, 2048]
-    - [1086, 323.894]
+    - [1113, 323.794]
   - - [512, 512, 1, 10]
-    - [1143, 420.203]
+    - [1170, 420.103]
   - - [512, 500, 1, 10]
-    - [1148, 376.571]
+    - [1175, 376.471]
   - - [16, 100, 1, 1024]
-    - [1032, 129.72]
+    - [1059, 129.62]
   - - [2, 500, 1, 10]
-    - [996, 2.21864]
+    - [1023, 2.11864]
   - - [200, 512, 1, 10]
-    - [998, 188.335]
+    - [1025, 188.235]
   - - [512, 1024, 1, 100]
-    - [1098, 3877.97]
+    - [1125, 3877.87]
   - - [16, 2000, 1, 2000]
-    - [1022, 2222.32]
+    - [1049, 2222.22]
   - - [500, 500, 1, 1024]
-    - [1118, 6130.37]
+    - [1145, 6130.27]
   - - [500, 100, 1, 2048]
-    - [1173, 2949.41]
+    - [1200, 2949.31]
   - - [256, 1024, 1, 512]
-    - [1137, 5886.84]
+    - [1164, 5886.74]
   - - [256, 500, 1, 512]
-    - [1115, 4380.85]
+    - [1142, 4380.75]
   - - [16, 1024, 1, 2000]
-    - [1086, 1208.36]
+    - [1113, 1208.26]
   - - [200, 500, 1, 2048]
-    - [1198, 3855.52]
+    - [1225, 3855.42]
   - - [256, 2000, 1, 10]
-    - [1100, 727.373]
+    - [1127, 727.273]
   - - [10, 2048, 1, 2048]
-    - [1053, 823.158]
+    - [1080, 823.058]
   - - [512, 2000, 1, 100]
-    - [1102, 5120.1]
+    - [1129, 5120.0]
   - - [10, 1024, 1, 1024]
-    - [1029, 553.146]
+    - [1056, 553.046]
   - - [512, 2000, 1, 2048]
-    - [1130, 7563.4]
+    - [1157, 7563.3]
   - - [500, 1024, 1, 500]
-    - [1154, 6570.94]
+    - [1181, 6570.84]
   - - [500, 100, 1, 512]
-    - [1173, 2038.32]
+    - [1200, 2038.22]
   - - [256, 2000, 1, 100]
-    - [1122, 3764.81]
+    - [1149, 3764.71]
   - - [512, 1024, 1, 2048]
-    - [1166, 7286.62]
+    - [1193, 7286.52]
   - - [32, 512, 1, 500]
-    - [1022, 898.346]
+    - [1049, 898.246]
   - - [100, 2000, 1, 10]
-    - [1014, 333.433]
+    - [1041, 333.333]
   - - [100, 500, 1, 512]
-    - [1192, 2176.97]
+    - [1219, 2176.87]
   - - [8, 2000, 1, 512]
-    - [1071, 602.453]
+    - [1098, 602.353]
   - - [100, 2048, 1, 2048]
-    - [1178, 3694.87]
+    - [1205, 3694.77]
   - - [128, 1024, 1, 2048]
-    - [1197, 4168.35]
+    - [1224, 4168.25]
   - - [8, 500, 1, 2000]
-    - [1096, 352.213]
+    - [1123, 352.113]
   - - [100, 2000, 1, 500]
-    - [1146, 4045.41]
+    - [1173, 4045.31]
   - - [100, 2048, 1, 100]
-    - [1146, 2081.4]
+    - [1173, 2081.3]
   - - [4, 100, 1, 1024]
-    - [1022, 33.1323]
+    - [1049, 33.0323]
   - - [500, 2048, 1, 2048]
-    - [1130, 7765.03]
+    - [1157, 7764.93]
   - - [2, 2000, 1, 2048]
-    - [1041, 166.334]
+    - [1068, 166.234]
   - - [200, 2048, 1, 10]
-    - [1015, 609.624]
+    - [1042, 609.524]
   - - [2, 500, 1, 1024]
-    - [1086, 75.3941]
+    - [1113, 75.2941]
   - - [100, 500, 1, 1024]
-    - [1082, 1975.41]
+    - [1109, 1975.31]
   - - [16, 2048, 1, 500]
-    - [1022, 1473.48]
+    - [1049, 1473.38]
   - - [100, 1024, 1, 10]
-    - [1182, 185.607]
+    - [1209, 185.507]
   - - [8, 2048, 1, 1024]
-    - [1078, 543.404]
+    - [1105, 543.304]
   - - [2, 2000, 1, 500]
-    - [1022, 179.956]
+    - [1049, 179.856]
   - - [32, 100, 1, 1024]
-    - [1022, 267.812]
+    - [1049, 267.712]
   - - [500, 2000, 1, 512]
-    - [1152, 7087.59]
+    - [1179, 7087.49]
   - - [64, 100, 1, 2000]
-    - [1032, 615.485]
+    - [1059, 615.385]
   - - [100, 1024, 1, 2000]
-    - [1195, 4224.52]
+    - [1222, 4224.42]
   - - [64, 500, 1, 10]
-    - [997, 63.5921]
+    - [1024, 63.4921]
   - - [32, 2048, 1, 100]
-    - [1018, 941.709]
+    - [1045, 941.609]
   - - [64, 500, 1, 512]
-    - [1022, 1575.48]
+    - [1049, 1575.38]
   - - [10, 100, 1, 1024]
-    - [1032, 82.6806]
+    - [1059, 82.5806]
   - - [16, 512, 1, 100]
-    - [1021, 148.506]
+    - [1048, 148.406]
   - - [4, 100, 1, 2000]
-    - [1095, 43.9597]
+    - [1122, 43.8597]
   - - [2, 512, 1, 1024]
-    - [1086, 74.152]
+    - [1113, 74.052]
   - - [64, 512, 1, 1024]
-    - [1087, 1571.0]
+    - [1114, 1570.9]
   - - [10, 2048, 1, 500]
-    - [1022, 920.963]
+    - [1049, 920.863]
   - - [4, 2000, 1, 2048]
-    - [1041, 326.215]
+    - [1068, 326.115]
   - - [512, 100, 1, 2048]
-    - [1176, 3084.15]
+    - [1203, 3084.05]
   - - [32, 100, 1, 2000]
-    - [1022, 343.448]
+    - [1049, 343.348]
   - - [256, 512, 1, 500]
-    - [1115, 4311.68]
+    - [1142, 4311.58]
   - - [100, 2000, 1, 100]
-    - [1146, 2016.23]
+    - [1173, 2016.13]
   - - [8, 2000, 1, 1024]
-    - [1035, 544.781]
+    - [1062, 544.681]
   - - [4, 512, 1, 500]
-    - [1022, 118.619]
+    - [1049, 118.519]
   - - [128, 1024, 1, 10]
-    - [1185, 244.637]
+    - [1212, 244.537]
   - - [4, 500, 1, 1024]
-    - [1022, 144.733]
+    - [1049, 144.633]
   - - [32, 2048, 1, 512]
-    - [1025, 2140.05]
+    - [1052, 2139.95]
   - - [32, 100, 1, 10]
-    - [1000, 7.11754]
+    - [1027, 7.01754]
   - - [100, 2048, 1, 10]
-    - [1189, 341.433]
+    - [1216, 341.333]
   - - [512, 500, 1, 100]
-    - [1150, 2461.64]
+    - [1177, 2461.54]
   - - [128, 2000, 1, 1024]
-    - [1134, 4174.37]
+    - [1161, 4174.27]
   - - [200, 1024, 1, 500]
-    - [1146, 4295.4]
+    - [1173, 4295.3]
   - - [32, 2048, 1, 1024]
-    - [1049, 1667.82]
+    - [1076, 1667.72]
   - - [10, 1024, 1, 2048]
-    - [1040, 555.49]
+    - [1067, 555.39]
   - - [8, 500, 1, 100]
-    - [1021, 71.5286]
+    - [1048, 71.4286]
   - - [32, 2048, 1, 500]
-    - [1025, 2528.5]
+    - [1052, 2528.4]
   - - [200, 100, 1, 1024]
-    - [1034, 1071.23]
+    - [1061, 1071.13]
   - - [16, 100, 1, 100]
-    - [1011, 28.6714]
+    - [1038, 28.5714]
   - - [8, 1024, 1, 2000]
-    - [1095, 654.413]
+    - [1122, 654.313]
   - - [4, 512, 1, 100]
-    - [1021, 36.6714]
+    - [1048, 36.5714]
   - - [16, 500, 1, 100]
-    - [1021, 142.957]
+    - [1048, 142.857]
   - - [8, 1024, 1, 2048]
-    - [1047, 441.606]
+    - [1074, 441.506]
   - - [16, 1024, 1, 2048]
-    - [1048, 886.845]
+    - [1075, 886.745]
   - - [10, 2048, 1, 1024]
-    - [1026, 639.476]
+    - [1053, 639.376]
   - - [64, 512, 1, 100]
-    - [1021, 518.581]
+    - [1048, 518.481]
   - - [2, 100, 1, 500]
-    - [1022, 9.71538]
+    - [1049, 9.61538]
   - - [2, 500, 1, 512]
-    - [1028, 48.2203]
+    - [1055, 48.1203]
   - - [256, 512, 1, 2000]
-    - [1131, 6450.49]
+    - [1158, 6450.39]
   - - [128, 500, 1, 1024]
-    - [1025, 2497.66]
+    - [1052, 2497.56]
   - - [10, 100, 1, 10]
-    - [1062, 2.33214]
+    - [1089, 2.23214]
   - - [8, 2048, 1, 2048]
-    - [1012, 643.398]
+    - [1039, 643.298]
   - - [16, 2048, 1, 2048]
-    - [1052, 1338.0]
+    - [1079, 1337.9]
   - - [64, 1024, 1, 10]
-    - [1015, 132.229]
+    - [1042, 132.129]
   - - [500, 100, 1, 500]
-    - [1173, 1941.09]
+    - [1200, 1940.99]
   - - [256, 1024, 1, 2000]
-    - [1169, 7629.44]
+    - [1196, 7629.34]
   - - [200, 512, 1, 500]
-    - [1158, 3232.42]
+    - [1185, 3232.32]
   - - [8, 2000, 1, 10]
-    - [1059, 32.3581]
+    - [1086, 32.2581]
   - - [64, 2000, 1, 512]
-    - [1157, 3225.3]
+    - [1184, 3225.2]
   - - [2, 512, 1, 100]
-    - [1001, 16.7234]
+    - [1028, 16.6234]
   - - [4, 2000, 1, 2000]
-    - [1022, 586.61]
+    - [1049, 586.51]
   - - [200, 1024, 1, 100]
-    - [1146, 2133.43]
+    - [1173, 2133.33]
   - - [16, 100, 1, 500]
-    - [1086, 92.6926]
+    - [1113, 92.5926]
   - - [128, 100, 1, 500]
-    - [1082, 526.416]
+    - [1109, 526.316]
   - - [500, 1024, 1, 1024]
-    - [1116, 7201.86]
+    - [1143, 7201.76]
   - - [200, 1024, 1, 1024]
-    - [1168, 4519.82]
+    - [1195, 4519.72]
   - - [8, 2048, 1, 512]
-    - [1032, 624.252]
+    - [1059, 624.152]
   - - [200, 2000, 1, 500]
-    - [1122, 5186.82]
+    - [1149, 5186.72]
   - - [512, 100, 1, 1024]
-    - [1173, 2742.19]
+    - [1200, 2742.09]
   - - [16, 100, 1, 2000]
-    - [1032, 168.876]
+    - [1059, 168.776]
   - - [500, 512, 1, 2000]
-    - [1169, 7289.39]
+    - [1196, 7289.29]
   - - [8, 2000, 1, 2048]
-    - [1043, 668.289]
+    - [1070, 668.189]
   - - [256, 2048, 1, 100]
-    - [1104, 3924.41]
+    - [1131, 3924.31]
   - - [32, 2048, 1, 2000]
-    - [1036, 3882.56]
+    - [1063, 3882.46]
   - - [200, 500, 1, 512]
-    - [1161, 3368.52]
+    - [1188, 3368.42]
   - - [10, 512, 1, 100]
-    - [1021, 91.5286]
+    - [1048, 91.4286]
   - - [16, 2000, 1, 10]
-    - [999, 61.6385]
+    - [1026, 61.5385]
   - - [8, 512, 1, 100]
-    - [1021, 72.2127]
+    - [1048, 72.1127]
   - - [256, 512, 1, 512]
-    - [1126, 4584.04]
+    - [1153, 4583.94]
   - - [500, 2000, 1, 1024]
-    - [1101, 7569.59]
+    - [1128, 7569.49]
   - - [512, 512, 1, 500]
-    - [1117, 5708.81]
+    - [1144, 5708.71]
   - - [256, 2048, 1, 1024]
-    - [1141, 5923.21]
+    - [1168, 5923.11]
   - - [8, 2048, 1, 2000]
-    - [1022, 1153.9]
+    - [1049, 1153.8]
   - - [100, 512, 1, 2048]
-    - [1088, 2383.23]
+    - [1115, 2383.13]
   - - [100, 1024, 1, 512]
-    - [1173, 3343.77]
+    - [1200, 3343.67]
   - - [128, 100, 1, 2000]
-    - [1191, 1084.85]
+    - [1218, 1084.75]
   - - [4, 2048, 1, 2048]
-    - [1040, 332.454]
+    - [1067, 332.354]
   - - [2, 1024, 1, 2000]
-    - [1051, 161.106]
+    - [1078, 161.006]
   - - [100, 512, 1, 512]
-    - [1025, 2184.63]
+    - [1052, 2184.53]
   - - [128, 1024, 1, 1024]
-    - [1168, 3848.09]
+    - [1195, 3847.99]
   - - [200, 2048, 1, 1024]
-    - [1103, 4547.26]
+    - [1130, 4547.16]
   - - [32, 1024, 1, 2000]
-    - [1032, 2416.62]
+    - [1059, 2416.52]
   - - [128, 500, 1, 100]
-    - [1027, 919.64]
+    - [1054, 919.54]
   - - [200, 512, 1, 2000]
-    - [1195, 4238.51]
+    - [1222, 4238.41]
   - - [10, 2048, 1, 2000]
-    - [1032, 1454.65]
+    - [1059, 1454.55]
   - - [256, 1024, 1, 500]
-    - [1129, 5669.3]
+    - [1156, 5669.2]
   - - [100, 100, 1, 100]
-    - [1021, 171.333]
+    - [1048, 171.233]
   - - [8, 512, 1, 1024]
-    - [1090, 286.596]
+    - [1117, 286.496]
   - - [200, 1024, 1, 512]
-    - [1146, 4354.65]
+    - [1173, 4354.55]
   - - [256, 500, 1, 500]
-    - [1131, 4020.2]
+    - [1158, 4020.1]
   - - [200, 100, 1, 500]
-    - [1195, 702.347]
+    - [1222, 702.247]
   - - [2, 1024, 1, 2048]
-    - [1041, 112.85]
+    - [1068, 112.75]
   - - [256, 500, 1, 2048]
-    - [1131, 5041.33]
+    - [1158, 5041.23]
   - - [512, 2048, 1, 500]
-    - [1124, 7710.22]
+    - [1151, 7710.12]
   - - [512, 100, 1, 2000]
-    - [1173, 3099.37]
+    - [1200, 3099.27]
   - - [512, 500, 1, 1024]
-    - [1132, 6463.22]
+    - [1159, 6463.12]
   - - [16, 512, 1, 2000]
-    - [1048, 721.227]
+    - [1075, 721.127]
   - - [64, 500, 1, 1024]
-    - [1087, 1528.46]
+    - [1114, 1528.36]
   - - [512, 2000, 1, 10]
-    - [1108, 1174.41]
+    - [1135, 1174.31]
   - - [256, 512, 1, 1024]
-    - [1126, 4978.5]
+    - [1153, 4978.4]
   - - [10, 512, 1, 1024]
-    - [1086, 370.36]
+    - [1113, 370.26]
   - - [512, 100, 1, 100]
-    - [1109, 659.894]
+    - [1136, 659.794]
   - - [8, 2000, 1, 100]
-    - [1021, 256.51]
+    - [1048, 256.41]
   - - [128, 2048, 1, 1024]
-    - [1134, 4173.54]
+    - [1161, 4173.44]
   - - [2, 2000, 1, 2000]
-    - [1022, 250.727]
+    - [1049, 250.627]
   - - [16, 2048, 1, 1024]
-    - [1069, 1046.06]
+    - [1096, 1045.96]
   - - [500, 512, 1, 500]
-    - [1114, 5517.34]
+    - [1141, 5517.24]
   - - [8, 100, 1, 1024]
-    - [1087, 64.1]
+    - [1114, 64.0]
   - - [10, 100, 1, 100]
-    - [1011, 17.9571]
+    - [1038, 17.8571]
   - - [200, 500, 1, 500]
-    - [1161, 3140.8]
+    - [1188, 3140.7]
   - - [10, 500, 1, 2000]
-    - [1048, 444.94]
+    - [1075, 444.84]
   - - [500, 100, 1, 2000]
-    - [1176, 2969.22]
+    - [1203, 2969.12]
   - - [100, 512, 1, 2000]
-    - [1088, 2776.67]
+    - [1115, 2776.57]
   - - [500, 1024, 1, 2000]
-    - [1167, 8020.15]
+    - [1194, 8020.05]
   - - [32, 2000, 1, 2000]
-    - [1028, 3827.85]
+    - [1055, 3827.75]
   - - [64, 1024, 1, 512]
-    - [1192, 2573.29]
+    - [1219, 2573.19]
   - - [64, 2000, 1, 2000]
-    - [1161, 5797.2]
+    - [1188, 5797.1]
   - - [32, 500, 1, 100]
-    - [1021, 266.767]
+    - [1048, 266.667]
   - - [128, 2000, 1, 2048]
-    - [1177, 4548.05]
+    - [1204, 4547.95]
   - - [10, 100, 1, 2048]
-    - [1086, 98.5615]
+    - [1113, 98.4615]
   - - [32, 2048, 1, 2048]
-    - [1049, 2213.45]
+    - [1076, 2213.35]
   - - [64, 100, 1, 100]
-    - [1022, 96.4855]
+    - [1049, 96.3855]
   - - [2, 1024, 1, 100]
-    - [1072, 34.6946]
+    - [1099, 34.5946]
   - - [256, 1024, 1, 10]
-    - [1142, 425.658]
+    - [1169, 425.558]
   - - [256, 1024, 1, 1024]
-    - [1135, 5482.85]
+    - [1162, 5482.75]
   - - [64, 500, 1, 2000]
-    - [1022, 2056.66]
+    - [1049, 2056.56]
   - - [512, 2000, 1, 512]
-    - [1120, 7550.33]
+    - [1147, 7550.23]
   - - [8, 512, 1, 512]
-    - [1029, 232.086]
+    - [1056, 231.986]
   - - [8, 512, 1, 2048]
-    - [1022, 290.564]
+    - [1049, 290.464]
   - - [100, 100, 1, 1024]
-    - [1192, 624.49]
+    - [1219, 624.39]
   - - [2, 2048, 1, 10]
-    - [1065, 8.92759]
+    - [1092, 8.82759]
   - - [4, 2048, 1, 512]
-    - [1071, 312.176]
+    - [1098, 312.076]
   - - [4, 2048, 1, 10]
-    - [1064, 18.0649]
+    - [1091, 17.9649]
   - - [8, 100, 1, 2000]
-    - [1041, 85.9369]
+    - [1068, 85.8369]
   - - [2, 1024, 1, 1024]
-    - [1038, 101.314]
+    - [1065, 101.214]
   - - [16, 2048, 1, 100]
-    - [1022, 518.581]
+    - [1049, 518.481]
   - - [16, 512, 1, 512]
-    - [1032, 456.003]
+    - [1059, 455.903]
   - - [32, 500, 1, 512]
-    - [1029, 906.295]
+    - [1056, 906.195]
   - - [500, 2000, 1, 2000]
-    - [1124, 8143.42]
+    - [1151, 8143.32]
   - - [500, 1024, 1, 10]
-    - [1105, 680.951]
+    - [1132, 680.851]
   - - [32, 500, 1, 1024]
-    - [1081, 1008.97]
+    - [1108, 1008.87]
   - - [32, 500, 1, 10]
-    - [1017, 33.4333]
+    - [1044, 33.3333]
   - - [500, 500, 1, 10]
-    - [1146, 367.747]
+    - [1173, 367.647]
   - - [4, 2000, 1, 500]
-    - [1032, 370.47]
+    - [1059, 370.37]
   - - [10, 2000, 1, 500]
-    - [1022, 899.381]
+    - [1049, 899.281]
   - - [32, 2000, 1, 512]
-    - [1034, 2089.9]
+    - [1061, 2089.8]
   - - [256, 500, 1, 100]
-    - [1147, 1495.43]
+    - [1174, 1495.33]
   - - [256, 2048, 1, 10]
-    - [1105, 789.69]
+    - [1132, 789.59]
   - - [4, 1024, 1, 500]
-    - [1022, 222.709]
+    - [1049, 222.609]
   - - [256, 512, 1, 2048]
-    - [1131, 5292.6]
+    - [1158, 5292.5]
   - - [2, 2000, 1, 1024]
-    - [1069, 137.365]
+    - [1096, 137.265]
   - - [256, 100, 1, 512]
-    - [1173, 1085.13]
+    - [1200, 1085.03]
   - - [8, 1024, 1, 500]
-    - [1022, 441.479]
+    - [1049, 441.379]
   - - [256, 2048, 1, 500]
-    - [1152, 7031.86]
+    - [1179, 7031.76]
   - - [256, 2048, 1, 2048]
-    - [1115, 6771.93]
+    - [1142, 6771.83]
   - - [2, 2000, 1, 512]
-    - [1076, 159.106]
+    - [1103, 159.006]
   - - [256, 2000, 1, 512]
-    - [1119, 6527.59]
+    - [1146, 6527.49]
   - - [4, 1024, 1, 100]
-    - [1068, 70.237]
+    - [1095, 70.137]
   - - [512, 1024, 1, 2000]
-    - [1153, 8295.8]
+    - [1180, 8295.7]
   - - [100, 500, 1, 500]
-    - [1025, 2016.23]
+    - [1052, 2016.13]
   - - [4, 2048, 1, 1024]
-    - [1073, 285.039]
+    - [1100, 284.939]
   - - [2, 1024, 1, 500]
-    - [1022, 109.502]
+    - [1049, 109.402]
   - - [64, 100, 1, 500]
-    - [1022, 296.396]
+    - [1049, 296.296]
   - - [256, 2000, 1, 2000]
-    - [1130, 8152.97]
+    - [1157, 8152.87]
   - - [2, 512, 1, 500]
-    - [1028, 44.8552]
+    - [1055, 44.7552]
   - - [8, 2048, 1, 500]
-    - [1022, 736.791]
+    - [1049, 736.691]
   - - [10, 1024, 1, 500]
-    - [1022, 547.109]
+    - [1049, 547.009]
   - - [4, 2048, 1, 2000]
-    - [1032, 604.23]
+    - [1059, 604.13]
   - - [200, 1024, 1, 2000]
-    - [1199, 5400.94]
+    - [1226, 5400.84]
   - - [128, 500, 1, 512]
-    - [1192, 2730.77]
+    - [1219, 2730.67]
   - - [10, 500, 1, 2048]
-    - [1086, 359.651]
+    - [1113, 359.551]
   - - [256, 2048, 1, 2000]
-    - [1130, 8375.31]
+    - [1157, 8375.21]
   - - [8, 2000, 1, 2000]
-    - [1032, 1146.23]
+    - [1059, 1146.13]
   - - [100, 2048, 1, 512]
-    - [1155, 3936.2]
+    - [1182, 3936.1]
   - - [512, 500, 1, 2048]
-    - [1131, 6756.39]
+    - [1158, 6756.29]
   - - [200, 2048, 1, 100]
-    - [1122, 3180.22]
+    - [1149, 3180.12]
   - - [128, 512, 1, 512]
-    - [1025, 2872.91]
+    - [1052, 2872.81]
   - - [200, 2000, 1, 2048]
-    - [1171, 4818.92]
+    - [1198, 4818.82]
   - - [4, 2000, 1, 1024]
-    - [1069, 275.369]
+    - [1096, 275.269]
   - - [64, 512, 1, 10]
-    - [1184, 69.5237]
+    - [1211, 69.4237]
   - - [32, 500, 1, 2000]
-    - [1051, 1246.21]
+    - [1078, 1246.11]
   - - [128, 2048, 1, 2000]
-    - [1164, 7233.65]
+    - [1191, 7233.55]
   - - [100, 100, 1, 2048]
-    - [1022, 790.223]
+    - [1049, 790.123]
   - - [500, 2048, 1, 512]
-    - [1152, 7249.66]
+    - [1179, 7249.56]
   - - [200, 100, 1, 512]
-    - [1028, 748.638]
+    - [1055, 748.538]
   - - [32, 2000, 1, 100]
-    - [1023, 930.333]
+    - [1050, 930.233]
   - - [500, 512, 1, 2048]
-    - [1174, 6640.02]
+    - [1201, 6639.92]
   - - [500, 2000, 1, 500]
-    - [1154, 7078.24]
+    - [1181, 7078.14]
   - - [200, 100, 1, 2048]
-    - [1032, 1387.63]
+    - [1059, 1387.53]
   - - [2, 2048, 1, 100]
-    - [1066, 64.9101]
+    - [1093, 64.8101]
   - - [8, 100, 1, 10]
-    - [1007, 1.85439]
+    - [1034, 1.75439]
   - - [200, 2048, 1, 2048]
-    - [1171, 5022.02]
+    - [1198, 5021.92]
   - - [200, 2048, 1, 500]
-    - [1122, 5355.75]
+    - [1149, 5355.65]
   - - [100, 100, 1, 500]
-    - [1192, 416.767]
+    - [1219, 416.667]
   - - [8, 2048, 1, 10]
-    - [1063, 34.8119]
+    - [1090, 34.7119]
   - - [100, 500, 1, 10]
-    - [1003, 93.3836]
+    - [1030, 93.2836]
   - - [200, 500, 1, 2000]
-    - [1195, 4152.92]
+    - [1222, 4152.82]
   - - [512, 2000, 1, 500]
-    - [1124, 7485.48]
+    - [1151, 7485.38]
   - - [10, 500, 1, 1024]
-    - [1090, 363.736]
+    - [1117, 363.636]
   - - [256, 100, 1, 10]
-    - [1139, 41.1256]
+    - [1166, 41.0256]
   - - [500, 512, 1, 1024]
-    - [1118, 6362.82]
+    - [1145, 6362.72]
   - - [200, 2048, 1, 2000]
-    - [1160, 6321.09]
+    - [1187, 6320.99]
   - - [100, 1024, 1, 100]
-    - [1159, 1306.22]
+    - [1186, 1306.12]
   - - [500, 1024, 1, 100]
-    - [1098, 3699.52]
+    - [1125, 3699.42]
   - - [10, 512, 1, 2048]
-    - [1022, 361.18]
+    - [1049, 361.08]
   - - [2, 1024, 1, 512]
-    - [1071, 105.803]
+    - [1098, 105.703]
   - - [4, 500, 1, 2048]
-    - [1094, 143.517]
+    - [1121, 143.417]
   - - [100, 512, 1, 100]
-    - [1027, 744.286]
+    - [1054, 744.186]
   - - [16, 500, 1, 512]
-    - [1022, 453.197]
+    - [1049, 453.097]
   - - [10, 1024, 1, 100]
-    - [1020, 166.334]
+    - [1047, 166.234]
   - - [8, 1024, 1, 100]
-    - [1068, 140.374]
+    - [1095, 140.274]
   - - [64, 2000, 1, 500]
-    - [1163, 3940.99]
+    - [1190, 3940.89]
   - - [64, 1024, 1, 2000]
-    - [1028, 3531.13]
+    - [1055, 3531.03]
   - - [10, 100, 1, 512]
-    - [1022, 61.6385]
+    - [1049, 61.5385]
   - - [4, 500, 1, 2000]
-    - [1048, 173.11]
+    - [1075, 173.01]
   - - [512, 1024, 1, 10]
-    - [1099, 736.46]
+    - [1126, 736.36]
   - - [128, 2048, 1, 2048]
-    - [1162, 4596.6]
+    - [1189, 4596.5]
   - - [4, 100, 1, 100]
-    - [1011, 7.24286]
+    - [1038, 7.14286]
   - - [32, 1024, 1, 512]
-    - [1071, 1519.78]
+    - [1098, 1519.68]
   - - [8, 512, 1, 2000]
-    - [1096, 356.894]
+    - [1123, 356.794]
   - - [100, 100, 1, 512]
-    - [1036, 426.767]
+    - [1063, 426.667]
   - - [2, 2048, 1, 2048]
-    - [1045, 170.878]
+    - [1072, 170.778]
   - - [2, 512, 1, 2000]
-    - [1048, 90.8801]
+    - [1075, 90.7801]
   - - [16, 500, 1, 10]
-    - [1021, 18.2818]
+    - [1048, 18.1818]
   - - [10, 500, 1, 100]
-    - [1021, 88.1282]
+    - [1048, 88.0282]
   - - [4, 100, 1, 500]
-    - [1086, 23.6849]
+    - [1113, 23.5849]
   - - [512, 1024, 1, 1024]
-    - [1138, 7431.87]
+    - [1165, 7431.77]
   - - [64, 500, 1, 100]
-    - [1031, 506.429]
+    - [1058, 506.329]
   - - [128, 2000, 1, 10]
-    - [1189, 432.532]
+    - [1216, 432.432]
   - - [10, 2000, 1, 2048]
-    - [1052, 806.399]
+    - [1079, 806.299]
   - - [2, 100, 1, 100]
-    - [1009, 3.225]
+    - [1036, 3.125]
   - - [10, 512, 1, 2000]
-    - [1041, 462.194]
+    - [1068, 462.094]
   - - [8, 500, 1, 500]
-    - [1022, 231.581]
+    - [1049, 231.481]
   - - [4, 500, 1, 512]
-    - [1022, 118.619]
+    - [1049, 118.519]
   - - [10, 500, 1, 10]
-    - [1016, 11.0649]
+    - [1043, 10.9649]
   - - [64, 512, 1, 2000]
-    - [1022, 2116.9]
+    - [1049, 2116.8]
   - - [500, 512, 1, 10]
-    - [1143, 395.162]
+    - [1170, 395.062]
   - - [200, 512, 1, 512]
-    - [1161, 3449.36]
+    - [1188, 3449.26]
   - - [512, 500, 1, 500]
-    - [1117, 5536.43]
+    - [1144, 5536.33]
   - - [32, 512, 1, 2000]
-    - [1032, 1264.3]
+    - [1059, 1264.2]
   - - [128, 500, 1, 2048]
-    - [1088, 3006.34]
+    - [1115, 3006.24]
   - - [500, 2048, 1, 10]
-    - [1113, 1049.28]
+    - [1140, 1049.18]
   - - [512, 512, 1, 100]
-    - [1150, 2664.16]
+    - [1177, 2664.06]
   - - [200, 2000, 1, 512]
-    - [1158, 5192.8]
+    - [1185, 5192.7]
   - - [500, 500, 1, 512]
-    - [1114, 5673.86]
+    - [1141, 5673.76]
   - - [128, 2048, 1, 500]
-    - [1146, 5251.38]
+    - [1173, 5251.28]
   - - [4, 512, 1, 512]
-    - [1022, 123.753]
+    - [1049, 123.653]
   - - [16, 2048, 1, 2000]
-    - [1038, 2294.78]
+    - [1065, 2294.68]
   - - [16, 500, 1, 1024]
-    - [1022, 562.737]
+    - [1049, 562.637]
   - - [256, 2000, 1, 500]
-    - [1152, 6639.1]
+    - [1179, 6639.0]
   - - [10, 1024, 1, 10]
-    - [1002, 21.0836]
+    - [1029, 20.9836]
   - - [16, 500, 1, 500]
-    - [1022, 446.529]
+    - [1049, 446.429]
   - - [10, 2048, 1, 512]
-    - [1020, 784.962]
+    - [1047, 784.862]
   - - [200, 500, 1, 10]
-    - [995, 176.156]
+    - [1022, 176.056]
   - - [256, 2048, 1, 512]
-    - [1149, 6540.93]
+    - [1176, 6540.83]
   - - [256, 2000, 1, 2048]
-    - [1126, 6670.43]
+    - [1153, 6670.33]
   - - [500, 2048, 1, 500]
-    - [1154, 7264.57]
+    - [1181, 7264.47]
   - - [500, 100, 1, 1024]
-    - [1176, 2700.52]
+    - [1203, 2700.42]
   - - [16, 100, 1, 512]
-    - [1086, 96.7038]
+    - [1113, 96.6038]
   - - [64, 512, 1, 2048]
-    - [1087, 1868.39]
+    - [1114, 1868.29]
   - - [32, 1024, 1, 10]
-    - [998, 69.5237]
+    - [1025, 69.4237]
   - - [16, 2048, 1, 512]
-    - [1071, 1226.5]
+    - [1098, 1226.4]
   - - [8, 1024, 1, 512]
-    - [1071, 416.202]
+    - [1098, 416.102]
   - - [4, 1024, 1, 2048]
-    - [1093, 223.201]
+    - [1120, 223.101]
   - - [100, 2048, 1, 2000]
-    - [1166, 5614.14]
+    - [1193, 5614.04]
   - - [512, 512, 1, 2048]
-    - [1131, 6868.97]
+    - [1158, 6868.87]
   - - [256, 2000, 1, 1024]
-    - [1122, 5758.98]
+    - [1149, 5758.88]
   - - [64, 512, 1, 512]
-    - [1191, 1651.4]
+    - [1218, 1651.3]
   - - [200, 1024, 1, 10]
-    - [1005, 341.433]
+    - [1032, 341.333]
   - - [128, 500, 1, 500]
-    - [1034, 2580.75]
+    - [1061, 2580.65]
   - - [100, 512, 1, 1024]
-    - [1025, 2041.72]
+    - [1052, 2041.62]
   - - [16, 1024, 1, 500]
-    - [1022, 867.897]
+    - [1049, 867.797]
   - - [128, 100, 1, 2048]
-    - [1192, 1011.46]
+    - [1219, 1011.36]
   - - [100, 512, 1, 500]
-    - [1025, 2051.38]
+    - [1052, 2051.28]
   - - [8, 1024, 1, 1024]
-    - [1038, 424.625]
+    - [1065, 424.525]
   - - [2, 2000, 1, 10]
-    - [1064, 8.57458]
+    - [1091, 8.47458]
   - - [4, 500, 1, 10]
-    - [1061, 4.56429]
+    - [1088, 4.46429]
   - - [500, 2000, 1, 2048]
-    - [1138, 7444.12]
+    - [1165, 7444.02]
   - - [4, 2000, 1, 100]
-    - [1074, 128.305]
+    - [1101, 128.205]
   - - [512, 2000, 1, 2000]
-    - [1124, 8454.53]
+    - [1151, 8454.43]
   - - [128, 500, 1, 10]
-    - [1183, 117.747]
+    - [1210, 117.647]
   - - [32, 1024, 1, 100]
-    - [1031, 512.1]
+    - [1058, 512.0]
   - - [8, 500, 1, 2048]
-    - [1046, 286.935]
+    - [1073, 286.835]
   - - [16, 1024, 1, 1024]
-    - [1010, 881.256]
+    - [1037, 881.156]
   - - [200, 100, 1, 10]
-    - [1182, 40.4226]
+    - [1209, 40.3226]
   - - [512, 100, 1, 500]
-    - [1176, 1987.68]
+    - [1203, 1987.58]
   - - [512, 2048, 1, 2048]
-    - [1133, 8063.65]
+    - [1160, 8063.55]
   - - [16, 2000, 1, 512]
-    - [1032, 1204.81]
+    - [1059, 1204.71]
   - - [64, 2048, 1, 1024]
-    - [1030, 2853.37]
+    - [1057, 2853.27]
   - - [32, 2048, 1, 10]
-    - [1004, 130.132]
+    - [1031, 130.032]
   - - [10, 2048, 1, 10]
-    - [1006, 39.4846]
+    - [1033, 39.3846]
   - - [4, 2000, 1, 512]
-    - [1022, 316.149]
+    - [1049, 316.049]
   - - [4, 500, 1, 100]
-    - [1021, 35.8143]
+    - [1048, 35.7143]
   - - [8, 100, 1, 2048]
-    - [1041, 84.7281]
+    - [1068, 84.6281]
   - - [512, 2048, 1, 10]
-    - [1121, 1225.07]
+    - [1148, 1224.97]
   - - [512, 100, 1, 10]
-    - [1110, 90.2408]
+    - [1137, 90.1408]
   - - [4, 512, 1, 1024]
-    - [1022, 143.348]
+    - [1049, 143.248]
   - - [16, 2048, 1, 10]
-    - [1055, 65.1159]
+    - [1082, 65.0159]
   - - [500, 2000, 1, 100]
-    - [1106, 4717.08]
+    - [1133, 4716.98]
   - - [32, 1024, 1, 2048]
-    - [1049, 1582.86]
+    - [1076, 1582.76]
   - - [100, 2000, 1, 2000]
-    - [1166, 5512.78]
+    - [1193, 5512.68]
   - - [128, 100, 1, 512]
-    - [1192, 561.196]
+    - [1219, 561.096]
   - - [500, 500, 1, 100]
-    - [1146, 2460.73]
+    - [1173, 2460.63]
   - - [32, 2000, 1, 10]
-    - [998, 119.503]
+    - [1025, 119.403]
   - - [128, 2048, 1, 100]
-    - [1146, 2708.2]
+    - [1173, 2708.1]
   - - [10, 2000, 1, 100]
-    - [1021, 316.556]
+    - [1048, 316.456]
   - - [2, 2048, 1, 500]
-    - [1032, 191.145]
+    - [1059, 191.045]
   - - [32, 1024, 1, 500]
-    - [1032, 1563.46]
+    - [1059, 1563.36]
   - - [4, 1024, 1, 10]
-    - [1061, 9.24286]
+    - [1088, 9.14286]
   - - [100, 512, 1, 10]
-    - [1187, 97.0697]
+    - [1214, 96.9697]
   - - [8, 100, 1, 100]
-    - [1037, 14.3857]
+    - [1064, 14.2857]
   - - [128, 512, 1, 500]
-    - [1025, 2677.22]
+    - [1052, 2677.12]
   - - [16, 100, 1, 2048]
-    - [1048, 161.997]
+    - [1075, 161.897]
   - - [2, 1024, 1, 10]
-    - [1061, 4.59123]
+    - [1088, 4.49123]
   - - [4, 100, 1, 2048]
-    - [1041, 41.8959]
+    - [1068, 41.7959]
   - - [4, 512, 1, 2000]
-    - [1041, 180.382]
+    - [1068, 180.282]
   - - [4096, 64, 1, 2048]
-    - [1241, 7247.28]
+    - [1268, 7247.18]
   - - [1024, 10080, 1, 1024]
-    - [1229, 9833.47]
+    - [1256, 9833.37]
   - - [1024, 1131, 1, 1024]
-    - [1207, 7551.95]
+    - [1234, 7551.85]
   - - [36548, 1216, 1, 1024]
-    - [1219, 10351.6]
+    - [1246, 10351.5]
   - - [1024, 29, 1, 1024]
-    - [1251, 1697.01]
+    - [1278, 1696.91]
   - - [1024, 2592, 1, 1024]
-    - [1220, 8424.11]
+    - [1247, 8424.01]
   - - [1024, 1568, 1, 1024]
-    - [1231, 7511.86]
+    - [1258, 7511.76]
   - - [4096, 91, 1, 2048]
-    - [1200, 5599.91]
+    - [1227, 5599.81]
   - - [1024, 4445, 1, 1024]
-    - [1218, 9261.22]
+    - [1245, 9261.12]
   - - [1024, 6272, 1, 1024]
-    - [1213, 9439.61]
+    - [1240, 9439.51]
   - - [36548, 3584, 1, 1024]
-    - [1212, 10393.8]
+    - [1239, 10393.7]
   - - [1024, 1827, 1, 1024]
-    - [1231, 8714.42]
+    - [1258, 8714.32]
   - - [1024, 3220, 1, 1024]
-    - [1211, 8861.2]
+    - [1238, 8861.1]
   - - [1024, 1856, 1, 1024]
-    - [1228, 8827.05]
+    - [1255, 8826.95]
   - - [1024, 1760, 1, 1024]
-    - [1228, 8334.2]
+    - [1255, 8334.1]
   - - [1024, 1600, 1, 1024]
-    - [1228, 7615.07]
+    - [1255, 7614.97]
   - - [1024, 1, 1, 21]
-    - [1232, 0.1]
+    - [1259, 0.0]
   - - [36548, 4235, 1, 1024]
-    - [1212, 10276.8]
+    - [1239, 10276.7]
   - - [1024, 49, 1, 1024]
-    - [1247, 2643.12]
+    - [1274, 2643.02]
   - - [1024, 1984, 1, 1024]
-    - [1231, 9449.52]
+    - [1258, 9449.42]
   - - [1024, 14720, 1, 1024]
-    - [1218, 10033.3]
+    - [1245, 10033.2]
   - - [1024, 1152, 1, 1024]
-    - [1201, 7523.54]
+    - [1228, 7523.44]
   - - [36548, 14976, 1, 1024]
-    - [1219, 10421.7]
+    - [1246, 10421.6]
   - - [36548, 1152, 1, 1024]
-    - [1219, 10258.1]
+    - [1246, 10258.0]
   - - [4096, 86, 1, 3072]
-    - [1200, 5308.85]
+    - [1227, 5308.75]
   - - [1024, 3392, 1, 1024]
-    - [1213, 9176.54]
+    - [1240, 9176.44]
   - - [1024, 1408, 1, 1024]
-    - [1213, 8958.83]
+    - [1240, 8958.73]
   - - [1024, 2080, 1, 1024]
-    - [1204, 8396.49]
+    - [1231, 8396.39]
   - - [1024, 1824, 1, 1024]
-    - [1222, 8671.71]
+    - [1249, 8671.61]
   - - [36548, 2432, 1, 1024]
-    - [1212, 10392.6]
+    - [1239, 10392.5]
   - - [4096, 29, 1, 2048]
-    - [1233, 4325.66]
+    - [1260, 4325.56]
   - - [1024, 1102, 1, 1024]
-    - [1207, 7204.18]
+    - [1234, 7204.08]
   - - [4096, 49, 1, 2048]
-    - [1239, 5609.29]
+    - [1266, 5609.19]
   - - [36548, 1827, 1, 1024]
-    - [1219, 10183.2]
+    - [1246, 10183.1]
   - - [4096, 25, 1, 2048]
-    - [1234, 3788.31]
+    - [1261, 3788.21]
   - - [1024, 10176, 1, 1024]
-    - [1229, 9941.18]
+    - [1256, 9941.08]
   - - [1024, 774, 1, 1024]
-    - [1214, 7079.67]
+    - [1241, 7079.57]
   - - [1024, 1952, 1, 1024]
-    - [1231, 9300.49]
+    - [1258, 9300.39]
   - - [4096, 128, 1, 2048]
-    - [1201, 8274.96]
+    - [1228, 8274.86]
   - - [1024, 17024, 1, 1024]
-    - [1211, 9960.72]
+    - [1238, 9960.62]
   - - [1024, 1472, 1, 1024]
-    - [1220, 9343.37]
+    - [1247, 9343.27]
   - - [36548, 4459, 1, 1024]
-    - [1212, 10358.1]
+    - [1239, 10358.0]
   - - [4096, 91, 1, 3072]
-    - [1206, 5509.39]
+    - [1233, 5509.29]
   - - [1024, 3712, 1, 1024]
-    - [1220, 9048.66]
+    - [1247, 9048.56]
   - - [4096, 64, 1, 3072]
-    - [1253, 7489.93]
+    - [1280, 7489.83]
   - - [4096, 29, 1, 3072]
-    - [1233, 4511.78]
+    - [1260, 4511.68]
   - - [4096, 128, 1, 3072]
-    - [1200, 8423.83]
+    - [1227, 8423.73]
   - - [36548, 12928, 1, 1024]
-    - [1219, 10426.1]
+    - [1246, 10426.0]
   - - [1024, 1632, 1, 1024]
-    - [1201, 7761.73]
+    - [1228, 7761.63]
   - - [1024, 1696, 1, 1024]
-    - [1226, 8107.29]
+    - [1253, 8107.19]
   - - [4096, 24, 1, 2048]
-    - [1233, 3663.25]
+    - [1260, 3663.15]
   - - [4096, 63, 1, 3072]
-    - [1242, 7175.37]
+    - [1269, 7175.27]
   - - [4096, 96, 1, 2048]
-    - [1201, 5866.28]
+    - [1228, 5866.18]
   - - [36548, 1764, 1, 1024]
-    - [1212, 10128.5]
+    - [1239, 10128.4]
   - - [4096, 32, 1, 2048]
-    - [1237, 4540.62]
+    - [1264, 4540.52]
   - - [1024, 35, 1, 1024]
-    - [1245, 1911.57]
+    - [1272, 1911.47]
   - - [1024, 1120, 1, 1024]
-    - [1200, 7289.13]
+    - [1227, 7289.03]
   - - [4096, 49, 1, 3072]
-    - [1239, 5751.62]
+    - [1266, 5751.52]
   - - [1024, 24, 1, 1024]
-    - [1245, 1392.02]
+    - [1272, 1391.92]
   - - [1024, 2944, 1, 1024]
-    - [1221, 9284.93]
+    - [1248, 9284.83]
   - - [36548, 14080, 1, 1024]
-    - [1212, 10441.4]
+    - [1239, 10441.3]
   - - [1024, 1, 1, 1024]
-    - [1232, 0.1]
+    - [1259, 0.0]
   - - [1024, 1280, 1, 1024]
-    - [1200, 8244.46]
+    - [1227, 8244.36]
   - - [1024, 13440, 1, 1024]
-    - [1212, 9799.92]
+    - [1239, 9799.82]
   - - [1024, 1015, 1, 1024]
-    - [1220, 9187.85]
+    - [1247, 9187.75]
   - - [36548, 9120, 1, 1024]
-    - [1212, 10400.0]
+    - [1239, 10399.9]
   - - [36548, 1, 1, 1024]
-    - [1232, 0.1]
+    - [1259, 0.0]
   - - [1024, 3008, 1, 1024]
-    - [1221, 9468.55]
+    - [1248, 9468.45]
   - - [1024, 2560, 1, 1024]
-    - [1218, 8879.31]
+    - [1245, 8879.21]
   - - [1024, 21, 1, 1024]
-    - [1244, 1234.41]
+    - [1271, 1234.31]
   - - [1024, 2208, 1, 1024]
-    - [1200, 8231.27]
+    - [1227, 8231.17]
   - - [1024, 96, 1, 1024]
-    - [1250, 3767.44]
+    - [1277, 3767.34]
   - - [4096, 86, 1, 2048]
-    - [1201, 5529.09]
+    - [1228, 5528.99]
   - - [4096, 96, 1, 3072]
-    - [1200, 6273.28]
+    - [1227, 6273.18]
   - - [1024, 1920, 1, 1024]
-    - [1230, 9118.19]
+    - [1257, 9118.09]
   - - [4096, 27, 1, 2048]
-    - [1233, 4073.7]
+    - [1260, 4073.6]
   - - [36548, 2496, 1, 1024]
-    - [1212, 10361.2]
+    - [1239, 10361.1]
   - - [1024, 1, 1, 14]
-    - [1232, 0.1]
+    - [1259, 0.0]
   - - [1024, 91, 1, 1024]
-    - [1252, 3647.67]
+    - [1279, 3647.57]
   - - [1024, 2016, 1, 1024]
-    - [1228, 9560.24]
+    - [1255, 9560.14]
   - - [1024, 1184, 1, 1024]
-    - [1201, 7678.96]
+    - [1228, 7678.86]
   - - [4096, 1, 1, 2048]
-    - [1232, 0.1]
+    - [1259, 0.0]
   - - [1024, 1664, 1, 1024]
-    - [1226, 7934.07]
+    - [1253, 7933.97]
   - - [1024, 11424, 1, 1024]
-    - [1218, 9777.91]
+    - [1245, 9777.81]
   - - [4096, 24, 1, 3072]
-    - [1236, 3813.1]
+    - [1263, 3813.0]
   - - [1024, 1216, 1, 1024]
-    - [1200, 7902.13]
+    - [1227, 7902.03]
   - - [36548, 3185, 1, 1024]
-    - [1212, 10336.7]
+    - [1239, 10336.6]
   - - [36548, 9216, 1, 1024]
-    - [1212, 10414.3]
+    - [1239, 10414.2]
   - - [1024, 3200, 1, 1024]
-    - [1218, 8847.01]
+    - [1245, 8846.91]
   - - [1024, 2656, 1, 1024]
-    - [1213, 8649.25]
+    - [1240, 8649.15]
   - - [1024, 2368, 1, 1024]
-    - [1213, 8873.16]
+    - [1240, 8873.06]
   - - [1024, 4459, 1, 1024]
-    - [1220, 9431.32]
+    - [1247, 9431.22]
   - - [1024, 3808, 1, 1024]
-    - [1220, 9263.72]
+    - [1247, 9263.62]
   - - [1024, 2336, 1, 1024]
-    - [1213, 8966.0]
+    - [1240, 8965.9]
   - - [4096, 27, 1, 3072]
-    - [1233, 4171.74]
+    - [1260, 4171.64]
   - - [1024, 2304, 1, 1024]
-    - [1210, 8601.38]
+    - [1237, 8601.28]
   - - [1024, 1560, 1, 1024]
-    - [1225, 7481.74]
+    - [1252, 7481.64]
   - - [4096, 35, 1, 3072]
-    - [1239, 4176.9]
+    - [1266, 4176.8]
   - - [1024, 2496, 1, 1024]
-    - [1216, 9092.86]
+    - [1243, 9092.76]
   - - [1024, 1504, 1, 1024]
-    - [1216, 9220.53]
+    - [1243, 9220.43]
   - - [4096, 50, 1, 2048]
-    - [1240, 5472.83]
+    - [1267, 5472.73]
   - - [1024, 3232, 1, 1024]
-    - [1213, 8961.94]
+    - [1240, 8961.84]
   - - [1024, 14, 1, 1024]
-    - [1244, 882.315]
+    - [1271, 882.215]
   - - [36548, 1015, 1, 1024]
-    - [1212, 10140.9]
+    - [1239, 10140.8]
   - - [1024, 2000, 1, 1024]
-    - [1224, 9487.8]
+    - [1251, 9487.7]
   - - [36548, 243, 1, 1024]
-    - [1217, 9441.12]
+    - [1244, 9441.02]
   - - [36548, 32, 1, 1024]
-    - [1205, 4721.05]
+    - [1232, 4720.95]
   - - [1024, 25, 1, 1024]
-    - [1251, 1462.96]
+    - [1278, 1462.86]
   - - [1024, 13184, 1, 1024]
-    - [1215, 9866.28]
+    - [1242, 9866.18]
   - - [1024, 2688, 1, 1024]
-    - [1210, 8559.93]
+    - [1237, 8559.83]
   - - [1024, 27, 1, 1024]
-    - [1249, 1559.11]
+    - [1276, 1559.01]
   - - [36548, 950, 1, 1024]
-    - [1219, 10053.6]
+    - [1246, 10053.5]
   - - [1024, 1764, 1, 1024]
-    - [1226, 8347.11]
+    - [1253, 8347.01]
   - - [1024, 992, 1, 1024]
-    - [1213, 9035.82]
+    - [1240, 9035.72]
   - - [1024, 1376, 1, 1024]
-    - [1213, 8797.96]
+    - [1240, 8797.86]
   - - [1024, 950, 1, 1024]
-    - [1220, 8635.26]
+    - [1247, 8635.16]
   - - [36548, 774, 1, 1024]
-    - [1212, 9460.82]
+    - [1239, 9460.72]
   - - [36548, 25, 1, 1024]
-    - [1205, 3694.16]
+    - [1232, 3694.06]
   - - [1024, 4256, 1, 1024]
-    - [1213, 9172.16]
+    - [1240, 9172.06]
   - - [4096, 32, 1, 3072]
-    - [1234, 4886.67]
+    - [1261, 4886.57]
   - - [1024, 243, 1, 1024]
-    - [1238, 6594.41]
+    - [1265, 6594.31]
   - - [36548, 3712, 1, 1024]
-    - [1212, 10401.6]
+    - [1239, 10401.5]
   - - [1024, 50, 1, 1024]
-    - [1247, 2742.19]
+    - [1274, 2742.09]
   - - [1024, 3360, 1, 1024]
-    - [1209, 9017.37]
+    - [1236, 9017.27]
   - - [1024, 2048, 1, 1024]
-    - [1224, 9736.65]
+    - [1251, 9736.55]
   - - [1024, 2784, 1, 1024]
-    - [1220, 8835.6]
+    - [1247, 8835.5]
   - - [1024, 4992, 1, 1024]
-    - [1218, 9639.38]
+    - [1245, 9639.28]
   - - [36548, 1102, 1, 1024]
-    - [1219, 9859.04]
+    - [1246, 9858.94]
   - - [1024, 1536, 1, 1024]
-    - [1211, 9294.98]
+    - [1238, 9294.88]
   - - [1024, 2720, 1, 1024]
-    - [1216, 8617.88]
+    - [1243, 8617.78]
   - - [4096, 1, 1, 3072]
-    - [1232, 0.1]
+    - [1259, 0.0]
   - - [1024, 2752, 1, 1024]
-    - [1220, 8902.17]
+    - [1247, 8902.07]
   - - [1024, 2816, 1, 1024]
-    - [1218, 8906.95]
+    - [1245, 8906.85]
   - - [1024, 2624, 1, 1024]
-    - [1220, 8494.41]
+    - [1247, 8494.31]
   - - [1024, 2144, 1, 1024]
-    - [1203, 8243.56]
+    - [1230, 8243.46]
   - - [36548, 1131, 1, 1024]
-    - [1219, 10104.6]
+    - [1246, 10104.5]
   - - [4096, 25, 1, 3072]
-    - [1234, 3959.98]
+    - [1261, 3959.88]
   - - [1024, 64, 1, 1024]
-    - [1247, 3410.1]
+    - [1274, 3410.0]
   - - [1024, 3296, 1, 1024]
-    - [1218, 9066.52]
+    - [1245, 9066.42]
   - - [36548, 4992, 1, 1024]
-    - [1212, 10395.6]
+    - [1239, 10395.5]
   - - [1024, 1344, 1, 1024]
-    - [1213, 8522.66]
+    - [1240, 8522.56]
   - - [36548, 2401, 1, 1024]
-    - [1212, 10250.3]
+    - [1239, 10250.2]
   - - [1024, 15744, 1, 1024]
-    - [1212, 10006.4]
+    - [1239, 10006.3]
   - - [1024, 15232, 1, 1024]
-    - [1211, 9912.21]
+    - [1238, 9912.11]
   - - [1024, 1888, 1, 1024]
-    - [1223, 8962.98]
+    - [1250, 8962.88]
   - - [1024, 1792, 1, 1024]
-    - [1227, 8556.82]
+    - [1254, 8556.72]
   - - [36548, 1073, 1, 1024]
-    - [1212, 10161.2]
+    - [1239, 10161.1]
   - - [4096, 50, 1, 3072]
-    - [1239, 5882.16]
+    - [1266, 5882.06]
   - - [36548, 15488, 1, 1024]
-    - [1219, 10437.1]
+    - [1246, 10437.0]
   - - [1024, 2464, 1, 1024]
-    - [1216, 8880.02]
+    - [1243, 8879.92]
   - - [1024, 2272, 1, 1024]
-    - [1213, 8720.35]
+    - [1240, 8720.25]
   - - [1024, 13, 1, 1024]
-    - [1243, 774.616]
+    - [1270, 774.516]
   - - [1024, 2432, 1, 1024]
-    - [1218, 8491.53]
+    - [1245, 8491.43]
   - - [36548, 24, 1, 1024]
-    - [1205, 3564.41]
+    - [1232, 3564.31]
   - - [1024, 3936, 1, 1024]
-    - [1228, 9433.3]
+    - [1255, 9433.2]
   - - [36548, 13824, 1, 1024]
-    - [1212, 10439.8]
+    - [1239, 10439.7]
   - - [1024, 2401, 1, 1024]
-    - [1220, 8870.03]
+    - [1247, 8869.93]
   - - [1024, 32, 1, 1024]
-    - [1235, 1839.71]
+    - [1262, 1839.61]
   - - [1024, 2176, 1, 1024]
-    - [1204, 8544.55]
+    - [1231, 8544.45]
   - - [1024, 2240, 1, 1024]
-    - [1213, 8381.55]
+    - [1240, 8381.45]
   - - [1024, 1728, 1, 1024]
-    - [1201, 8212.33]
+    - [1228, 8212.23]
   - - [1024, 128, 1, 1024]
-    - [1248, 4660.44]
+    - [1275, 4660.34]
   - - [1024, 216, 1, 1024]
-    - [1238, 5777.97]
+    - [1265, 5777.87]
   - - [1024, 63, 1, 1024]
-    - [1246, 3329.75]
+    - [1273, 3329.65]
   - - [1024, 86, 1, 1024]
-    - [1252, 3533.7]
+    - [1279, 3533.6]
   - - [1024, 2528, 1, 1024]
-    - [1208, 8789.25]
+    - [1235, 8789.15]
   - - [1024, 2400, 1, 1024]
-    - [1213, 8939.4]
+    - [1240, 8939.3]
   - - [1024, 1440, 1, 1024]
-    - [1220, 9131.41]
+    - [1247, 9131.31]
   - - [1024, 2912, 1, 1024]
-    - [1213, 9140.03]
+    - [1240, 9139.93]
   - - [4096, 35, 1, 2048]
-    - [1239, 4059.85]
+    - [1266, 4059.75]
   - - [4096, 63, 1, 2048]
-    - [1241, 6946.5]
+    - [1268, 6946.4]
   - - [1024, 2880, 1, 1024]
-    - [1211, 9104.98]
+    - [1238, 9104.88]
   - - [1024, 4064, 1, 1024]
-    - [1230, 9715.2]
+    - [1257, 9715.1]
   - - [1024, 4655, 1, 1024]
-    - [1218, 9033.9]
+    - [1245, 9033.8]
   - - [1024, 1088, 1, 1024]
-    - [1202, 8144.41]
+    - [1229, 8144.31]
   - - [36548, 6272, 1, 1024]
-    - [1219, 10427.4]
+    - [1246, 10427.3]
   - - [1024, 1, 1, 13]
-    - [1232, 0.1]
+    - [1259, 0.0]
   - - [768, 512, 1, 768]
-    - [1256, 5889.14]
+    - [1283, 5889.04]
   - - [768, 2048, 1, 3072]
-    - [1266, 9394.72]
+    - [1293, 9394.62]
   - - [768, 32, 1, 768]
-    - [1278, 1502.84]
+    - [1305, 1502.74]
   - - [64, 128, 96, 128]
-    - [1273, 4973.58]
+    - [1300, 4973.48]
   - - [3072, 1024, 1, 768]
-    - [1267, 9856.17]
+    - [1294, 9856.07]
   - - [768, 1024, 1, 3072]
-    - [1260, 8611.16]
+    - [1287, 8611.06]
   - - [768, 512, 1, 3072]
-    - [1259, 6430.89]
+    - [1286, 6430.79]
   - - [768, 64, 1, 768]
-    - [1280, 2621.54]
+    - [1307, 2621.44]
   - - [768, 4096, 1, 3072]
-    - [1265, 10030.5]
+    - [1292, 10030.4]
   - - [768, 2048, 1, 2]
-    - [1258, 381.863]
+    - [1285, 381.763]
   - - [768, 2048, 1, 768]
-    - [1263, 9754.3]
+    - [1290, 9754.2]
   - - [768, 320, 1, 30522]
-    - [1276, 8529.5]
+    - [1303, 8529.4]
   - - [64, 64, 96, 64]
-    - [1270, 2496.71]
+    - [1297, 2496.61]
   - - [768, 640, 1, 30522]
-    - [1257, 8253.94]
+    - [1284, 8253.84]
   - - [768, 1280, 1, 30522]
-    - [1262, 9572.95]
+    - [1289, 9572.85]
   - - [768, 1280, 1, 768]
-    - [1266, 8714.03]
+    - [1293, 8713.93]
   - - [768, 640, 1, 768]
-    - [1256, 7293.13]
+    - [1283, 7293.03]
   - - [768, 32, 1, 2]
-    - [1268, 11.9154]
+    - [1295, 11.8154]
   - - [3072, 2048, 1, 768]
-    - [1263, 10019.7]
+    - [1290, 10019.6]
   - - [768, 4096, 1, 768]
-    - [1263, 9927.45]
+    - [1290, 9927.35]
   - - [3072, 4096, 1, 768]
-    - [1266, 10150.2]
+    - [1293, 10150.1]
   - - [64, 256, 192, 256]
-    - [1272, 7054.29]
+    - [1299, 7054.19]
   - - [768, 8, 1, 768]
-    - [1279, 341.039]
+    - [1306, 340.939]
   - - [64, 128, 384, 128]
-    - [1271, 6765.11]
+    - [1298, 6765.01]
   - - [768, 1024, 1, 768]
-    - [1261, 8768.68]
+    - [1288, 8768.58]
   - - [768, 320, 1, 768]
-    - [1277, 6838.64]
+    - [1304, 6838.54]
   - - [64, 64, 768, 64]
-    - [1274, 5388.93]
+    - [1301, 5388.83]
   - - [768, 1024, 1, 2]
-    - [1254, 258.795]
+    - [1281, 258.695]
   - - [768, 16, 1, 768]
-    - [1279, 819.3]
+    - [1306, 819.2]
   - - [64, 256, 96, 256]
-    - [1272, 5893.74]
+    - [1299, 5893.64]
   - - [3072, 512, 1, 768]
-    - [1264, 9722.89]
+    - [1291, 9722.79]
   - - [768, 160, 1, 768]
-    - [1281, 5019.88]
+    - [1308, 5019.78]
   - - [768, 4096, 1, 2]
-    - [1255, 507.475]
+    - [1282, 507.375]
   - - [1600, 512, 1, 1024]
-    - [1285, 7187.05]
+    - [1312, 7186.95]
   - - [1024, 512, 1, 64]
-    - [1283, 2557.6]
+    - [1310, 2557.5]
   - - [1024, 512, 1, 1]
-    - [1282, 71.3348]
+    - [1309, 71.2348]
   - - [2048, 512, 1, 1]
-    - [1284, 90.4945]
+    - [1311, 90.3945]
   - - [1024, 200, 1, 1]
-    - [1290, 40.1]
+    - [1317, 40.0]
   - - [32, 200, 1, 1]
-    - [1286, 1.66863]
+    - [1313, 1.56863]
   - - [560, 200, 1, 1024]
-    - [1294, 4731.45]
+    - [1321, 4731.35]
   - - [1, 512, 1, 1]
-    - [1293, 0.230612]
+    - [1320, 0.130612]
   - - [64, 512, 1, 1]
-    - [1288, 7.68519]
+    - [1315, 7.58519]
   - - [1024, 8192, 1, 256]
-    - [1303, 9519.09]
+    - [1330, 9518.99]
   - - [1024, 22016, 1, 256]
-    - [1309, 9881.22]
+    - [1336, 9881.12]
   - - [256, 8976, 1, 4352]
-    - [1301, 9567.18]
+    - [1328, 9567.08]
   - - [512, 256, 1, 2048]
-    - [1314, 5917.99]
+    - [1341, 5917.89]
   - - [1024, 19968, 1, 256]
-    - [1309, 9882.47]
+    - [1336, 9882.37]
   - - [256, 8976, 1, 1536]
-    - [1299, 8437.45]
+    - [1326, 8437.35]
   - - [256, 8976, 1, 33536]
-    - [1299, 8441.99]
+    - [1326, 8441.89]
   - - [1024, 1792, 1, 256]
-    - [1299, 7757.07]
+    - [1326, 7756.97]
   - - [1024, 21504, 1, 256]
-    - [1309, 9894.0]
+    - [1336, 9893.9]
   - - [512, 215, 1, 2048]
-    - [1315, 4665.74]
+    - [1342, 4665.64]
   - - [1024, 7168, 1, 256]
-    - [1303, 9509.45]
+    - [1330, 9509.35]
   - - [256, 8976, 1, 15872]
-    - [1305, 8914.75]
+    - [1332, 8914.65]
   - - [1024, 19712, 1, 256]
-    - [1309, 9772.0]
+    - [1336, 9771.9]
   - - [256, 8976, 1, 5632]
-    - [1305, 8740.13]
+    - [1332, 8740.03]
   - - [1024, 14848, 1, 256]
-    - [1309, 9756.25]
+    - [1336, 9756.15]
   - - [1024, 28672, 1, 256]
-    - [1309, 9959.02]
+    - [1336, 9958.92]
   - - [256, 8976, 1, 9728]
-    - [1312, 8853.14]
+    - [1339, 8853.04]
   - - [1024, 17152, 1, 256]
-    - [1303, 9737.4]
+    - [1330, 9737.3]
   - - [256, 8976, 1, 11520]
-    - [1305, 8999.3]
+    - [1332, 8999.2]
   - - [256, 8976, 1, 8192]
-    - [1295, 7897.42]
+    - [1322, 7897.32]
   - - [1024, 3328, 1, 256]
-    - [1310, 8593.63]
+    - [1337, 8593.53]
   - - [256, 8976, 1, 7424]
-    - [1305, 8980.57]
+    - [1332, 8980.47]
   - - [1024, 18944, 1, 256]
-    - [1309, 9854.95]
+    - [1336, 9854.85]
   - - [1024, 10496, 1, 256]
-    - [1304, 9454.0]
+    - [1331, 9453.9]
   - - [256, 8976, 1, 5376]
-    - [1302, 9608.47]
+    - [1329, 9608.37]
   - - [256, 8976, 1, 6144]
-    - [1299, 7880.23]
+    - [1326, 7880.13]
   - - [1024, 40448, 1, 256]
-    - [1309, 10016.7]
+    - [1336, 10016.6]
   - - [256, 8976, 1, 22016]
-    - [1312, 8939.97]
+    - [1339, 8939.87]
   - - [256, 8976, 1, 4864]
-    - [1300, 9211.53]
+    - [1327, 9211.43]
   - - [256, 8976, 1, 12288]
-    - [1296, 8065.15]
+    - [1323, 8065.05]
   - - [1024, 9728, 1, 256]
-    - [1309, 9636.35]
+    - [1336, 9636.25]
   - - [256, 8976, 1, 2048]
-    - [1297, 7001.43]
+    - [1324, 7001.33]
   - - [1024, 10240, 1, 256]
-    - [1303, 9620.06]
+    - [1330, 9619.96]
   - - [256, 8976, 1, 2304]
-    - [1301, 9509.84]
+    - [1328, 9509.74]
   - - [1024, 7936, 1, 256]
-    - [1309, 9300.77]
+    - [1336, 9300.67]
   - - [768, 256, 1, 2048]
-    - [1313, 6268.05]
+    - [1340, 6267.95]
   - - [1024, 9984, 1, 256]
-    - [1309, 9477.38]
+    - [1336, 9477.28]
   - - [1024, 13312, 1, 256]
-    - [1309, 9758.66]
+    - [1336, 9758.56]
   - - [1024, 16128, 1, 256]
-    - [1303, 9722.0]
+    - [1330, 9721.9]
   - - [1024, 8960, 1, 256]
-    - [1304, 9398.35]
+    - [1331, 9398.25]
   - - [1024, 5120, 1, 256]
-    - [1310, 9315.6]
+    - [1337, 9315.5]
   - - [1024, 11264, 1, 256]
-    - [1303, 9664.9]
+    - [1330, 9664.8]
   - - [256, 8976, 1, 20480]
-    - [1311, 8279.97]
+    - [1338, 8279.87]
   - - [1024, 20992, 1, 256]
-    - [1303, 9878.97]
+    - [1330, 9878.87]
   - - [256, 8976, 1, 9472]
-    - [1305, 8991.06]
+    - [1332, 8990.96]
   - - [256, 8976, 1, 8448]
-    - [1305, 8983.62]
+    - [1332, 8983.52]
   - - [256, 8976, 1, 20992]
-    - [1306, 8942.21]
+    - [1333, 8942.11]
   - - [256, 8976, 1, 10496]
-    - [1306, 8989.81]
+    - [1333, 8989.71]
   - - [1024, 15104, 1, 256]
-    - [1304, 9676.11]
+    - [1331, 9676.01]
   - - [1024, 6400, 1, 256]
-    - [1312, 9145.99]
+    - [1339, 9145.89]
   - - [1024, 4096, 1, 256]
-    - [1305, 9124.35]
+    - [1332, 9124.25]
   - - [256, 8976, 1, 2560]
-    - [1299, 8566.21]
+    - [1326, 8566.11]
   - - [256, 8976, 1, 2816]
-    - [1301, 9496.94]
+    - [1328, 9496.84]
   - - [1024, 7680, 1, 256]
-    - [1309, 9460.94]
+    - [1336, 9460.84]
   - - [256, 8976, 1, 14336]
-    - [1306, 8226.9]
+    - [1333, 8226.8]
   - - [256, 8976, 1, 6656]
-    - [1306, 8771.52]
+    - [1333, 8771.42]
   - - [1024, 3072, 1, 256]
-    - [1306, 9077.04]
+    - [1333, 9076.94]
   - - [256, 8976, 1, 5888]
-    - [1302, 9546.4]
+    - [1329, 9546.3]
   - - [1024, 12288, 1, 256]
-    - [1303, 9690.91]
+    - [1330, 9690.81]
   - - [256, 8976, 1, 26112]
-    - [1308, 8699.93]
+    - [1335, 8699.83]
   - - [1024, 7424, 1, 256]
-    - [1310, 9256.94]
+    - [1337, 9256.84]
   - - [256, 8976, 1, 14848]
-    - [1311, 8885.89]
+    - [1338, 8885.79]
   - - [768, 215, 1, 2048]
-    - [1313, 5628.69]
+    - [1340, 5628.59]
   - - [1024, 2560, 1, 256]
-    - [1306, 8820.93]
+    - [1333, 8820.83]
   - - [256, 8976, 1, 19968]
-    - [1305, 8928.96]
+    - [1332, 8928.86]
   - - [256, 8976, 1, 9984]
-    - [1305, 8993.22]
+    - [1332, 8993.12]
   - - [1024, 4864, 1, 256]
-    - [1306, 8974.4]
+    - [1333, 8974.3]
   - - [1024, 33536, 1, 256]
-    - [1309, 9943.17]
+    - [1336, 9943.07]
   - - [256, 8976, 1, 15104]
-    - [1306, 8996.73]
+    - [1333, 8996.63]
   - - [1024, 2048, 1, 256]
-    - [1304, 8462.76]
+    - [1331, 8462.66]
   - - [256, 8976, 1, 8960]
-    - [1306, 8999.02]
+    - [1333, 8998.92]
   - - [1024, 6144, 1, 256]
-    - [1311, 9359.77]
+    - [1338, 9359.67]
   - - [1024, 14592, 1, 256]
-    - [1309, 9667.52]
+    - [1336, 9667.42]
   - - [256, 8976, 1, 19712]
-    - [1305, 9020.21]
+    - [1332, 9020.11]
   - - [1024, 11520, 1, 256]
-    - [1304, 9527.8]
+    - [1331, 9527.7]
   - - [1024, 5632, 1, 256]
-    - [1303, 9297.3]
+    - [1330, 9297.2]
   - - [256, 8976, 1, 11008]
-    - [1312, 8994.9]
+    - [1339, 8994.8]
   - - [256, 8976, 1, 17152]
-    - [1306, 9003.9]
+    - [1333, 9003.8]
   - - [256, 8976, 1, 3072]
-    - [1295, 8262.06]
+    - [1322, 8261.96]
   - - [1024, 3840, 1, 256]
-    - [1312, 8671.99]
+    - [1339, 8671.89]
   - - [1024, 14336, 1, 256]
-    - [1309, 9760.38]
+    - [1336, 9760.28]
   - - [1024, 20480, 1, 256]
-    - [1303, 9887.95]
+    - [1330, 9887.85]
   - - [1024, 23552, 1, 256]
-    - [1303, 9890.56]
+    - [1330, 9890.46]
   - - [256, 8976, 1, 7168]
-    - [1298, 8478.44]
+    - [1325, 8478.34]
   - - [1024, 13568, 1, 256]
-    - [1303, 9654.74]
+    - [1330, 9654.64]
   - - [1024, 4608, 1, 256]
-    - [1311, 9218.35]
+    - [1338, 9218.25]
   - - [256, 8976, 1, 10240]
-    - [1296, 8076.26]
+    - [1323, 8076.16]
   - - [1024, 8704, 1, 256]
-    - [1305, 9475.6]
+    - [1332, 9475.5]
   - - [1024, 11008, 1, 256]
-    - [1309, 9525.06]
+    - [1336, 9524.96]
   - - [1024, 8448, 1, 256]
-    - [1303, 9352.26]
+    - [1330, 9352.16]
   - - [256, 8976, 1, 44505]
-    - [1307, 8430.33]
+    - [1334, 8430.23]
   - - [6272, 256, 1, 528]
-    - [1359, 7390.04]
+    - [1386, 7389.94]
   - - [3136, 2048, 1, 1024]
-    - [1340, 9658.04]
+    - [1367, 9657.94]
   - - [6272, 112, 1, 512]
-    - [1338, 5931.19]
+    - [1365, 5931.09]
   - - [2048, 320, 1, 1280]
-    - [1358, 7773.09]
+    - [1385, 7772.99]
   - - [289, 256, 1, 1568]
-    - [1379, 3718.27]
-  - - [3136, 64, 64, 64]
-    - [1318, 8201.25]
+    - [1406, 3718.17]
   - - [50176, 128, 1, 256]
-    - [1341, 8908.68]
+    - [1368, 8908.58]
   - - [5329, 64, 1, 448]
-    - [1324, 4602.3]
+    - [1351, 4602.2]
   - - [289, 192, 1, 1344]
-    - [1376, 3452.69]
+    - [1403, 3452.59]
   - - [12544, 1024, 1, 256]
-    - [1341, 9742.74]
+    - [1368, 9742.64]
   - - [784, 64, 32, 192]
-    - [1317, 6844.71]
+    - [1344, 6844.61]
   - - [6272, 64, 1, 480]
-    - [1325, 5562.34]
+    - [1352, 5562.24]
   - - [196, 128, 1, 800]
-    - [1367, 1639.84]
+    - [1394, 1639.74]
   - - [64, 512, 1, 1344]
-    - [1366, 2313.14]
+    - [1393, 2313.04]
   - - [6272, 64, 1, 512]
-    - [1324, 5609.29]
+    - [1351, 5609.19]
   - - [6272, 160, 1, 528]
-    - [1325, 6149.8]
+    - [1352, 6149.7]
   - - [289, 160, 32, 768]
-    - [1352, 6637.92]
+    - [1379, 6637.82]
   - - [12544, 256, 1, 1024]
-    - [1359, 8790.56]
+    - [1386, 8790.46]
   - - [289, 224, 1, 1568]
-    - [1379, 3270.27]
+    - [1406, 3270.17]
   - - [5329, 64, 32, 160]
-    - [1332, 9091.14]
+    - [1359, 9091.04]
   - - [5329, 96, 1, 576]
-    - [1359, 5555.76]
+    - [1386, 5555.66]
   - - [3025, 64, 1, 363]
-    - [1377, 4392.4]
+    - [1404, 4392.3]
   - - [784, 32, 32, 192]
-    - [1348, 5633.9]
+    - [1375, 5633.8]
   - - [3136, 512, 1, 1024]
-    - [1344, 7553.24]
+    - [1371, 7553.14]
   - - [6272, 16, 1, 480]
-    - [1379, 3219.95]
+    - [1406, 3219.85]
   - - [1225, 64, 32, 288]
-    - [1339, 8240.68]
+    - [1366, 8240.58]
   - - [64, 256, 1, 1536]
-    - [1372, 1456.46]
+    - [1399, 1456.36]
   - - [289, 192, 32, 768]
-    - [1351, 7372.9]
+    - [1378, 7372.8]
   - - [2048, 448, 1, 1280]
-    - [1334, 8403.11]
+    - [1361, 8403.01]
   - - [3136, 2048, 1, 512]
-    - [1333, 9486.41]
+    - [1360, 9486.31]
   - - [289, 256, 1, 2016]
-    - [1379, 3876.18]
+    - [1406, 3876.08]
   - - [289, 384, 32, 1024]
-    - [1318, 7350.64]
+    - [1345, 7350.54]
   - - [1568, 32, 1, 832]
-    - [1368, 2717.97]
+    - [1395, 2717.87]
   - - [3136, 64, 32, 64]
-    - [1321, 7657.36]
+    - [1348, 7657.26]
   - - [289, 160, 1, 1120]
-    - [1375, 2827.0]
+    - [1402, 2826.9]
   - - [6272, 128, 1, 528]
-    - [1329, 6926.36]
+    - [1356, 6926.26]
   - - [21609, 32, 1, 288]
-    - [1330, 3699.0]
+    - [1357, 3698.9]
   - - [1225, 192, 1, 1728]
-    - [1363, 7309.91]
+    - [1390, 7309.81]
   - - [4096, 512, 1, 4096]
-    - [1346, 10272.2]
+    - [1373, 10272.1]
   - - [64, 256, 1, 1152]
-    - [1372, 1387.92]
+    - [1399, 1387.82]
   - - [6272, 96, 1, 480]
-    - [1360, 6371.66]
+    - [1387, 6371.56]
   - - [784, 96, 1, 800]
-    - [1380, 3330.37]
+    - [1407, 3330.27]
   - - [2048, 448, 1, 2048]
-    - [1334, 8622.75]
+    - [1361, 8622.65]
   - - [784, 96, 32, 192]
-    - [1349, 7092.46]
-  - - [3136, 64, 64, 256]
-    - [1342, 9579.26]
+    - [1376, 7092.36]
   - - [289, 224, 1, 1344]
-    - [1379, 3180.11]
+    - [1406, 3180.01]
   - - [1001, 512, 1, 4096]
-    - [1320, 8195.17]
+    - [1347, 8195.07]
   - - [2048, 192, 1, 1280]
-    - [1325, 6120.19]
+    - [1352, 6120.09]
   - - [1225, 64, 32, 256]
-    - [1330, 8076.72]
+    - [1357, 8076.62]
   - - [2048, 256, 1, 1536]
-    - [1320, 8137.8]
+    - [1347, 8137.7]
   - - [1225, 64, 1, 1200]
-    - [1379, 3552.97]
+    - [1406, 3552.87]
   - - [6272, 128, 1, 512]
-    - [1333, 6878.31]
+    - [1360, 6878.21]
   - - [729, 192, 1, 1600]
-    - [1378, 5016.87]
+    - [1405, 5016.77]
   - - [289, 192, 1, 896]
-    - [1376, 3091.97]
+    - [1403, 3091.87]
   - - [1568, 384, 1, 832]
-    - [1359, 6934.72]
+    - [1386, 6934.62]
   - - [784, 16, 32, 192]
-    - [1350, 3380.38]
+    - [1377, 3380.28]
   - - [1568, 256, 1, 832]
-    - [1324, 5980.96]
+    - [1351, 5980.86]
   - - [1568, 48, 1, 832]
-    - [1381, 3275.19]
+    - [1408, 3275.09]
   - - [1568, 192, 1, 832]
-    - [1319, 4441.21]
+    - [1346, 4441.11]
   - - [289, 192, 32, 1024]
-    - [1322, 6563.16]
+    - [1349, 6563.06]
   - - [6272, 32, 1, 528]
-    - [1363, 4998.77]
+    - [1390, 4998.67]
   - - [49, 128, 1, 1200]
-    - [1364, 550.275]
+    - [1391, 550.175]
   - - [1225, 64, 32, 384]
-    - [1336, 8589.43]
+    - [1363, 8589.33]
   - - [289, 128, 1, 896]
-    - [1375, 2103.2]
+    - [1402, 2103.1]
   - - [1568, 160, 1, 832]
-    - [1363, 6995.15]
+    - [1390, 6995.05]
   - - [1001, 32, 1, 1024]
-    - [1372, 1744.82]
+    - [1399, 1744.72]
   - - [2048, 320, 1, 2048]
-    - [1357, 7118.14]
+    - [1384, 7118.04]
   - - [2048, 384, 1, 1536]
-    - [1320, 8184.11]
+    - [1347, 8184.01]
   - - [50176, 512, 1, 256]
-    - [1332, 9852.5]
+    - [1359, 9852.4]
   - - [289, 256, 1, 1792]
-    - [1381, 3809.85]
+    - [1408, 3809.75]
   - - [64, 448, 1, 1152]
-    - [1373, 2128.33]
+    - [1400, 2128.23]
   - - [5041, 96, 1, 576]
-    - [1358, 5279.4]
+    - [1385, 5279.3]
   - - [6272, 192, 1, 480]
-    - [1320, 7479.75]
+    - [1347, 7479.65]
   - - [784, 32, 32, 256]
-    - [1347, 5709.01]
+    - [1374, 5708.91]
   - - [1001, 32, 1, 2048]
-    - [1374, 2141.14]
+    - [1401, 2141.04]
   - - [289, 192, 1, 1120]
-    - [1370, 3277.87]
+    - [1397, 3277.77]
   - - [6272, 32, 1, 512]
-    - [1362, 4978.8]
+    - [1389, 4978.7]
   - - [289, 384, 1, 3456]
-    - [1379, 5904.24]
+    - [1406, 5904.14]
   - - [289, 384, 1, 2592]
-    - [1380, 5707.44]
-  - - [784, 128, 64, 512]
-    - [1326, 8864.49]
+    - [1407, 5707.34]
   - - [12544, 1024, 1, 512]
-    - [1341, 10008.4]
+    - [1368, 10008.3]
   - - [12544, 256, 1, 512]
-    - [1359, 8628.18]
+    - [1386, 8628.08]
   - - [6272, 24, 1, 512]
-    - [1363, 3568.17]
+    - [1390, 3568.07]
   - - [5041, 192, 1, 720]
-    - [1334, 8424.52]
+    - [1361, 8424.42]
   - - [64, 320, 1, 1728]
-    - [1367, 1469.76]
+    - [1394, 1469.66]
   - - [784, 128, 32, 256]
-    - [1335, 8104.24]
+    - [1362, 8104.14]
   - - [289, 96, 1, 864]
-    - [1373, 1838.35]
+    - [1400, 1838.25]
   - - [1225, 32, 32, 192]
-    - [1354, 5949.82]
+    - [1381, 5949.72]
   - - [1568, 128, 1, 832]
-    - [1362, 5718.79]
+    - [1389, 5718.69]
   - - [289, 128, 32, 768]
-    - [1320, 7289.35]
-  - - [3136, 256, 64, 64]
-    - [1328, 9104.02]
+    - [1347, 7289.25]
   - - [196, 64, 1, 800]
-    - [1366, 915.72]
+    - [1393, 915.62]
   - - [4096, 512, 1, 9216]
-    - [1343, 10351.5]
+    - [1370, 10351.4]
   - - [12544, 64, 1, 147]
-    - [1333, 5069.43]
+    - [1360, 5069.33]
   - - [784, 32, 1, 400]
-    - [1364, 1140.46]
+    - [1391, 1140.36]
   - - [6272, 160, 1, 512]
-    - [1324, 6140.18]
+    - [1351, 6140.08]
   - - [1225, 48, 32, 288]
-    - [1330, 5978.71]
+    - [1357, 5978.61]
   - - [64, 320, 1, 2880]
-    - [1371, 1920.1]
+    - [1398, 1920.0]
   - - [1225, 64, 32, 192]
-    - [1324, 7641.11]
+    - [1351, 7641.01]
   - - [1001, 32, 1, 1536]
-    - [1372, 2084.89]
+    - [1399, 2084.79]
   - - [784, 64, 32, 256]
-    - [1316, 6990.61]
+    - [1343, 6990.51]
   - - [64, 384, 1, 1152]
-    - [1373, 1862.7]
-  - - [784, 512, 64, 128]
-    - [1327, 9026.05]
+    - [1400, 1862.6]
   - - [3136, 512, 1, 2048]
-    - [1345, 7764.4]
+    - [1372, 7764.3]
   - - [6272, 144, 1, 512]
-    - [1320, 5574.14]
+    - [1347, 5574.04]
   - - [1225, 192, 32, 384]
-    - [1334, 9373.93]
+    - [1361, 9373.83]
   - - [64, 192, 1, 1728]
-    - [1372, 1206.56]
+    - [1399, 1206.46]
   - - [8192, 320, 1, 1280]
-    - [1386, 9876.02]
+    - [1413, 9875.92]
   - - [8192, 320, 1, 2048]
-    - [1389, 9745.8]
+    - [1416, 9745.7]
   - - [8192, 384, 1, 1280]
-    - [1386, 10046.3]
+    - [1413, 10046.2]
   - - [8192, 192, 1, 1280]
-    - [1389, 9951.0]
+    - [1416, 9950.9]
   - - [8192, 192, 1, 2048]
-    - [1385, 9559.77]
+    - [1412, 9559.67]
   - - [8192, 384, 1, 2048]
-    - [1387, 9945.84]
+    - [1414, 9945.74]
   - - [8192, 448, 1, 2048]
-    - [1388, 9908.61]
+    - [1415, 9908.51]
   - - [1001, 64, 1, 1536]
-    - [1382, 3650.04]
+    - [1409, 3649.94]
   - - [8192, 448, 1, 1280]
-    - [1386, 9981.45]
+    - [1413, 9981.35]
   - - [1001, 64, 1, 2048]
-    - [1383, 3580.97]
+    - [1410, 3580.87]
   - - [1001, 128, 1, 2048]
-    - [1384, 5587.97]
+    - [1411, 5587.87]
+  - - [3200, 1024, 1, 2048]
+    - [1419, 9131.95]
+  - - [2048, 1024, 1, 256]
+    - [1418, 8452.0]
+  - - [257, 1024, 1, 4096]
+    - [1417, 4225.21]
+  - - [3136, 64, 64, 64]
+    - [1420, 8028.16]
+  - - [1225, 32, 64, 192]
+    - [1426, 6968.89]
+  - - [3136, 64, 64, 256]
+    - [1421, 9678.4]
+  - - [3136, 256, 64, 64]
+    - [1422, 8998.29]
+  - - [1225, 64, 64, 288]
+    - [1425, 8893.83]
+  - - [289, 128, 64, 768]
+    - [1423, 8442.75]
+  - - [5329, 80, 64, 64]
+    - [1427, 6687.37]
+  - - [1225, 64, 64, 192]
+    - [1424, 8339.5]
+  - - [1225, 64, 64, 256]
+    - [1428, 8721.52]
 - null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_AlikC_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_AlikC_BjlkC_CB.yaml
new file mode 100644
index 000000000..83d4fbff9
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_AlikC_BjlkC_CB.yaml
@@ -0,0 +1,493 @@
+- MinimumRequiredVersion: 4.10.0
+- vega20
+- gfx906
+- - Device 66a0
+  - Device 66a1
+  - Device 66a7
+  - Vega 20
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA:
+  - 3
+  - 0
+  - 2
+  IndexAssignmentsB:
+  - 1
+  - 3
+  - 2
+  IndexAssignmentsLD:
+  - 4
+  - 5
+  - 6
+  - 7
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch:
+  - 2
+  IndicesFree:
+  - 0
+  - 1
+  IndicesSummation:
+  - 3
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 64
+    LSPA: 64
+    LSPB: 8
+    LVCA: 4
+    LVCB: 32
+    LVPA: 32
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_BjlkC_CB_MT64x64x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 4
+    LSCB: 64
+    LSPA: 64
+    LSPB: 4
+    LVCA: 4
+    LVCB: 64
+    LVPA: 64
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_BjlkC_CB_MT64x64x4_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+- - 2
+  - 3
+  - 0
+  - 1
+- - - - 64
+      - 64
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 64
+    - - 0
+      - 112.027
+  - - - 1
+      - 1
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 1
+    - - 1
+      - 0.0259372
+  - - - 1
+      - 64
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 64
+    - - 1
+      - 1.43972
+  - - - 64
+      - 1
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 1
+    - - 1
+      - 1.58454
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_AlikC_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_AlikC_Bjlk_CB.yaml
new file mode 100644
index 000000000..6bb52bd77
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_AlikC_Bjlk_CB.yaml
@@ -0,0 +1,493 @@
+- MinimumRequiredVersion: 4.10.0
+- vega20
+- gfx906
+- - Device 66a0
+  - Device 66a1
+  - Device 66a7
+  - Vega 20
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA:
+  - 3
+  - 0
+  - 2
+  IndexAssignmentsB:
+  - 1
+  - 3
+  - 2
+  IndexAssignmentsLD:
+  - 4
+  - 5
+  - 6
+  - 7
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch:
+  - 2
+  IndicesFree:
+  - 0
+  - 1
+  IndicesSummation:
+  - 3
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 64
+    LSPA: 64
+    LSPB: 8
+    LVCA: 4
+    LVCB: 32
+    LVPA: 32
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bjlk_CB_MT64x64x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 4
+    LSCB: 64
+    LSPA: 64
+    LSPB: 4
+    LVCA: 4
+    LVCB: 64
+    LVPA: 64
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bjlk_CB_MT64x64x4_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+- - 2
+  - 3
+  - 0
+  - 1
+- - - - 64
+      - 64
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 64
+    - - 0
+      - 96.377
+  - - - 1
+      - 1
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 1
+    - - 1
+      - 0.0265838
+  - - - 1
+      - 64
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 64
+    - - 1
+      - 1.46155
+  - - - 64
+      - 1
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 1
+    - - 1
+      - 1.65162
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_AlikC_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_AlikC_Bljk_CB.yaml
new file mode 100644
index 000000000..3f5c22fbf
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_AlikC_Bljk_CB.yaml
@@ -0,0 +1,493 @@
+- MinimumRequiredVersion: 4.10.0
+- vega20
+- gfx906
+- - Device 66a0
+  - Device 66a1
+  - Device 66a7
+  - Vega 20
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA:
+  - 3
+  - 0
+  - 2
+  IndexAssignmentsB:
+  - 3
+  - 1
+  - 2
+  IndexAssignmentsLD:
+  - 4
+  - 5
+  - 6
+  - 7
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch:
+  - 2
+  IndicesFree:
+  - 0
+  - 1
+  IndicesSummation:
+  - 3
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 3
+      - 1
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bljk_CB_MT64x64x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 4
+    LSCB: 4
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 64
+    LVPB: 64
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 3
+      - 1
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bljk_CB_MT64x64x4_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+- - 2
+  - 3
+  - 0
+  - 1
+- - - - 64
+      - 64
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 256
+    - - 0
+      - 116.899
+  - - - 1
+      - 1
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 256
+    - - 1
+      - 0.0198912
+  - - - 1
+      - 64
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 256
+    - - 1
+      - 1.77124
+  - - - 64
+      - 1
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 256
+    - - 1
+      - 1.75043
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Alik_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Alik_BjlkC_CB.yaml
new file mode 100644
index 000000000..28e094a57
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Alik_BjlkC_CB.yaml
@@ -0,0 +1,493 @@
+- MinimumRequiredVersion: 4.10.0
+- vega20
+- gfx906
+- - Device 66a0
+  - Device 66a1
+  - Device 66a7
+  - Vega 20
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA:
+  - 3
+  - 0
+  - 2
+  IndexAssignmentsB:
+  - 1
+  - 3
+  - 2
+  IndexAssignmentsLD:
+  - 4
+  - 5
+  - 6
+  - 7
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch:
+  - 2
+  IndicesFree:
+  - 0
+  - 1
+  IndicesSummation:
+  - 3
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 64
+    LSPA: 64
+    LSPB: 8
+    LVCA: 4
+    LVCB: 32
+    LVPA: 32
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_BjlkC_CB_MT64x64x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 4
+    LSCB: 64
+    LSPA: 64
+    LSPB: 4
+    LVCA: 4
+    LVCB: 64
+    LVPA: 64
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_BjlkC_CB_MT64x64x4_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+- - 2
+  - 3
+  - 0
+  - 1
+- - - - 64
+      - 64
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 64
+    - - 0
+      - 118.216
+  - - - 1
+      - 1
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 1
+    - - 1
+      - 0.0266945
+  - - - 1
+      - 64
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 64
+    - - 1
+      - 1.72827
+  - - - 64
+      - 1
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 1
+    - - 1
+      - 1.78866
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Alik_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Alik_Bjlk_CB.yaml
new file mode 100644
index 000000000..ee31e15d6
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Alik_Bjlk_CB.yaml
@@ -0,0 +1,493 @@
+- MinimumRequiredVersion: 4.10.0
+- vega20
+- gfx906
+- - Device 66a0
+  - Device 66a1
+  - Device 66a7
+  - Vega 20
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA:
+  - 3
+  - 0
+  - 2
+  IndexAssignmentsB:
+  - 1
+  - 3
+  - 2
+  IndexAssignmentsLD:
+  - 4
+  - 5
+  - 6
+  - 7
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch:
+  - 2
+  IndicesFree:
+  - 0
+  - 1
+  IndicesSummation:
+  - 3
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 64
+    LSPA: 64
+    LSPB: 8
+    LVCA: 4
+    LVCB: 32
+    LVPA: 32
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bjlk_CB_MT64x64x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 4
+    LSCB: 64
+    LSPA: 64
+    LSPB: 4
+    LVCA: 4
+    LVCB: 64
+    LVPA: 64
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bjlk_CB_MT64x64x4_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+- - 2
+  - 3
+  - 0
+  - 1
+- - - - 64
+      - 64
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 64
+    - - 0
+      - 117.291
+  - - - 1
+      - 1
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 1
+    - - 1
+      - 0.026556
+  - - - 1
+      - 64
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 64
+    - - 1
+      - 1.87246
+  - - - 64
+      - 1
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 1
+    - - 1
+      - 1.75983
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Alik_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Alik_Bljk_CB.yaml
new file mode 100644
index 000000000..05d1b7964
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Alik_Bljk_CB.yaml
@@ -0,0 +1,493 @@
+- MinimumRequiredVersion: 4.10.0
+- vega20
+- gfx906
+- - Device 66a0
+  - Device 66a1
+  - Device 66a7
+  - Vega 20
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA:
+  - 3
+  - 0
+  - 2
+  IndexAssignmentsB:
+  - 3
+  - 1
+  - 2
+  IndexAssignmentsLD:
+  - 4
+  - 5
+  - 6
+  - 7
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch:
+  - 2
+  IndicesFree:
+  - 0
+  - 1
+  IndicesSummation:
+  - 3
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 3
+      - 1
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bljk_CB_MT64x64x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 4
+    LSCB: 4
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 64
+    LVPB: 64
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 3
+      - 1
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bljk_CB_MT64x64x4_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+- - 2
+  - 3
+  - 0
+  - 1
+- - - - 64
+      - 64
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 256
+    - - 0
+      - 90.3171
+  - - - 1
+      - 1
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 256
+    - - 1
+      - 0.0262566
+  - - - 1
+      - 64
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 256
+    - - 1
+      - 1.75606
+  - - - 64
+      - 1
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 256
+    - - 1
+      - 1.63841
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Alik_Bljk_SB.yaml b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Alik_Bljk_SB.yaml
index a78fe0364..8d6f86810 100644
--- a/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Alik_Bljk_SB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_ci/vega20_Cijk_Alik_Bljk_SB.yaml
@@ -83909,23 +83909,23 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -83933,71 +83933,89 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 32
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 16
     LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 2304
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 2048
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
-    NumLoadsB: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -84007,6 +84025,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -84016,53 +84035,66 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 519
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x32_GRVW02_GSU32_SNLL0_TT04_02_VW02_WG16_04_04
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: [4, 2]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id002 
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -84071,7 +84103,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -84079,67 +84111,80 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 32
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 8
-    LVCA: 8
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -84147,6 +84192,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -84156,6 +84202,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -84165,95 +84212,114 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 520
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x32_GRVW04_GSU32_SNLL0_TT04_04_VW04_WG16_02_08
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 2
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 2
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001 
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 2, 8]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 64
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 32
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 5120
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 4096
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -84262,36 +84328,46 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -84301,6 +84377,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -84310,99 +84387,116 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 521
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x64_GRVW04_GSU32_SNLL0_TT04_04_VW04_WG16_04_04
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id002
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 64
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 32
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 13312
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1024
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -84411,29 +84505,38 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -84441,6 +84544,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -84450,6 +84554,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -84459,47 +84564,62 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 522
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x64_GRVW04_GSU32_SNLL0_TT04_04_VW04_WG16_04_04
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id002
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -84512,42 +84632,44 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 12
-    LSPB: 12
-    LVCA: 16
-    LVCB: 16
-    LVPA: 12
-    LVPB: 12
-    LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 768
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -84559,30 +84681,39 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 36
-    MacroTile1: 48
-    MacroTileA: 36
-    MacroTileB: 48
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 9
-    NumGlobalWriteVectorsPerThread: 9
-    NumLoadsA: 3
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 4
-    NumThreads: 192
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -84590,6 +84721,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -84599,6 +84731,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -84608,39 +84741,9996 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 523
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT036x048x16_GRVW01_GSU02_SNLL0_TT03_03_VW01_WG12_16_01
-    SubGroup0: 12
-    SubGroup1: 16
-    SubGroupA: 12
-    SubGroupB: 16
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 524
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 525
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 526
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 527
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 528
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 529
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 530
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 531
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR0_TT4_8_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 532
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA4_LPB0_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 533
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3200
+    LdsOffsetA: 0
+    LdsOffsetB: 2112
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 534
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW1_LPA4_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 535
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT8_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3200
+    LdsOffsetA: 0
+    LdsOffsetB: 2112
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 536
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 537
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_LPA4_LPB0_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 538
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 539
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT8_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 540
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA4_LPB4_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 541
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2176
+    LdsOffsetA: 0
+    LdsOffsetB: 1088
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 542
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS0_FL0_GRVW2_LPA2_LPB2_PGR0_PLR0_TT2_4_USFGRO1_VW2_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2176
+    LdsOffsetA: 0
+    LdsOffsetB: 1088
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 543
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS0_FL0_GRVW4_LPA2_LPB2_PGR0_PLR1_TT2_4_USFGRO1_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 544
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 545
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 546
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 547
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG8_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 548
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 549
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2304
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 550
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x32_GRVW02_GSU32_SNLL0_TT04_02_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id002 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 551
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x32_GRVW04_GSU32_SNLL0_TT04_04_VW04_WG16_02_08
+    SubGroup0: 16
+    SubGroup1: 2
+    SubGroupA: 16
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 2, 8]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 64
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 5120
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 552
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x64_GRVW04_GSU32_SNLL0_TT04_04_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id002
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 64
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 13312
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 553
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x64_GRVW04_GSU32_SNLL0_TT04_04_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id002
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 12
+    LSPB: 12
+    LVCA: 16
+    LVCB: 16
+    LVPA: 12
+    LVPB: 12
+    LdcEqualsLdd: false
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 36
+    MacroTile1: 48
+    MacroTileA: 36
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 9
+    NumGlobalWriteVectorsPerThread: 9
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 4
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 554
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT036x048x16_GRVW01_GSU02_SNLL0_TT03_03_VW01_WG12_16_01
+    SubGroup0: 12
+    SubGroup1: 16
+    SubGroupA: 12
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id004 
+    ThreadTile0: 3
+    ThreadTile1: 3
+    ThreadTileA: 3
+    ThreadTileB: 3
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [12, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 12
+    LSPB: 12
+    LVCA: 16
+    LVCB: 16
+    LVPA: 12
+    LVPB: 12
+    LdcEqualsLdd: false
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 48
+    MacroTile1: 36
+    MacroTileA: 48
+    MacroTileB: 36
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 9
+    NumGlobalWriteVectorsPerThread: 9
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 555
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT048x036x16_GRVW01_GSU08_SNLL0_TT06_03_VW01_WG08_12_02
+    SubGroup0: 8
+    SubGroup1: 12
+    SubGroupA: 8
+    SubGroupB: 12
+    SuppresssNoLoadLoop: false
+    ThreadTile: [6, 3]
+    ThreadTile0: 6
+    ThreadTile1: 3
+    ThreadTileA: 6
+    ThreadTileB: 3
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: *id003 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 24
+    LSPB: 24
+    LVCA: 8
+    LVCB: 8
+    LVPA: 12
+    LVPB: 12
+    LdcEqualsLdd: false
+    LdsNumElements: 4608
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 48
+    MacroTile1: 48
+    MacroTileA: 48
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 12
+    NumGlobalWriteVectorsPerThread: 6
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 556
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT048x048x16_GRVW02_GSU08_SNLL0_TT06_04_VW02_WG08_12_02
+    SubGroup0: 8
+    SubGroup1: 12
+    SubGroupA: 8
+    SubGroupB: 12
+    SuppresssNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id003
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 48
+    MacroTile1: 48
+    MacroTileA: 48
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 9
+    NumGlobalWriteVectorsPerThread: 9
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 557
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT048x048x16_GRVW01_GSU08_SNLL0_TT03_03_VW01_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id004
+    ThreadTile0: 3
+    ThreadTile1: 3
+    ThreadTileA: 3
+    ThreadTileB: 3
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 16
+    LSPB: 8
+    LVCA: 4
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 832
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 558
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005 
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id009 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 16
+    LSPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 559
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id006 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 16
+    LSPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 560
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010 
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id006
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 561
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id007 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id006
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 16
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 562
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 16
+    LSPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 563
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id006
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 564
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id007
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id006
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 16
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 565
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 566
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 567
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id009
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 568
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id006
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 569
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id006
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 570
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id007
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id006
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 571
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 572
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 573
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id007
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id008
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 574
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 575
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id009
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 576
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 577
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id007
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id008
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 578
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id013 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 579
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015 
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id014 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 580
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU08_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 581
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id016 
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 582
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 583
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018 
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 584
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 585
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id004 
-    ThreadTile0: 3
-    ThreadTile1: 3
-    ThreadTileA: 3
-    ThreadTileB: 3
+    ThreadTile: *id016
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [12, 16, 1]
+    VectorWidth: 2
+    WorkGroup: *id013
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -84662,7 +94752,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -84670,31 +94760,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 12
-    LSPB: 12
-    LVCA: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 12
-    LVPB: 12
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -84708,10 +94798,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 48
-    MacroTile1: 36
-    MacroTileA: 48
-    MacroTileB: 36
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -84719,15 +94809,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 9
-    NumGlobalWriteVectorsPerThread: 9
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 3
-    NumThreads: 192
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -84771,25 +94861,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 524
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT048x036x16_GRVW01_GSU08_SNLL0_TT06_03_VW01_WG08_12_02
-    SubGroup0: 8
-    SubGroup1: 12
-    SubGroupA: 8
-    SubGroupB: 12
+    SolutionIndex: 586
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: [6, 3]
-    ThreadTile0: 6
-    ThreadTile1: 3
-    ThreadTileA: 6
-    ThreadTileB: 3
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id003 
+    VectorWidth: 2
+    WorkGroup: *id017 
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -84812,7 +94902,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -84820,30 +94910,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 24
-    LSPB: 24
+    LSPA: 32
+    LSPB: 16
     LVCA: 8
-    LVCB: 8
-    LVPA: 12
-    LVPB: 12
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4608
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -84857,10 +94947,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 48
-    MacroTile1: 48
-    MacroTileA: 48
-    MacroTileB: 48
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -84868,15 +94958,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 12
-    NumGlobalWriteVectorsPerThread: 6
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 192
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -84920,25 +95010,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 525
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT048x048x16_GRVW02_GSU08_SNLL0_TT06_04_VW02_WG08_12_02
-    SubGroup0: 8
-    SubGroup1: 12
-    SubGroupA: 8
-    SubGroupB: 12
+    SolutionIndex: 587
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: *id016
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id003
+    WorkGroup: *id017
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -84960,56 +95050,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 48
-    MacroTile1: 48
-    MacroTileA: 48
-    MacroTileB: 48
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85017,14 +95107,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 9
-    NumGlobalWriteVectorsPerThread: 9
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -85069,48 +95159,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 526
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT048x048x16_GRVW01_GSU08_SNLL0_TT03_03_VW01_WG16_16_01
+    SolutionIndex: 588
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG16_08_02
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id004
-    ThreadTile0: 3
-    ThreadTile1: 3
-    ThreadTileA: 3
-    ThreadTileB: 3
+    ThreadTile: *id019 
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: *id017
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -85118,36 +95208,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
-    LVCA: 4
+    LSPB: 16
+    LVCA: 8
     LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 832
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -85156,9 +95246,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 8
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 8
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85174,7 +95264,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -85218,85 +95308,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 527
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 589
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005 
-    ThreadTile0: 2
+    ThreadTile: *id016
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id009 
-    WorkGroupMapping: 1
+    WorkGroup: *id014
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
-    LSPA: 16
-    LSPB: 16
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -85304,10 +95394,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85315,7 +95405,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
@@ -85323,7 +95413,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -85367,85 +95457,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 528
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SolutionIndex: 590
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id006 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
-    LSPA: 16
-    LSPB: 16
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -85453,10 +95543,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85464,7 +95554,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
     NumLoadsB: 1
@@ -85472,7 +95562,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -85516,71 +95606,71 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 529
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SolutionIndex: 591
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010 
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: *id018
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id006
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
-    GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 1024
     LdsNumElementsAlignedA: 256
@@ -85594,18 +95684,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85613,15 +95703,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -85665,46 +95755,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 530
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SolutionIndex: 592
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id007 
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id006
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -85714,43 +95804,43 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 16
-    LVCA: 4
-    LVCB: 8
+    LVCA: 8
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -85762,15 +95852,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -85814,48 +95904,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 531
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 593
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
+    ThreadTile: *id016
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008 
-    WorkGroupMapping: 1
+    WorkGroup: *id013
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -85863,36 +95953,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
-    LSPA: 16
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -85900,9 +95990,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -85911,15 +96001,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -85963,46 +96053,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 532
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 594
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: *id015
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006
+    WorkGroup: *id017
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -86012,36 +96102,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -86049,10 +96139,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -86060,15 +96150,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -86112,47 +96202,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 533
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 595
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id007
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id006
+    WorkGroup: *id017
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -86160,47 +96250,47 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
     LSPB: 16
     LVCA: 4
-    LVCB: 8
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -86210,14 +96300,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -86261,35 +96351,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 534
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SolutionIndex: 596
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG16_04_04
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: *id020 
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -86299,58 +96389,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3200
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -86358,13 +96448,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -86410,35 +96500,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 535
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
+    SolutionIndex: 597
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011 
+    VectorWidth: 4
+    WorkGroup: *id014
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -86448,58 +96538,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -86507,15 +96597,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -86559,35 +96649,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 536
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 598
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU04_SNLL0_TT08_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id018
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id009
+    VectorWidth: 4
+    WorkGroup: *id014
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -86597,10 +96687,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -86608,22 +96698,22 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 1024
     LdsNumElementsAlignedA: 256
@@ -86637,14 +96727,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 16
     MacroTile1: 16
     MacroTileA: 16
@@ -86656,15 +96746,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -86708,35 +96798,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 537
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SolutionIndex: 599
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: *id015
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006
+    WorkGroup: *id013
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -86746,10 +96836,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -86757,24 +96847,24 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
+    LSPA: 32
+    LSPB: 16
     LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
@@ -86786,14 +96876,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -86805,15 +96895,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -86857,35 +96947,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 538
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SolutionIndex: 600
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: *id016
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006
+    WorkGroup: *id013
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -86895,37 +96985,37 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 4
-    LVCB: 4
-    LVPA: 4
-    LVPB: 4
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -86935,18 +97025,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -86954,15 +97044,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -87006,35 +97096,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 539
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 601
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id007
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id006
+    VectorWidth: 2
+    WorkGroup: *id017
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -87044,8 +97134,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -87055,14 +97145,14 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 16
@@ -87084,14 +97174,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -87155,35 +97245,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 540
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 602
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
+    ThreadTile: *id016
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    WorkGroup: *id014
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -87193,58 +97283,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -87253,12 +97343,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -87304,35 +97394,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 541
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 603
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: *id012
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -87342,8 +97432,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -87353,14 +97443,14 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
@@ -87370,7 +97460,7 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
@@ -87382,14 +97472,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -87453,35 +97543,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 542
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 604
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU04_SNLL0_TT08_04_VW04_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id007
-    ThreadTile0: 4
+    ThreadTile: *id018
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    WorkGroup: *id014
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -87491,9 +97581,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -87502,47 +97592,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3200
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -87550,15 +97640,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -87602,35 +97692,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 543
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
+    SolutionIndex: 605
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: *id015
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: *id013
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -87640,10 +97730,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -87651,26 +97741,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
+    LSPA: 32
+    LSPB: 16
     LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1664
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -87680,18 +97770,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 8
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 8
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -87699,15 +97789,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -87751,35 +97841,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 544
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 606
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
+    ThreadTile: *id016
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id009
+    WorkGroup: *id013
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -87789,10 +97879,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -87800,22 +97890,22 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
     LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
@@ -87829,14 +97919,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -87848,15 +97938,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -87900,35 +97990,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 545
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SolutionIndex: 607
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG16_08_02
     SubGroup0: 16
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: *id015
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: *id017
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -87938,8 +98028,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -87949,47 +98039,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -87997,15 +98087,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -88049,25 +98139,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 546
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_08_01
+    SolutionIndex: 608
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG16_08_02
     SubGroup0: 16
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id007
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id008
+    WorkGroup: *id017
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -88081,7 +98171,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -88097,25 +98187,25 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 1024
     LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
@@ -88134,11 +98224,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88146,7 +98236,156 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 609
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -88198,26 +98437,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 547
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
+    SolutionIndex: 610
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012 
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id013 
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -88230,7 +98469,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -88238,7 +98477,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -88251,26 +98490,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
     LSPB: 16
     LVCA: 8
-    LVCB: 8
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -88283,10 +98522,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -88303,7 +98542,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -88347,26 +98586,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 548
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_02
-    SubGroup0: 8
+    SolutionIndex: 611
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015 
+    ThreadTile: *id015
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014 
-    WorkGroupMapping: 1
+    WorkGroup: *id017
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -88379,7 +98618,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -88387,8 +98626,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -88396,47 +98635,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 32
-    LVPB: 32
+    LSPA: 64
+    LSPB: 64
+    LVCA: 2
+    LVCB: 2
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 12
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88444,15 +98683,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 3
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -88496,25 +98735,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 549
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU08_SNLL0_TT04_04_VW04_WG08_08_04
+    SolutionIndex: 612
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: *id014
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -88528,7 +98767,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -88536,39 +98775,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 2
+    LVCB: 2
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -88581,11 +98820,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 12
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88593,13 +98832,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -88645,26 +98884,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 550
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SolutionIndex: 613
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016 
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: *id014
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -88677,7 +98916,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -88694,7 +98933,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -88702,22 +98941,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 2
+    LVCB: 2
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -88730,11 +98969,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 12
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88742,12 +98981,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 3
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
@@ -88794,18 +99033,18 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 551
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    SolutionIndex: 614
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -88826,7 +99065,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -88843,7 +99082,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -88851,22 +99090,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 2
+    LVCB: 2
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -88879,11 +99118,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 12
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88891,13 +99130,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -88943,18 +99182,18 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 552
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_02
+    SolutionIndex: 615
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018 
+    ThreadTile: *id019
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -88962,7 +99201,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: *id014
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -88975,7 +99214,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -88983,56 +99222,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
     LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89040,15 +99279,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -89092,25 +99331,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 553
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    SolutionIndex: 616
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
+    VectorWidth: 4
+    WorkGroup: *id014
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -89124,7 +99363,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -89132,39 +99371,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -89177,11 +99416,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89189,7 +99428,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -89241,24 +99480,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 554
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SolutionIndex: 617
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
+    ThreadTile: *id012
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: *id013
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -89273,7 +99512,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -89281,45 +99520,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -89327,10 +99566,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89338,13 +99577,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -89390,25 +99629,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 555
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 618
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id018
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id017 
+    VectorWidth: 4
+    WorkGroup: *id013
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -89422,7 +99661,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -89430,39 +99669,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 13312
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -89475,11 +99714,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89487,13 +99726,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -89539,24 +99778,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 556
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG16_08_02
+    SolutionIndex: 619
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG16_08_02
     SubGroup0: 16
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: *id018
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: *id017
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -89571,7 +99810,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -89596,28 +99835,28 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -89625,10 +99864,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89636,13 +99875,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -89688,26 +99927,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 557
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 620
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id019 
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id017
-    WorkGroupMapping: 1
+    WorkGroup: *id013
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -89720,7 +99959,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -89728,45 +99967,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -89774,10 +100013,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89785,7 +100024,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 2
     NumLoadsB: 1
@@ -89793,7 +100032,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -89837,25 +100076,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 558
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SolutionIndex: 621
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: *id018
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id014
+    VectorWidth: 4
+    WorkGroup: *id013
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -89869,7 +100108,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -89894,28 +100133,28 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -89923,10 +100162,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89934,15 +100173,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -89986,25 +100225,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 559
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    SolutionIndex: 622
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: *id013
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -90018,7 +100257,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90043,22 +100282,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -90071,7 +100310,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -90083,15 +100322,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -90135,17 +100374,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 560
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_02
-    SubGroup0: 8
+    SolutionIndex: 623
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 8
+    ThreadTile: *id012
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -90153,7 +100392,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: *id017
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -90167,7 +100406,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90175,7 +100414,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -90184,30 +100423,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 8
     LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -90220,11 +100459,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90234,11 +100473,11 @@
     NonTemporalC: 0
     NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -90284,12 +100523,12 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 561
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 624
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x32_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
     ThreadTile: *id015
     ThreadTile0: 2
@@ -90297,13 +100536,13 @@
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    WorkGroup: *id020
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -90316,7 +100555,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90324,56 +100563,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
     LSPB: 16
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90381,15 +100620,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -90433,26 +100672,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 562
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SolutionIndex: 625
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -90465,7 +100704,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90473,45 +100712,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -90520,9 +100759,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90530,7 +100769,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -90582,26 +100821,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 563
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 626
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id017
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: *id013
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -90614,7 +100853,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90631,7 +100870,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -90639,28 +100878,28 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -90668,10 +100907,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90679,13 +100918,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -90731,25 +100970,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 564
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 627
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id019
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id017
+    WorkGroup: *id013
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -90763,7 +101002,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90772,7 +101011,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -90785,25 +101024,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 16
-    LVCA: 4
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -90816,11 +101055,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90828,13 +101067,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -90880,17 +101119,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 565
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG16_04_04
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 628
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU04_SNLL0_TT08_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
+    ThreadTile: *id018
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -90898,8 +101137,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id020 
-    WorkGroupMapping: 1
+    WorkGroup: *id013
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -90912,7 +101151,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90937,22 +101176,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -90965,10 +101204,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -90979,13 +101218,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -91029,11 +101268,11 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 566
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_02
-    SubGroup0: 8
+    SolutionIndex: 629
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
     ThreadTile: *id012
@@ -91047,17 +101286,17 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
-    WorkGroupMapping: 1
+    WorkGroup: *id017
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -91067,8 +101306,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -91078,26 +101317,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -91107,18 +101346,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91128,13 +101367,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -91178,35 +101417,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 567
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU04_SNLL0_TT08_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 630
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 8
+    ThreadTile: *id022 
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: *id021 
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -91216,58 +101455,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91275,14 +101514,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -91327,35 +101566,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 568
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 631
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id023 
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
+    VectorWidth: 4
+    WorkGroup: *id021
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -91365,10 +101604,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -91376,47 +101615,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91424,14 +101663,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -91476,35 +101715,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 569
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 632
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT096x128x16_GRVW02_GSU01_SNLL0_TT06_08_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [6, 8]
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: *id021
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -91514,58 +101753,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91573,13 +101812,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -91625,35 +101864,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 570
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG16_08_02
+    SolutionIndex: 633
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id024 
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id017
+    VectorWidth: 4
+    WorkGroup: *id021
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -91663,58 +101902,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91722,15 +101961,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -91774,35 +102013,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 571
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 634
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
+    ThreadTile: *id022
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id014
+    VectorWidth: 4
+    WorkGroup: *id021
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -91812,8 +102051,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -91823,47 +102062,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91871,15 +102110,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -91923,35 +102162,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 572
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 635
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: *id023
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: *id021
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -91961,8 +102200,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -91972,47 +102211,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92020,15 +102259,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -92072,96 +102311,96 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 573
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU04_SNLL0_TT08_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 636
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: *id024
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: *id021
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92169,14 +102408,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -92221,96 +102460,96 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 574
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 637
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: *id021
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92318,14 +102557,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -92370,25 +102609,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 575
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 638
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
+    ThreadTile: *id022
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
+    VectorWidth: 4
+    WorkGroup: *id021
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -92402,7 +102641,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -92410,45 +102649,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -92456,10 +102695,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92467,8 +102706,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -92519,26 +102758,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 576
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG16_08_02
+    SolutionIndex: 639
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025 
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id017
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: *id026 
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -92551,7 +102790,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -92568,7 +102807,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -92576,28 +102815,28 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -92606,9 +102845,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92616,13 +102855,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -92668,14 +102907,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 577
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG16_08_02
+    SolutionIndex: 640
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -92686,7 +102925,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id017
+    WorkGroup: *id026
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -92708,56 +102947,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92765,8 +103004,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -92817,25 +103056,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 578
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 641
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id027 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
+    VectorWidth: 4
+    WorkGroup: *id026
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -92857,56 +103096,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92914,14 +103153,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -92966,26 +103205,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 579
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 642
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id028 
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -93007,7 +103246,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -93015,47 +103254,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -93063,14 +103302,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -93115,26 +103354,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 580
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG16_08_02
+    SolutionIndex: 643
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id029 
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id017
-    WorkGroupMapping: 8
+    WorkGroup: *id026
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -93147,7 +103386,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -93164,7 +103403,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -93172,38 +103411,38 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
     LSPB: 64
-    LVCA: 2
-    LVCB: 2
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 12
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -93214,13 +103453,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -93264,25 +103503,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 581
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    SolutionIndex: 644
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id030 
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: *id026
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -93296,7 +103535,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -93304,56 +103543,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 64
-    LVCA: 2
-    LVCB: 2
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1536
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 12
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 96
+    MacroTileA: 128
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -93361,15 +103600,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 3
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
     NumLoadsB: 3
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -93413,26 +103652,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 582
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    SolutionIndex: 645
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id031 
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 6
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id014
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: *id026
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -93445,7 +103684,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -93462,7 +103701,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -93470,39 +103709,39 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
     LSPB: 64
-    LVCA: 2
-    LVCB: 2
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1536
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 12
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -93510,15 +103749,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -93562,14 +103801,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 583
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    SolutionIndex: 646
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -93580,7 +103819,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: *id026
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -93594,7 +103833,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -93611,7 +103850,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -93619,35 +103858,35 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
     LSPB: 64
-    LVCA: 2
-    LVCB: 2
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 12
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -93659,15 +103898,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -93711,25 +103950,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 584
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SolutionIndex: 647
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id027
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: *id026
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -93743,7 +103982,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -93760,7 +103999,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -93768,28 +104007,28 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -93797,10 +104036,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -93808,15 +104047,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -93860,26 +104099,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 585
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    SolutionIndex: 648
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id028
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
-    WorkGroupMapping: 1
+    WorkGroup: *id026
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -93892,7 +104131,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -93900,56 +104139,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -93957,14 +104196,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -94009,26 +104248,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 586
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SolutionIndex: 649
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id029
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id013
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: *id026
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -94041,7 +104280,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -94058,7 +104297,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -94066,16 +104305,16 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
@@ -94087,18 +104326,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94106,8 +104345,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -94158,14 +104397,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 587
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    SolutionIndex: 650
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id030
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -94176,8 +104415,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
-    WorkGroupMapping: 1
+    WorkGroup: *id026
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -94190,7 +104429,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -94198,45 +104437,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 13312
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -94245,9 +104484,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 96
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94255,14 +104494,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
     NumLoadsA: 4
-    NumLoadsB: 1
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -94307,26 +104546,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 588
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG16_08_02
+    SolutionIndex: 651
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id031
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id017
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: *id026
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -94339,7 +104578,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -94356,7 +104595,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -94364,39 +104603,39 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94404,14 +104643,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -94456,25 +104695,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 589
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SolutionIndex: 652
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: *id026
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -94488,7 +104727,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -94505,7 +104744,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -94513,39 +104752,39 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 3072
+    LdsNumElementsAlignedB: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 3072
+    LdsOffsetB_Blk: 11264
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 24
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94553,13 +104792,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -94605,26 +104844,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 590
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    SolutionIndex: 653
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x24_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    WorkGroup: *id026
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -94637,7 +104876,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -94654,7 +104893,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -94662,39 +104901,39 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 3072
+    LdsNumElementsAlignedB: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 3072
+    LdsOffsetB_Blk: 11264
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 24
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94702,14 +104941,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -94754,14 +104993,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 591
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    SolutionIndex: 654
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x24_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -94772,7 +105011,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: *id026
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -94803,7 +105042,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -94820,9 +105059,9 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -94832,18 +105071,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94851,14 +105090,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -94903,14 +105142,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 592
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG16_08_02
+    SolutionIndex: 655
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id027
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -94921,8 +105160,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id017
-    WorkGroupMapping: 8
+    WorkGroup: *id026
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -94943,56 +105182,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95000,14 +105239,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -95052,25 +105291,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 593
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x32_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG16_04_04
+    SolutionIndex: 656
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x32_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id028
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id020
+    VectorWidth: 4
+    WorkGroup: *id026
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -95101,7 +105340,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -95111,37 +105350,37 @@
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 16
-    LSPB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95149,15 +105388,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 4
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -95201,14 +105440,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 594
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    SolutionIndex: 657
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x32_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -95219,7 +105458,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: *id026
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -95250,7 +105489,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -95267,30 +105506,30 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95298,14 +105537,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -95350,14 +105589,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 595
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    SolutionIndex: 658
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id027
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -95368,8 +105607,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
-    WorkGroupMapping: 1
+    WorkGroup: *id026
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -95399,7 +105638,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -95416,30 +105655,30 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95447,14 +105686,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -95499,25 +105738,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 596
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    SolutionIndex: 659
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x32_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id028
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: *id026
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -95548,7 +105787,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -95565,30 +105804,30 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95596,14 +105835,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -95648,96 +105887,96 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 597
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU04_SNLL0_TT08_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    SolutionIndex: 660
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x32_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: *id026
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 4
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
-    InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 4
+    LSCB: 4
+    LSPA: 16
+    LSPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95745,15 +105984,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -95797,26 +106036,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 598
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 661
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x04_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id017
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: *id032 
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -95829,7 +106068,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 2
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -95837,8 +106076,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -95850,26 +106089,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 2
+    LSCB: 2
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -95882,11 +106121,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95902,7 +106141,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -95946,14 +106185,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 599
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 662
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x02_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022 
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -95964,17 +106203,17 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021 
+    WorkGroup: *id032
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -95984,58 +106223,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96043,14 +106282,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -96095,48 +106334,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 600
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id023 
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SolutionIndex: 663
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU01_SNLL1_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id033 
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
+    VectorWidth: 2
+    WorkGroup: *id035 
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -96144,47 +106383,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
     LVCA: 8
     LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96192,15 +106431,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -96244,96 +106483,96 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 601
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT096x128x16_GRVW02_GSU01_SNLL0_TT06_08_VW02_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 664
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: [6, 8]
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    ThreadTile: *id033
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id021
+    WorkGroup: *id034 
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96341,15 +106580,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -96393,96 +106632,96 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 602
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 665
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id024 
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: *id033
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
+    VectorWidth: 2
+    WorkGroup: *id034
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96490,15 +106729,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -96540,98 +106779,98 @@
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
-      UseBeta: true
-      UseInitialStrides: false
-    SolutionIndex: 603
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 666
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id033
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: *id034
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96639,15 +106878,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -96691,35 +106930,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 604
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 667
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id023
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: *id033
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: *id034
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -96729,58 +106968,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96788,13 +107027,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -96840,96 +107079,94 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 605
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 668
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id024
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: *id033
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: *id035
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96937,13 +107174,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -96989,96 +107224,95 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 606
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SolutionIndex: 669
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW01_GSU04_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_08_02_WGM01
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    SubGroupB: 8
+    ThreadTile: *id036 
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
+    VectorWidth: 1
+    WorkGroup: *id038 
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97086,14 +107320,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -97138,31 +107370,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 607
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SolutionIndex: 670
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW01_GSU04_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_04_04_WGM01
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    SubGroupB: 4
+    ThreadTile: *id036
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: *id037 
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -97170,53 +107402,52 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 128
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6752
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -97224,10 +107455,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97235,14 +107466,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -97287,31 +107516,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 608
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SolutionIndex: 671
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x32_GRVW01_GSU08_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_04_04_WGM01
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025 
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 4
+    ThreadTile: *id036
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026 
+    VectorWidth: 1
+    WorkGroup: *id037
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -97319,53 +107548,52 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 128
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6752
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -97373,10 +107601,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97384,14 +107612,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -97436,31 +107662,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 609
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SolutionIndex: 672
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x32_GRVW01_GSU08_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_04_04_WGM08
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 4
+    ThreadTile: *id036
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
+    VectorWidth: 1
+    WorkGroup: *id037
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -97468,64 +107694,63 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97533,14 +107758,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -97585,31 +107808,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 610
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    SolutionIndex: 673
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW01_GSU01_LPA02_LPB02_PGR1_PLR1_TT04_08_USFGRO01_VW02_WG16_04_04_WGM01
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id027 
+    SubGroupB: 4
+    ThreadTile: *id039 
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
+    VectorWidth: 2
+    WorkGroup: *id037
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -97617,64 +107840,63 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97682,14 +107904,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -97734,31 +107954,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 611
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    SolutionIndex: 674
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x32_GRVW01_GSU08_LPA02_LPB02_PGR1_PLR1_TT02_02_USFGRO01_VW02_WG16_04_04_WGM01
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id028 
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
+    VectorWidth: 2
+    WorkGroup: *id037
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -97772,58 +107992,57 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97831,14 +108050,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -97883,31 +108100,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 612
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
+    SolutionIndex: 675
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW01_GSU01_LPA04_LPB04_PGR1_PLR1_TT04_04_USFGRO01_VW04_WG16_08_02_WGM01
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id029 
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    SubGroupB: 8
+    ThreadTile: *id036
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
+    VectorWidth: 4
+    WorkGroup: *id038
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -97921,43 +108138,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -97982,12 +108198,10 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -98032,31 +108246,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 613
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id030 
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SolutionIndex: 676
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW01_GSU01_LPA04_LPB04_PGR1_PLR1_TT04_08_USFGRO01_VW04_WG32_08_01_WGM01
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    ThreadTile: *id039
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: *id040 
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -98070,43 +108284,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -98119,9 +108332,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 96
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -98129,14 +108342,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -98181,33 +108392,34 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 614
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id031 
-    ThreadTile0: 8
-    ThreadTile1: 6
-    ThreadTileA: 8
-    ThreadTileB: 6
+    SolutionIndex: 677
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_LPA04_LPB04_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG32_08_01_WGM01
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    ThreadTile: *id039
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
+    VectorWidth: 4
+    WorkGroup: *id040
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -98220,7 +108432,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -98233,9 +108445,9 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
@@ -98279,14 +108491,17 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -98330,33 +108545,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 615
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 678
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -98369,7 +108594,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -98379,26 +108604,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -98417,9 +108642,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -98428,14 +108653,17 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -98479,33 +108707,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 616
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 679
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id027
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -98518,7 +108756,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -98528,12 +108766,12 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
@@ -98545,13 +108783,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -98566,9 +108804,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -98576,15 +108814,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -98628,33 +108869,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 617
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 680
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id028
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -98667,40 +108918,40 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -98714,9 +108965,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 96
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -98725,15 +108976,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -98777,33 +109031,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 618
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 681
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT8_8_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id029
-    ThreadTile0: 6
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -98816,7 +109080,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -98826,12 +109090,12 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
@@ -98843,13 +109107,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -98863,9 +109127,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -98874,15 +109138,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -98926,33 +109193,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 619
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 682
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id030
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -98965,36 +109242,36 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7680
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1536
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -99013,9 +109290,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 96
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 96
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99023,15 +109300,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99075,33 +109355,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 620
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 683
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT8_8_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id031
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 6
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 6
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -99114,7 +109404,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -99124,12 +109414,12 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
@@ -99141,13 +109431,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -99161,10 +109451,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99172,15 +109462,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99224,46 +109517,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 621
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 684
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -99273,30 +109576,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 128
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 3072
-    LdsNumElementsAlignedB: 3072
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 3072
-    LdsOffsetB_Blk: 11264
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -99309,11 +109612,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99321,15 +109624,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99373,47 +109679,57 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 622
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x24_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 685
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -99422,30 +109738,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 128
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 3072
-    LdsNumElementsAlignedB: 3072
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 3072
-    LdsOffsetB_Blk: 11264
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 4608
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -99458,10 +109774,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -99470,15 +109786,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99522,46 +109841,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 623
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x24_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 686
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -99571,30 +109900,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -99607,7 +109936,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -99620,14 +109949,17 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99671,48 +110003,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 624
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 687
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id027
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -99724,26 +110066,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 4096
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -99756,11 +110098,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99768,15 +110110,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99820,46 +110165,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 625
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x32_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id028
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 688
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x8_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -99873,26 +110228,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 4096
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -99905,7 +110260,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 128
     MacroTile1: 128
     MacroTileA: 128
@@ -99919,13 +110274,16 @@
     NonTemporalC: 0
     NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99969,46 +110327,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 626
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x32_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 689
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -100018,30 +110386,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -100054,7 +110422,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -100068,13 +110436,16 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -100118,46 +110489,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 627
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 690
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id027
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -100171,26 +110552,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 4096
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -100203,10 +110584,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -100215,15 +110596,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -100267,46 +110651,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 628
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x32_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 691
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id028
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -100320,26 +110714,22 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 4096
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -100352,11 +110742,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100364,20 +110754,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -100416,79 +110809,89 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 629
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x32_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
-    ThreadTile0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 692
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS0_GSU1_LPA0_LPB0_PGR0_SNLL0_TT4_8_VW4_WG32_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 4
-    LSCB: 4
-    LSPA: 16
-    LSPB: 16
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -100501,11 +110904,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100513,15 +110916,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -100565,48 +110971,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 630
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x04_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 693
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id032 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 2
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -100621,23 +111037,23 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 2
-    LSCB: 2
-    LSPA: 32
-    LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -100650,11 +111066,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100662,15 +111078,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -100714,33 +111133,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 631
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x02_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 694
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id032
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -100753,57 +111182,57 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100811,15 +111240,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -100863,33 +111295,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 632
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU01_SNLL1_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 695
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 32
     SubGroupB: 8
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id035 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -100902,57 +111344,57 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 2
+    LVCB: 2
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
-    LdsPadA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100960,15 +111402,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -101012,96 +111457,106 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 633
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 696
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_EPS1_GSU1_LPA2_LPB0_PGR1_SNLL1_TT4_8_VW2_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id034 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
-    LdsPadA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101109,15 +111564,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -101161,96 +111619,106 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 634
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 697
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id034
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 6720
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
-    LdsPadA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101258,15 +111726,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -101310,96 +111781,106 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 635
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 698
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU3_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id034
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
-    LdsPadA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101407,15 +111888,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -101459,33 +111943,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 636
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 699
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -101497,58 +111991,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 1600
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
-    LdsPadA: 0
+    LdsOffsetB: 1088
+    LdsPadA: 2
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101556,20 +112046,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -101608,32 +112101,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 637
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 700
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS0_GSU1_LPA2_LPB0_PGR0_SNLL0_TT4_4_VW2_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id035
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: false
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -101645,57 +112149,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsPadA: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101703,18 +112204,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -101753,13 +112259,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 638
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW01_GSU04_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_08_02_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 701
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS0_GSU1_LPA2_LPB0_PGR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    ThreadTile: *id036 
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -101769,17 +112283,19 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id038 
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -101791,57 +112307,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
     LdsOffsetB_Blk: 3136
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsPadA: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101849,13 +112366,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -101899,13 +112421,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 639
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW01_GSU04_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_04_04_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 702
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
-    ThreadTile: *id036
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -101915,79 +112445,82 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id037 
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6752
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101995,13 +112528,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102045,13 +112583,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 640
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x32_GRVW01_GSU08_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_04_04_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 703
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
-    ThreadTile: *id036
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -102061,79 +112607,82 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id037
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6752
+    LdsNumElements: 6720
     LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2112
     LdsOffsetB_Blk: 6208
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsPadA: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -102141,13 +112690,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102191,13 +112745,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 641
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x32_GRVW01_GSU08_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_04_04_WGM08
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
-    ThreadTile: *id036
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 704
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA2_LPB0_PGR1_SNLL1_TT4_4_VW2_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -102207,39 +112769,42 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id037
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -102247,35 +112812,35 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
     LdsPadA: 2
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -102287,13 +112852,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102337,84 +112907,95 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 642
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW01_GSU01_LPA02_LPB02_PGR1_PLR1_TT04_08_USFGRO01_VW02_WG16_04_04_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 705
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
-    ThreadTile: *id039 
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id037
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 6720
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -102422,10 +113003,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 256
+    MacroTile1: 64
+    MacroTileA: 256
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -102433,13 +113014,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102483,54 +113069,65 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 643
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x32_GRVW01_GSU08_LPA02_LPB02_PGR1_PLR1_TT02_02_USFGRO01_VW02_WG16_04_04_WGM01
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 706
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT256x64x8_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT8_8_VW4_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id037
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -102539,28 +113136,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 6208
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetB_Blk: 5184
     LdsPadA: 4
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -102568,10 +113165,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -102579,13 +113176,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102629,33 +113231,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 644
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW01_GSU01_LPA04_LPB04_PGR1_PLR1_TT04_04_USFGRO01_VW04_WG16_08_02_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 707
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    ThreadTile: *id036
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id038
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -102667,17 +113279,18 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -102687,22 +113300,22 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
     LdsPadA: 4
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -102714,9 +113327,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -102725,13 +113338,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102775,33 +113393,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 645
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW01_GSU01_LPA04_LPB04_PGR1_PLR1_TT04_08_USFGRO01_VW04_WG32_08_01_WGM01
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    ThreadTile: *id039
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 708
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA4_LPB0_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id040 
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -102813,6 +113441,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -102827,8 +113456,8 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
@@ -102840,15 +113469,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
     LdsPadA: 4
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -102860,9 +113489,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -102871,13 +113500,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102921,26 +113555,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 646
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_LPA04_LPB04_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG32_08_01_WGM01
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    ThreadTile: *id039
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 709
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id040
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -102974,7 +113617,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -102988,14 +113631,14 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -103009,9 +113652,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103019,12 +113662,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -103078,8 +113721,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 647
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 710
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -103088,19 +113731,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -103122,7 +113765,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -103133,31 +113776,27 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3136
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
+    LdsOffsetB: 2112
+    LdsPadA: 4
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -103170,10 +113809,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103181,13 +113820,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -103197,7 +113836,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -103240,29 +113879,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 648
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    SolutionIndex: 711
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS0_GSU1_LPA4_LPB0_PGR0_SNLL0_TT4_8_VW4_WG32_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -103295,10 +113934,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -103312,14 +113951,14 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2112
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -103332,9 +113971,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -103343,11 +113982,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -103402,29 +114041,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 649
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 712
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -103457,10 +114096,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -103474,14 +114113,14 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -103494,10 +114133,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103505,12 +114144,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -103564,8 +114203,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 650
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 713
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -103573,20 +114212,20 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -103608,10 +114247,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -103619,10 +114258,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -103630,20 +114269,16 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2624
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
+    LdsOffsetB: 2112
+    LdsPadA: 4
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -103656,10 +114291,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103668,10 +114303,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -103683,7 +114318,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -103726,15 +114361,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 651
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 714
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS0_GSU1_LPA4_LPB0_PGR0_SNLL0_TT4_4_VW4_WG32_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -103746,9 +114381,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -103784,28 +114419,28 @@
     GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -103818,10 +114453,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103829,13 +114464,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -103888,29 +114523,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 652
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 715
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA4_LPB0_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -103926,7 +114561,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -103943,31 +114578,31 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 13440
+    LdsNumElementsAlignedA: 1152
+    LdsNumElementsAlignedB: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1152
+    LdsOffsetB_Blk: 9344
+    LdsPadA: 4
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -103979,11 +114614,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103992,11 +114627,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -104050,16 +114685,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 653
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 716
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -104070,11 +114705,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -104088,7 +114723,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -104097,7 +114732,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -104105,7 +114740,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -104113,24 +114748,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3600
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -104141,10 +114776,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -104153,8 +114788,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -104212,8 +114847,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 654
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 717
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_EPS1_GSU1_LPA0_LPB2_PGR1_SNLL1_TT8_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -104221,11 +114856,11 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -104234,9 +114869,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -104258,7 +114893,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -104278,21 +114913,21 @@
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 64
-    LVCA: 8
+    LSPB: 32
+    LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 4608
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -104304,10 +114939,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -104319,9 +114954,9 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -104374,15 +115009,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 655
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM64
+    SolutionIndex: 718
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -104395,8 +115030,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -104446,15 +115081,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 6176
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -104536,8 +115171,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 656
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 719
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -104558,7 +115193,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -104574,7 +115209,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -104583,7 +115218,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -104591,32 +115226,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 32
-    LVCA: 2
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
     LVCB: 4
-    LVPA: 32
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 6176
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -104627,11 +115262,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -104640,7 +115275,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -104698,16 +115333,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 657
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x8_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM1
+    SolutionIndex: 720
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -104718,11 +115353,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -104753,32 +115388,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -104790,10 +115425,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -104801,13 +115436,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -104860,29 +115495,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 658
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 721
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -104898,7 +115533,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -104907,7 +115542,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -104915,7 +115550,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -104923,24 +115558,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -104951,10 +115586,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -104963,8 +115598,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -105022,31 +115657,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 659
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 722
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -105087,22 +115722,22 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105114,10 +115749,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105125,13 +115760,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -105184,29 +115819,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 660
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 723
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -105256,11 +115891,11 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 3136
     LdsOffsetA: 0
     LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105342,29 +115977,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 661
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS0_GSU1_LPA0_LPB0_PGR0_SNLL0_TT4_8_VW4_WG32_8_1_WGM8
+    SolutionIndex: 724
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS0_GSU1_LPA0_LPB4_PGR0_SNLL0_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -105397,7 +116032,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -105414,15 +116049,15 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105504,8 +116139,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 662
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM64
+    SolutionIndex: 725
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -105513,7 +116148,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -105526,7 +116161,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -105559,7 +116194,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -105576,15 +116211,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105596,10 +116231,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105607,12 +116242,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -105666,8 +116301,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 663
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM64
+    SolutionIndex: 726
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -105675,12 +116310,12 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -105688,7 +116323,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -105738,15 +116373,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105758,10 +116393,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105773,8 +116408,8 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -105828,29 +116463,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 664
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM64
+    SolutionIndex: 727
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -105866,7 +116501,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -105886,29 +116521,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
     LSPB: 64
-    LVCA: 2
-    LVCB: 2
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 13376
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 4160
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 9216
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105919,11 +116554,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 256
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 256
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105931,13 +116566,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -105990,31 +116625,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 665
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_EPS1_GSU1_LPA2_LPB0_PGR1_SNLL1_TT4_8_VW2_WG16_8_1_WGM8
+    SolutionIndex: 728
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x256x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT8_8_VW4_WG8_32_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -106045,32 +116680,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106083,9 +116718,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -106093,13 +116728,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -106152,29 +116787,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 666
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    SolutionIndex: 729
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -106196,7 +116831,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
@@ -106207,10 +116842,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -106224,15 +116859,11 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6720
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2624
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106256,7 +116887,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -106271,7 +116902,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -106314,8 +116945,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 667
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU3_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG32_8_1_WGM1
+    SolutionIndex: 730
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS0_GSU1_LPA0_LPB4_PGR0_SNLL0_TT4_4_VW4_WG32_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -106334,9 +116965,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -106372,169 +117003,7 @@
     GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
-    InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1024
-    LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 0
-    LocalDotLayout: 1
-    LocalRead2A: true
-    LocalRead2B: true
-    LocalSplitU: 1
-    LocalWrite2A: true
-    LocalWrite2B: true
-    LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
-    MacroTileShapeMax: 64
-    MacroTileShapeMin: 1
-    MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
-    NonTemporalA: 0
-    NonTemporalB: 0
-    NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
-    PackBatchDims: 0
-    PackFreeDims: 1
-    PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
-    PerformanceSyncLocation: -1
-    PerformanceWaitCount: -1
-    PerformanceWaitLocation: -1
-    PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
-    ProblemType:
-      AssignedDerivedParameters: true
-      Batched: true
-      ComplexConjugateA: false
-      ComplexConjugateB: false
-      DataType: 0
-      DestDataType: 0
-      HighPrecisionAccumulate: false
-      Index0: 0
-      Index01A: 0
-      Index01B: 1
-      Index1: 1
-      IndexAssignmentsA: [3, 0, 2]
-      IndexAssignmentsB: [3, 1, 2]
-      IndexUnroll: 3
-      IndexUnrollA: 0
-      IndexUnrollB: 0
-      IndicesBatch: [2]
-      IndicesFree: [0, 1]
-      IndicesSummation: [3]
-      NumIndicesBatch: 1
-      NumIndicesC: 3
-      NumIndicesFree: 2
-      NumIndicesSummation: 1
-      OperationType: GEMM
-      SilentHighPrecisionAccumulate: false
-      TLUA: false
-      TLUB: false
-      Tensor0: 0
-      Tensor1: 1
-      TileA: 0
-      TileB: 1
-      TotalIndices: 4
-      TransposeA: true
-      TransposeB: false
-      UseBeta: true
-      UseInitialStrides: false
-    ReplacementKernel: false
-    ScheduleGlobalRead: 1
-    ScheduleIterAlg: 1
-    ScheduleLocalWrite: 1
-    SolutionIndex: 668
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
-    StaggerU: 32
-    StaggerUMapping: 0
-    StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
-    UnrollMemFence: false
-    UseSgprForGRO: 1
-    Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
-    WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
-    AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
-    AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: false
-    AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
-    BufferStore: true
-    CheckDimOverflow: 0
-    CheckTensorDimAsserts: false
-    DepthU: 16
-    DirectToLds: false
-    DirectToLdsA: false
-    DirectToLdsB: false
-    DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
-    GlobalRead2A: true
-    GlobalRead2B: true
-    GlobalReadCoalesceGroupA: true
-    GlobalReadCoalesceGroupB: true
-    GlobalReadCoalesceVectorA: true
-    GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
-    GlobalSplitUSummationAssignmentRoundRobin: true
-    GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -106548,11 +117017,15 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1600
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106576,7 +117049,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -106591,7 +117064,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -106634,8 +117107,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 669
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS0_GSU1_LPA2_LPB0_PGR0_SNLL0_TT4_4_VW2_WG16_8_1_WGM8
+    SolutionIndex: 731
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -106654,7 +117127,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -106678,7 +117151,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -106689,10 +117162,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -106706,11 +117179,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106734,7 +117211,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -106749,7 +117226,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -106792,8 +117269,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 670
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS0_GSU1_LPA2_LPB0_PGR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 732
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -106812,7 +117289,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -106847,10 +117324,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -106865,14 +117342,14 @@
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106896,7 +117373,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -106954,8 +117431,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 671
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM8
+    SolutionIndex: 733
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -106963,7 +117440,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -106974,9 +117451,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -107000,7 +117477,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -107009,32 +117486,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 32
     LSPB: 64
-    LVCA: 4
+    LVCA: 8
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 12864
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 4160
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 8704
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -107046,10 +117523,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 256
+    MacroTileA: 32
+    MacroTileB: 256
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107057,12 +117534,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -107116,29 +117593,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 672
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 734
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x256x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG8_32_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -107163,7 +117640,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -107174,7 +117651,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -107182,21 +117659,21 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6720
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -107208,10 +117685,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107219,12 +117696,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -107278,28 +117755,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 673
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA2_LPB0_PGR1_SNLL1_TT4_4_VW2_WG32_8_1_WGM64
+    SolutionIndex: 735
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -107333,32 +117810,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -107371,9 +117848,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107381,13 +117858,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -107440,28 +117917,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 674
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM64
+    SolutionIndex: 736
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -107478,7 +117955,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107487,7 +117964,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -107503,24 +117980,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6720
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -107531,10 +118008,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 256
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 256
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -107543,8 +118020,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -107602,8 +118079,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 675
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT256x64x8_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT8_8_VW4_WG32_8_1_WGM1
+    SolutionIndex: 737
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -107612,10 +118089,10 @@
     SubGroupA: 32
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -107624,9 +118101,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -107640,7 +118117,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107657,7 +118134,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -107665,24 +118142,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 128
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -107693,11 +118170,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107705,13 +118182,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -107764,31 +118241,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 676
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 738
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -107802,7 +118279,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107827,24 +118304,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 13440
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 4224
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 9216
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -107855,11 +118332,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107872,7 +118349,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -107926,15 +118403,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 677
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA4_LPB0_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 739
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG8_32_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -107947,10 +118424,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -107964,7 +118441,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107989,24 +118466,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 13440
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 4224
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 9216
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -108017,11 +118494,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108034,7 +118511,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -108088,15 +118565,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 678
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 740
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -108109,10 +118586,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -108126,7 +118603,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -108135,7 +118612,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -108146,29 +118623,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 32
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
+    LVPA: 32
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3408
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -108179,11 +118656,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108191,11 +118668,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -108250,31 +118727,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 679
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 741
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x8_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG32_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -108294,7 +118771,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -108305,28 +118782,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 2112
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -108338,10 +118819,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108349,13 +118830,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -108365,7 +118846,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -108408,29 +118889,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 680
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS0_GSU1_LPA4_LPB0_PGR0_SNLL0_TT4_8_VW4_WG32_8_1_WGM8
+    SolutionIndex: 742
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -108454,7 +118935,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -108463,32 +118944,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 32
     LSPB: 64
-    LVCA: 4
+    LVCA: 8
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6752
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 4672
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -108500,10 +118981,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108511,12 +118992,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -108570,29 +119051,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 681
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
+    SolutionIndex: 743
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -108625,10 +119106,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -108642,15 +119123,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6208
+    LdsNumElements: 6240
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
     LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -108674,7 +119155,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -108732,8 +119213,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 682
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 744
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -108741,7 +119222,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -108752,9 +119233,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -108776,10 +119257,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -108787,10 +119268,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -108798,17 +119279,21 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2624
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 2112
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -108820,10 +119305,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108831,12 +119316,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -108847,7 +119332,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -108890,29 +119375,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 683
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS0_GSU1_LPA4_LPB0_PGR0_SNLL0_TT4_4_VW4_WG32_8_1_WGM64
+    SolutionIndex: 745
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -108937,7 +119422,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -108945,32 +119430,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 32
     LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 6752
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -108982,9 +119467,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -108994,12 +119479,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -109052,14 +119537,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 684
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA4_LPB0_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM64
+    SolutionIndex: 746
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG32_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -109072,9 +119557,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -109090,7 +119575,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -109107,32 +119592,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LVCA: 4
+    LVCB: 4
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 13440
-    LdsNumElementsAlignedA: 1152
-    LdsNumElementsAlignedB: 4096
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1152
-    LdsOffsetB_Blk: 9344
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -109143,11 +119628,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109156,12 +119641,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -109214,16 +119699,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 685
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM64
+    SolutionIndex: 747
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -109234,11 +119719,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -109252,16 +119737,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -109269,7 +119754,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -109277,23 +119762,19 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3600
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
+    LdsOffsetB: 1088
+    LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
@@ -109305,10 +119786,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -109317,8 +119798,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -109333,7 +119814,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -109376,8 +119857,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 686
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_EPS1_GSU1_LPA0_LPB2_PGR1_SNLL1_TT8_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 748
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS0_GSU5_LPA2_LPB2_PGR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -109385,11 +119866,11 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -109398,9 +119879,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -109441,21 +119922,21 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
@@ -109469,9 +119950,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109483,9 +119964,9 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -109538,15 +120019,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 687
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    SolutionIndex: 749
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -109559,7 +120040,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -109610,14 +120091,14 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6176
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
@@ -109630,9 +120111,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -109641,11 +120122,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -109700,8 +120181,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 688
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 750
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -109710,10 +120191,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -109755,7 +120236,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -109772,14 +120253,14 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6176
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
@@ -109792,9 +120273,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -109803,11 +120284,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -109862,29 +120343,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 689
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 751
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG32_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -109917,7 +120398,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -109934,14 +120415,14 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
@@ -110024,8 +120505,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 690
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM64
+    SolutionIndex: 752
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -110033,7 +120514,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -110046,7 +120527,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -110062,7 +120543,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -110071,7 +120552,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -110082,29 +120563,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110115,10 +120596,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -110127,7 +120608,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -110186,31 +120667,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 691
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
+    SolutionIndex: 753
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -110244,29 +120725,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110278,10 +120759,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -110289,13 +120770,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -110348,29 +120829,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 692
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM1
+    SolutionIndex: 754
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT8_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -110392,7 +120873,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -110403,10 +120884,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -110420,11 +120901,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 2048
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110436,10 +120921,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -110448,11 +120933,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -110463,7 +120948,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -110506,15 +120991,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 693
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS0_GSU1_LPA0_LPB4_PGR0_SNLL0_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 755
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG8_32_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -110526,9 +121011,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -110552,7 +121037,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -110564,7 +121049,7 @@
     GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -110572,21 +121057,21 @@
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 32
-    LVCA: 4
+    LSPB: 64
+    LVCA: 8
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 6752
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 4672
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110598,10 +121083,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -110610,12 +121095,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -110668,15 +121153,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 694
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM1
+    SolutionIndex: 756
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -110688,9 +121173,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -110726,7 +121211,7 @@
     GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -110740,15 +121225,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110761,9 +121246,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -110771,12 +121256,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -110830,29 +121315,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 695
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 757
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG8_32_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -110885,10 +121370,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -110902,15 +121387,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110923,9 +121408,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -110933,12 +121418,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -110992,28 +121477,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 696
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM8
+    SolutionIndex: 758
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -111047,10 +121532,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -111064,15 +121549,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 13376
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 4160
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 9216
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -111085,9 +121570,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 256
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 256
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -111095,12 +121580,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -111154,28 +121639,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 697
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x256x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT8_8_VW4_WG8_32_1_WGM8
+    SolutionIndex: 759
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -111212,7 +121697,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -111226,15 +121711,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -111247,9 +121732,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -111257,12 +121742,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -111316,8 +121801,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 698
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 760
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -111326,19 +121811,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -111360,10 +121845,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -111374,7 +121859,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -111382,17 +121867,21 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2624
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 2048
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -111404,10 +121893,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -111415,12 +121904,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -111431,7 +121920,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -111474,29 +121963,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 699
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS0_GSU1_LPA0_LPB4_PGR0_SNLL0_TT4_4_VW4_WG32_8_1_WGM8
+    SolutionIndex: 761
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_8_VW2_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -111529,32 +122018,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -111567,9 +122056,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -111577,13 +122066,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -111636,29 +122125,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 700
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM8
+    SolutionIndex: 762
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -111691,10 +122180,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -111708,15 +122197,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -111728,9 +122217,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -111739,11 +122228,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -111798,8 +122287,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 701
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 763
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -111808,19 +122297,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -111853,10 +122342,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -111870,15 +122359,15 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -111902,7 +122391,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -111960,8 +122449,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 702
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM64
+    SolutionIndex: 764
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -111969,7 +122458,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -111980,7 +122469,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 8, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
@@ -112006,7 +122495,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -112015,32 +122504,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 64
-    LVCA: 8
+    LVCA: 4
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 12864
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 4160
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 8704
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -112052,10 +122541,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 256
-    MacroTileA: 32
-    MacroTileB: 256
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -112063,12 +122552,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -112122,28 +122611,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 703
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x256x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG8_32_1_WGM64
+    SolutionIndex: 765
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -112160,7 +122649,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -112177,32 +122666,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 13440
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 4160
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 9280
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -112213,10 +122702,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 32
+    MacroTile0: 32
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -112225,12 +122714,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -112284,8 +122773,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 704
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM64
+    SolutionIndex: 766
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -112293,22 +122782,22 @@
     SubGroup1: 32
     SubGroupA: 8
     SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -112322,7 +122811,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -112342,29 +122831,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 14464
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 4160
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 10304
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -112375,7 +122864,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 64
     MacroTile1: 128
     MacroTileA: 64
@@ -112388,11 +122877,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -112446,31 +122935,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 705
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM64
+    SolutionIndex: 767
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x32_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT8_4_VW2_WG8_32_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -112484,7 +122973,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -112501,32 +122990,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 12416
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 10304
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -112537,10 +123026,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -112549,12 +123038,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -112608,31 +123097,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 706
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM64
+    SolutionIndex: 768
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -112646,7 +123135,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -112655,7 +123144,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -112663,7 +123152,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -112671,23 +123160,23 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 32
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3424
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
@@ -112699,10 +123188,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -112715,9 +123204,9 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -112770,16 +123259,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 707
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM64
+    SolutionIndex: 769
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x8_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -112791,10 +123280,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -112808,7 +123297,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -112817,7 +123306,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -112825,7 +123314,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -112833,23 +123322,23 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 13440
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 4224
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 9216
-    LdsPadA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
@@ -112861,11 +123350,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -112873,12 +123362,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -112932,31 +123421,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 708
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG8_32_1_WGM8
+    SolutionIndex: 770
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -112970,7 +123459,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -112995,23 +123484,23 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LVCA: 4
+    LVCB: 4
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 13440
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 4224
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 9216
-    LdsPadA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
@@ -113023,11 +123512,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113039,9 +123528,9 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -113094,15 +123583,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 709
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM64
+    SolutionIndex: 771
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -113115,10 +123604,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -113132,7 +123621,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -113140,8 +123629,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -113152,29 +123641,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 32
-    LVCA: 2
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
     LVCB: 4
-    LVPA: 32
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3408
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 4672
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -113185,11 +123674,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113198,11 +123687,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -113256,15 +123745,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 710
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x8_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG32_8_1_WGM64
+    SolutionIndex: 772
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -113276,11 +123765,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -113311,32 +123800,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3680
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -113349,9 +123838,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113360,12 +123849,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -113418,16 +123907,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 711
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    SolutionIndex: 773
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -113438,8 +123927,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -113464,7 +123953,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -113473,32 +123962,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 64
-    LVCA: 8
+    LVCA: 4
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6752
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 4672
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -113510,10 +123999,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113521,12 +124010,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -113580,28 +124069,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 712
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM1
+    SolutionIndex: 774
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -113627,7 +124116,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -113635,10 +124124,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -113646,21 +124135,21 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6240
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -113672,10 +124161,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113684,10 +124173,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -113742,16 +124231,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 713
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 775
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -113762,8 +124251,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -113797,10 +124286,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -113814,15 +124303,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -113834,10 +124323,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113846,11 +124335,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -113904,16 +124393,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 714
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 776
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
@@ -113924,8 +124413,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -113948,7 +124437,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
@@ -113959,10 +124448,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -113976,15 +124465,11 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6752
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 4736
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 4160
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -113996,9 +124481,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 256
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 256
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -114007,11 +124492,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -114023,7 +124508,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -114066,8 +124551,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 715
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG32_8_1_WGM1
+    SolutionIndex: 777
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT256x32x16_EPS0_GSU1_LPA4_LPB4_PGR0_SNLL0_TT8_4_VW4_WG32_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114076,23 +124561,185 @@
     SubGroupA: 32
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 778
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU3_LPA4_LPB4_PGR1_SNLL0_TT8_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -114124,7 +124771,7 @@
     GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -114138,15 +124785,15 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3680
+    LdsNumElements: 3712
     LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
     LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -114170,7 +124817,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -114228,8 +124875,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 716
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    SolutionIndex: 779
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114248,7 +124895,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -114272,7 +124919,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -114283,10 +124930,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -114300,11 +124947,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2144
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -114317,9 +124968,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114327,12 +124978,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -114343,7 +124994,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -114386,29 +125037,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 717
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS0_GSU5_LPA2_LPB2_PGR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 780
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -114441,10 +125092,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -114458,15 +125109,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6240
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
     LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -114490,7 +125141,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -114548,8 +125199,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 718
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 781
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114557,7 +125208,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -114568,9 +125219,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -114603,10 +125254,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -114620,15 +125271,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -114640,10 +125291,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114652,11 +125303,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -114710,8 +125361,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 719
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 782
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114719,20 +125370,20 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -114765,10 +125416,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -114782,15 +125433,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
+    LdsNumElements: 7296
     LdsNumElementsAlignedA: 2112
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2112
     LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -114814,7 +125465,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -114872,29 +125523,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 720
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG32_8_1_WGM1
+    SolutionIndex: 783
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -114930,29 +125581,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3680
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 12416
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 10304
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -114964,10 +125615,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114975,13 +125626,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -115034,28 +125685,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 721
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_8_1_WGM8
+    SolutionIndex: 784
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -115078,10 +125729,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -115092,7 +125743,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -115100,21 +125751,17 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6240
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2688
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 2112
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -115126,10 +125773,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115138,10 +125785,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -115153,7 +125800,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -115196,16 +125843,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 722
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 785
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS0_GSU1_LPA4_LPB4_PGR0_SNLL0_TT4_4_VW4_WG32_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -115216,8 +125863,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -115243,7 +125890,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -115254,7 +125901,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -115262,21 +125909,21 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
+    LdsNumElements: 6784
     LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2112
     LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -115289,9 +125936,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115299,8 +125946,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -115358,28 +126005,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 723
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT8_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 786
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -115413,10 +126060,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -115430,15 +126077,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -115450,10 +126097,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115462,11 +126109,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -115520,28 +126167,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 724
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG8_32_1_WGM8
+    SolutionIndex: 787
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -115566,7 +126213,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -115578,7 +126225,7 @@
     GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -115586,21 +126233,21 @@
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 64
-    LVCA: 8
+    LSPB: 32
+    LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6752
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 4672
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -115612,10 +126259,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115624,12 +126271,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -115682,15 +126329,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 725
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM8
+    SolutionIndex: 788
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -115702,8 +126349,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -115737,32 +126384,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7264
+    LdsNumElements: 3712
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -115775,9 +126422,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115785,13 +126432,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -115844,29 +126491,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 726
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG8_32_1_WGM8
+    SolutionIndex: 789
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -115890,7 +126537,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -115899,32 +126546,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 32
     LSPB: 64
-    LVCA: 4
+    LVCA: 8
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6240
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 4672
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -115936,10 +126583,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115948,11 +126595,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -116006,16 +126653,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 727
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 790
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -116026,9 +126673,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -116061,10 +126708,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -116078,15 +126725,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
+    LdsNumElements: 7296
     LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
     LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -116110,7 +126757,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -116168,29 +126815,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 728
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG16_16_1_WGM8
+    SolutionIndex: 791
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -116226,7 +126873,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -116240,15 +126887,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6240
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
     LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -116272,7 +126919,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -116330,8 +126977,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 729
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 792
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116350,7 +126997,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
@@ -116388,7 +127035,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -116402,15 +127049,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
+    LdsNumElements: 7296
     LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
     LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -116434,7 +127081,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -116492,8 +127139,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 730
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_8_VW2_WG16_16_1_WGM64
+    SolutionIndex: 793
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116512,169 +127159,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
-    WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
-    AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
-    AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: false
-    AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
-    BufferStore: true
-    CheckDimOverflow: 0
-    CheckTensorDimAsserts: false
-    DepthU: 16
-    DirectToLds: false
-    DirectToLdsA: false
-    DirectToLdsB: false
-    DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
-    GlobalRead2A: true
-    GlobalRead2B: true
-    GlobalReadCoalesceGroupA: true
-    GlobalReadCoalesceGroupB: true
-    GlobalReadCoalesceVectorA: true
-    GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
-    GlobalSplitUSummationAssignmentRoundRobin: true
-    GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
-    InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
-    LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
-    LocalDotLayout: 1
-    LocalRead2A: true
-    LocalRead2B: true
-    LocalSplitU: 1
-    LocalWrite2A: true
-    LocalWrite2B: true
-    LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
-    MacroTileShapeMax: 64
-    MacroTileShapeMin: 1
-    MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
-    NonTemporalA: 0
-    NonTemporalB: 0
-    NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
-    PackBatchDims: 0
-    PackFreeDims: 1
-    PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
-    PerformanceSyncLocation: -1
-    PerformanceWaitCount: -1
-    PerformanceWaitLocation: -1
-    PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
-    ProblemType:
-      AssignedDerivedParameters: true
-      Batched: true
-      ComplexConjugateA: false
-      ComplexConjugateB: false
-      DataType: 0
-      DestDataType: 0
-      HighPrecisionAccumulate: false
-      Index0: 0
-      Index01A: 0
-      Index01B: 1
-      Index1: 1
-      IndexAssignmentsA: [3, 0, 2]
-      IndexAssignmentsB: [3, 1, 2]
-      IndexUnroll: 3
-      IndexUnrollA: 0
-      IndexUnrollB: 0
-      IndicesBatch: [2]
-      IndicesFree: [0, 1]
-      IndicesSummation: [3]
-      NumIndicesBatch: 1
-      NumIndicesC: 3
-      NumIndicesFree: 2
-      NumIndicesSummation: 1
-      OperationType: GEMM
-      SilentHighPrecisionAccumulate: false
-      TLUA: false
-      TLUB: false
-      Tensor0: 0
-      Tensor1: 1
-      TileA: 0
-      TileB: 1
-      TotalIndices: 4
-      TransposeA: true
-      TransposeB: false
-      UseBeta: true
-      UseInitialStrides: false
-    ReplacementKernel: false
-    ScheduleGlobalRead: 1
-    ScheduleIterAlg: 1
-    ScheduleLocalWrite: 1
-    SolutionIndex: 731
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG16_16_1_WGM64
-    StaggerU: 32
-    StaggerUMapping: 0
-    StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
-    UnrollMemFence: false
-    UseSgprForGRO: 1
-    Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
@@ -116709,10 +127194,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -116726,15 +127211,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
+    LdsNumElements: 7296
     LdsNumElementsAlignedA: 2112
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2112
     LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -116758,7 +127243,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -116816,8 +127301,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 732
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 794
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116825,7 +127310,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
@@ -116836,7 +127321,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
@@ -116871,32 +127356,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3680
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 12416
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 10304
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -116908,10 +127393,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116919,13 +127404,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -116978,28 +127463,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 733
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM64
+    SolutionIndex: 795
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -117025,7 +127510,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -117033,10 +127518,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -117044,21 +127529,21 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6240
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -117070,10 +127555,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117082,10 +127567,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -117140,16 +127625,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 734
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 796
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -117160,8 +127645,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -117178,7 +127663,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117195,32 +127680,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 13440
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 4160
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 9280
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -117231,11 +127716,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117243,12 +127728,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -117302,31 +127787,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 735
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM1
+    SolutionIndex: 797
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -117340,7 +127825,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117348,7 +127833,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -117357,32 +127842,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
-    LSPB: 32
+    LSPB: 64
     LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14464
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 4160
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 10304
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 4672
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -117393,10 +127878,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -117405,12 +127890,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -117464,8 +127949,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 736
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x32_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT8_4_VW2_WG8_32_1_WGM8
+    SolutionIndex: 798
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG8_32_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -117473,22 +127958,22 @@
     SubGroup1: 32
     SubGroupA: 8
     SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -117519,10 +128004,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -117536,15 +128021,15 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 12416
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 13568
+    LdsNumElementsAlignedA: 1152
+    LdsNumElementsAlignedB: 4224
     LdsOffsetA: 0
     LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 10304
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 1152
+    LdsOffsetB_Blk: 9344
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -117556,10 +128041,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117568,11 +128053,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -117626,16 +128111,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 737
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 799
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -117646,9 +128131,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -117664,7 +128149,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117673,7 +128158,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -117689,22 +128174,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 2
-    LVCB: 4
-    LVPA: 32
-    LVPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3424
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 12544
+    LdsNumElementsAlignedA: 2176
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2176
+    LdsOffsetB_Blk: 10368
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -117717,11 +128202,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117733,8 +128218,8 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -117788,15 +128273,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 738
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x8_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM8
+    SolutionIndex: 800
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -117809,10 +128294,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -117826,7 +128311,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117835,7 +128320,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -117843,7 +128328,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -117851,22 +128336,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 64
-    LVCA: 2
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3680
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 13568
+    LdsNumElementsAlignedA: 1152
+    LdsNumElementsAlignedB: 4224
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1152
+    LdsOffsetB_Blk: 9344
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -117879,11 +128364,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117891,12 +128376,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -117950,31 +128435,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 739
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
+    SolutionIndex: 801
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG8_32_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -117988,7 +128473,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118013,22 +128498,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3712
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 12544
+    LdsNumElementsAlignedA: 2176
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2176
+    LdsOffsetB_Blk: 10368
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -118041,11 +128526,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118058,8 +128543,8 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -118112,15 +128597,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 740
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM1
+    SolutionIndex: 802
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -118133,10 +128618,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -118150,7 +128635,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118158,7 +128643,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -118175,22 +128660,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 64
+    LSPB: 32
     LVCA: 8
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 14592
+    LdsNumElementsAlignedA: 2176
+    LdsNumElementsAlignedB: 4224
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 4672
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2176
+    LdsOffsetB_Blk: 10368
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -118203,10 +128688,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 32
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -118215,12 +128700,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -118274,31 +128759,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 741
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM1
+    SolutionIndex: 803
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -118312,7 +128797,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118337,22 +128822,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6272
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 12544
+    LdsNumElementsAlignedA: 2176
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2176
+    LdsOffsetB_Blk: 10368
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -118365,7 +128850,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -118381,8 +128866,8 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -118436,8 +128921,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 742
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 804
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -118458,9 +128943,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -118474,7 +128959,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118499,22 +128984,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 14592
+    LdsNumElementsAlignedA: 2176
+    LdsNumElementsAlignedB: 4224
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2176
+    LdsOffsetB_Blk: 10368
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -118527,11 +129012,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118544,7 +129029,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -118598,8 +129083,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 743
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 805
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -118608,11 +129093,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -118620,9 +129105,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -118656,7 +129141,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -118670,15 +129155,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -118690,9 +129175,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -118701,11 +129186,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -118733,6 +129218,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -118742,6 +129228,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -118760,28 +129247,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 744
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM1
+    SolutionIndex: 806
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -118818,7 +129305,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -118832,15 +129319,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -118852,9 +129339,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -118863,11 +129350,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -118895,6 +129382,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -118904,6 +129392,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -118922,28 +129411,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 745
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM1
+    SolutionIndex: 807
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -118960,13 +129449,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
@@ -118980,40 +129469,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4736
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 4160
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 256
-    MacroTile1: 32
-    MacroTileA: 256
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119021,13 +129514,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -119037,7 +129530,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -119053,6 +129546,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -119062,6 +129556,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119080,31 +129575,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 746
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT256x32x16_EPS0_GSU1_LPA4_LPB4_PGR0_SNLL0_TT8_4_VW4_WG32_8_1_WGM1
+    SolutionIndex: 808
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 4, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -119118,7 +129613,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -119135,32 +129630,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -119171,11 +129666,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119183,13 +129678,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -119215,6 +129710,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -119224,6 +129720,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119242,31 +129739,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 747
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU3_LPA4_LPB4_PGR1_SNLL0_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 809
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW2_WG8_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -119289,7 +129786,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -119297,10 +129794,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -119308,36 +129805,36 @@
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 32
+    LSPB: 16
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3712
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119345,11 +129842,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PackBatchDims: 0
@@ -119377,6 +129874,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -119386,6 +129884,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119404,29 +129903,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 748
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM1
+    SolutionIndex: 810
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW2_WG4_4_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -119442,7 +129941,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -119451,7 +129950,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -119462,44 +129961,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119507,13 +130006,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -119539,6 +130038,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -119548,6 +130048,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119566,31 +130067,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 749
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM8
+    SolutionIndex: 811
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 4, 8]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -119604,7 +130105,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -119613,7 +130114,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -119624,44 +130125,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 6272
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119669,13 +130170,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -119701,6 +130202,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -119710,6 +130212,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119728,31 +130231,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 750
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 812
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -119766,7 +130269,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -119786,29 +130289,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -119819,11 +130322,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119831,13 +130334,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -119863,6 +130366,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -119872,6 +130376,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119890,31 +130395,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 751
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 813
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW2_WG8_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -119928,7 +130433,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -119937,7 +130442,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -119948,44 +130453,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119993,13 +130498,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -120025,6 +130530,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -120034,6 +130540,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -120052,31 +130559,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 752
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 814
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -120090,7 +130597,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120107,47 +130614,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 12416
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 10304
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120155,13 +130662,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -120187,6 +130694,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -120196,6 +130704,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -120214,31 +130723,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 753
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 815
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x32_SE_EPS1_GSU8_PGR1_SNLL0_TT8_4_VW2_WG4_4_8_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -120252,13 +130761,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
@@ -120277,35 +130786,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 8
+    LVCA: 2
+    LVCB: 4
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2688
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetB: 2112
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120313,13 +130826,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -120329,7 +130842,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -120345,6 +130858,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -120354,6 +130868,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -120372,16 +130887,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 754
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS0_GSU1_LPA4_LPB4_PGR0_SNLL0_TT4_4_VW4_WG32_8_1_WGM8
+    SolutionIndex: 816
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_2_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SubGroup0: 8
+    SubGroup1: 2
+    SubGroupA: 8
+    SubGroupB: 2
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -120393,10 +130908,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 2, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -120410,7 +130925,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120435,24 +130950,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -120463,11 +130978,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120475,11 +130990,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -120507,6 +131022,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -120516,6 +131032,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -120534,20 +131051,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 755
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM8
+    SolutionIndex: 817
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -120555,10 +131072,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -120572,7 +131089,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120597,24 +131114,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -120625,11 +131142,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120637,13 +131154,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -120669,6 +131186,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -120678,6 +131196,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -120696,31 +131215,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 756
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
+    SolutionIndex: 818
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -120751,7 +131270,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -120761,36 +131280,36 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3712
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -120799,13 +131318,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -120831,6 +131350,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -120840,6 +131360,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -120858,20 +131379,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 757
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM8
+    SolutionIndex: 819
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG2_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 2
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 2
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -120879,8 +131400,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [2, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -120902,7 +131423,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -120923,22 +131444,18 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3712
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -120951,9 +131468,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120965,9 +131482,9 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -120977,7 +131494,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -120993,6 +131510,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -121002,6 +131520,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -121020,16 +131539,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 758
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM64
+    SolutionIndex: 820
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -121041,8 +131560,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -121058,7 +131577,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121066,7 +131585,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -121078,44 +131597,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 64
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 8
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 4672
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121123,13 +131642,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -121155,6 +131674,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -121164,6 +131684,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -121182,15 +131703,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 759
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM64
+    SolutionIndex: 821
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x16x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG4_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -121203,10 +131724,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -121220,7 +131741,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121229,7 +131750,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -121245,39 +131766,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 8
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121285,13 +131806,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -121317,6 +131838,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -121326,6 +131848,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -121344,20 +131867,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 760
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM64
+    SolutionIndex: 822
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_2_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 32
+    SubGroup1: 2
     SubGroupA: 8
-    SubGroupB: 32
+    SubGroupB: 2
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -121365,10 +131888,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [8, 2, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -121382,7 +131905,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121407,24 +131930,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6272
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -121435,11 +131958,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121453,7 +131976,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -121479,6 +132002,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -121488,6 +132012,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -121506,15 +132031,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 761
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 823
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -121527,10 +132052,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -121544,7 +132069,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121561,47 +132086,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121609,13 +132134,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -121641,6 +132166,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -121650,6 +132176,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -121668,31 +132195,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 762
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM64
+    SolutionIndex: 824
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x16x32_SE_EPS1_GSU8_PGR1_SNLL0_TT4_4_VW4_WG4_4_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -121740,15 +132267,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -121760,9 +132287,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -121771,11 +132298,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -121803,6 +132330,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -121812,6 +132340,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -121830,8 +132359,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 763
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 825
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -121840,10 +132369,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -121852,7 +132381,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -121868,7 +132397,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121893,24 +132422,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 12416
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 10304
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -121921,11 +132450,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121933,13 +132462,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -121965,6 +132494,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -121974,6 +132504,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -121992,31 +132523,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 764
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM64
+    SolutionIndex: 826
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -122039,7 +132570,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -122057,36 +132588,36 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -122095,13 +132626,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -122127,6 +132658,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -122136,6 +132668,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -122154,20 +132687,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 765
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM64
+    SolutionIndex: 827
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG2_8_4_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 2
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 2
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -122175,7 +132708,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    WorkGroup: [2, 8, 4]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -122201,7 +132734,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -122219,37 +132752,37 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 16
     LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122257,13 +132790,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -122289,6 +132822,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -122298,6 +132832,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -122316,28 +132851,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 766
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM64
+    SolutionIndex: 828
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG4_4_8_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    WorkGroup: [4, 4, 8]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -122354,7 +132889,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -122362,7 +132897,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -122371,47 +132906,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 64
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 8
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 4672
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122419,13 +132954,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -122451,6 +132986,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -122460,6 +132996,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -122478,16 +133015,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 767
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG8_32_1_WGM64
+    SolutionIndex: 829
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x16x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG4_4_8_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -122499,10 +133036,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
+    WorkGroup: [4, 4, 8]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -122516,7 +133053,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -122536,29 +133073,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 13568
-    LdsNumElementsAlignedA: 1152
-    LdsNumElementsAlignedB: 4224
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1152
-    LdsOffsetB_Blk: 9344
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -122569,10 +133106,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 32
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -122581,12 +133118,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -122604,6 +133141,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -122613,6 +133151,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -122622,6 +133161,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -122640,31 +133180,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 768
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM1
+    SolutionIndex: 830
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -122678,14 +133218,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -122698,29 +133238,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 12544
-    LdsNumElementsAlignedA: 2176
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2176
-    LdsOffsetB_Blk: 10368
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -122731,11 +133271,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122743,8 +133283,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -122766,6 +133308,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -122775,6 +133318,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -122784,6 +133328,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -122802,8 +133347,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 769
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 831
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -122812,23 +133357,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -122840,14 +133383,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -122857,32 +133400,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 13568
-    LdsNumElementsAlignedA: 1152
-    LdsNumElementsAlignedB: 4224
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1152
-    LdsOffsetB_Blk: 9344
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -122893,10 +133436,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 32
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -122905,12 +133448,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -122928,6 +133473,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -122937,6 +133483,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -122946,6 +133493,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -122964,33 +133512,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 770
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG8_32_1_WGM1
+    SolutionIndex: 832
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -123002,7 +133548,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -123022,29 +133568,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 12544
-    LdsNumElementsAlignedA: 2176
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2176
-    LdsOffsetB_Blk: 10368
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -123055,11 +133601,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123067,8 +133613,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -123090,6 +133636,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -123099,6 +133646,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -123108,6 +133656,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -123126,8 +133675,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 771
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 833
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -123136,21 +133685,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -123164,7 +133713,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -123184,29 +133733,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14592
-    LdsNumElementsAlignedA: 2176
-    LdsNumElementsAlignedB: 4224
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2176
-    LdsOffsetB_Blk: 10368
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -123217,10 +133766,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -123229,12 +133778,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -123252,6 +133801,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -123261,6 +133811,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -123270,6 +133821,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -123288,8 +133840,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 772
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 834
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -123298,21 +133850,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -123326,14 +133878,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -123351,24 +133903,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 12544
-    LdsNumElementsAlignedA: 2176
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2176
-    LdsOffsetB_Blk: 10368
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -123379,11 +133931,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123391,8 +133943,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -123414,6 +133968,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -123423,6 +133978,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -123432,6 +133988,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -123450,8 +134007,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 773
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 835
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -123460,23 +134017,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -123488,14 +134043,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -123513,24 +134068,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14592
-    LdsNumElementsAlignedA: 2176
-    LdsNumElementsAlignedB: 4224
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2176
-    LdsOffsetB_Blk: 10368
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -123541,10 +134096,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -123553,12 +134108,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -123576,6 +134133,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -123585,6 +134143,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -123594,6 +134153,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -123612,8 +134172,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 774
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM64
+    SolutionIndex: 836
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -123622,10 +134182,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -123634,11 +134194,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -123659,7 +134217,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -123670,7 +134228,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -123678,19 +134236,19 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -123704,10 +134262,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123715,12 +134273,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -123738,6 +134296,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -123776,8 +134335,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 775
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG16_16_1_WGM1
+    SolutionIndex: 837
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -123786,17 +134345,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -123834,7 +134393,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -123848,13 +134407,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -123868,10 +134427,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123879,12 +134438,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -123902,6 +134461,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -123940,8 +134500,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 776
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 838
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -123950,17 +134510,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -123978,16 +134538,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -123998,44 +134558,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124043,13 +134603,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -124066,6 +134628,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -124104,33 +134667,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 777
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM1
+    SolutionIndex: 839
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -124142,14 +134703,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -124162,27 +134723,27 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -124195,11 +134756,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124207,13 +134768,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -124230,6 +134793,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -124268,33 +134832,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 778
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW2_WG8_8_1_WGM8
+    SolutionIndex: 840
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -124315,7 +134877,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -124326,44 +134888,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 16
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124371,13 +134933,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -124394,6 +134956,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -124432,28 +134995,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 779
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW2_WG4_4_8_WGM8
+    SolutionIndex: 841
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 4, 8]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -124470,7 +135033,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -124479,7 +135042,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -124490,44 +135053,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124535,13 +135098,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -124558,6 +135121,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -124596,31 +135160,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 780
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM8
+    SolutionIndex: 842
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 4, 8]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -124634,15 +135198,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -124650,48 +135214,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124699,13 +135263,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -124722,6 +135288,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -124760,33 +135327,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 781
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM16
+    SolutionIndex: 843
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 16
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -124798,49 +135363,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -124851,11 +135416,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124863,13 +135428,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -124886,6 +135453,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -124924,33 +135492,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 782
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW2_WG8_8_1_WGM64
+    SolutionIndex: 844
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -124962,7 +135528,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -124970,7 +135536,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -124978,48 +135544,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125027,13 +135593,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -125050,6 +135616,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -125088,31 +135655,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 783
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM64
+    SolutionIndex: 845
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 64
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -125126,7 +135693,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -125134,56 +135701,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7232
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125191,13 +135758,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -125214,6 +135781,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -125252,31 +135820,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 784
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x32_SE_EPS1_GSU8_PGR1_SNLL0_TT8_4_VW2_WG4_4_8_WGM64
+    SolutionIndex: 846
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 64
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -125290,7 +135858,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -125299,7 +135867,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -125310,44 +135878,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 8
-    LVCA: 2
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 7200
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125355,13 +135923,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -125378,6 +135946,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -125416,31 +135985,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 785
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_2_4_WGM1
+    SolutionIndex: 847
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 2
-    SubGroupA: 8
-    SubGroupB: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 2, 4]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -125454,49 +136023,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 64
-    LVCA: 2
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -125507,11 +136076,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125520,11 +136089,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 8
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -125542,6 +136113,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -125580,8 +136152,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 786
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 848
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW1_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -125590,23 +136162,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -125618,23 +136188,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -125643,24 +136213,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -125671,11 +136241,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125683,13 +136253,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 8
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -125706,6 +136278,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -125744,33 +136317,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 787
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_8_1_WGM1
+    SolutionIndex: 849
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -125789,16 +136360,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -125811,35 +136382,35 @@
     LSCB: 16
     LSPA: 16
     LSPB: 16
-    LVCA: 4
-    LVCB: 4
-    LVPA: 4
-    LVPB: 4
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125847,13 +136418,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 8
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -125870,6 +136443,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -125908,33 +136482,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 788
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG2_8_4_WGM1
+    SolutionIndex: 850
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 8
-    SubGroupA: 2
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [2, 8, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -125952,39 +136524,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 1024
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -125997,9 +136573,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126007,12 +136583,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -126023,13 +136601,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -126068,8 +136647,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 789
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 851
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -126077,24 +136656,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -126106,23 +136683,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -126131,39 +136708,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126171,13 +136748,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -126194,6 +136773,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -126232,33 +136812,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 790
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x16x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG4_4_8_WGM1
+    SolutionIndex: 852
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [4, 4, 8]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -126270,7 +136848,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -126278,7 +136856,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -126286,48 +136864,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
-    LSPB: 8
-    LVCA: 2
-    LVCB: 4
-    LVPA: 8
-    LVPB: 4
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126335,13 +136913,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -126358,6 +136936,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -126396,31 +136975,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 791
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_2_4_WGM8
+    SolutionIndex: 853
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 2
-    SubGroupA: 8
-    SubGroupB: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 2, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -126434,7 +137013,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -126442,41 +137021,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -126487,11 +137066,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126499,13 +137078,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -126522,6 +137101,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -126560,31 +137140,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 792
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_8_1_WGM8
+    SolutionIndex: 854
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -126598,64 +137178,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126663,13 +137243,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -126686,6 +137268,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -126724,33 +137307,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 793
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x16x32_SE_EPS1_GSU8_PGR1_SNLL0_TT4_4_VW4_WG4_4_8_WGM8
+    SolutionIndex: 855
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -126769,16 +137350,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -126789,22 +137370,22 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -126817,9 +137398,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126827,12 +137408,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -126850,6 +137433,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -126888,8 +137472,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 794
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
+    SolutionIndex: 856
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -126898,11 +137482,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -126910,11 +137494,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -126926,7 +137508,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -126934,15 +137516,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -126951,24 +137533,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -126979,11 +137561,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126991,13 +137573,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -127014,6 +137596,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -127052,31 +137635,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 795
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_8_1_WGM64
+    SolutionIndex: 857
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -127098,15 +137681,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -127117,37 +137700,37 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 4
-    LVCB: 4
-    LVPA: 4
-    LVPB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127155,13 +137738,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -127178,6 +137761,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -127216,29 +137800,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 796
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG2_8_4_WGM64
+    SolutionIndex: 858
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 8
-    SubGroupA: 2
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [2, 8, 4]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -127261,8 +137845,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -127270,7 +137854,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -127282,36 +137866,36 @@
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 16
-    LVCA: 4
+    LSPB: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127319,13 +137903,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -127342,6 +137928,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -127380,15 +137967,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 797
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG4_4_8_WGM64
+    SolutionIndex: 859
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -127396,17 +137983,15 @@
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -127418,64 +138003,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127483,13 +138068,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -127506,6 +138093,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -127544,20 +138132,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 798
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x16x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG4_4_8_WGM64
+    SolutionIndex: 860
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -127565,12 +138153,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -127590,41 +138176,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -127637,9 +138223,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127647,11 +138233,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -127709,8 +138295,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 799
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 861
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -127719,17 +138305,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -127755,41 +138341,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -127802,9 +138388,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127812,13 +138398,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -127876,8 +138462,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 800
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 862
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -127886,17 +138472,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -127919,42 +138505,42 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -127967,9 +138553,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127977,13 +138563,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -128041,8 +138625,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 801
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 863
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -128051,21 +138635,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -128084,7 +138670,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -128097,7 +138683,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -128111,15 +138697,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -128131,9 +138717,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -128142,11 +138728,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -128204,8 +138792,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 802
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 864
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -128214,23 +138802,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -128262,7 +138848,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -128276,15 +138862,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -128296,9 +138882,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -128307,11 +138893,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -128369,8 +138955,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 803
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 865
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -128379,19 +138965,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -128413,8 +138999,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -128427,28 +139013,24 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -128461,10 +139043,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128472,15 +139054,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -128490,7 +139070,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -128536,31 +139116,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 804
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 866
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB0_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -128578,43 +139160,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -128626,10 +139204,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128637,15 +139215,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -128655,7 +139233,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -128701,28 +139279,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 805
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 867
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW1_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -128743,43 +139321,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -128791,10 +139365,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128802,13 +139376,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -128818,7 +139394,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -128864,33 +139440,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 806
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 868
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW1_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -128908,8 +139482,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -128922,7 +139496,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -128936,15 +139510,11 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -128956,10 +139526,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128967,12 +139537,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -128983,7 +139555,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129029,8 +139601,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 807
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 869
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -129038,24 +139610,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -129073,8 +139643,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -129087,7 +139657,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -129101,15 +139671,11 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -129121,10 +139687,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129132,14 +139698,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -129150,7 +139714,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129196,8 +139760,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 808
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 870
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -129205,22 +139769,24 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -129238,7 +139804,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -129252,29 +139818,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -129286,10 +139848,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129297,15 +139859,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -129315,7 +139877,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129361,29 +139923,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 809
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 871
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -129403,7 +139965,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -129417,29 +139979,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -129451,10 +140009,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129462,13 +140020,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -129478,7 +140036,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129524,29 +140082,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 810
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 872
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -129568,8 +140126,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -129582,29 +140140,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -129616,10 +140170,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129627,13 +140181,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -129643,7 +140199,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129689,33 +140245,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 811
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 873
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -129733,21 +140287,21 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -129756,20 +140310,16 @@
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -129781,10 +140331,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129792,15 +140342,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -129810,7 +140358,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129856,31 +140404,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 812
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 874
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -129898,43 +140448,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 1088
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -129947,9 +140493,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129957,14 +140503,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -129975,7 +140521,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -130021,8 +140567,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 813
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 875
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -130030,20 +140576,20 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -130063,43 +140609,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 1088
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -130112,9 +140654,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130122,12 +140664,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -130138,7 +140680,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -130184,8 +140726,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 814
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 876
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -130193,20 +140735,20 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -130228,21 +140770,21 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -130251,20 +140793,16 @@
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -130276,10 +140814,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130287,13 +140825,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -130303,7 +140843,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -130349,33 +140889,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 815
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 877
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -130393,7 +140931,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -130407,29 +140945,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7200
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 2
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -130441,10 +140975,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130452,13 +140986,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -130468,7 +141002,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -130514,29 +141048,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 816
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 878
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -130558,43 +141092,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -130606,10 +141136,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130617,15 +141147,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 8
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -130635,7 +141165,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -130681,29 +141211,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 817
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW1_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 879
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG8_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -130717,49 +141247,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
     LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -130770,11 +141296,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130782,15 +141308,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 8
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -130800,7 +141326,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -130846,31 +141372,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 818
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 880
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -130882,23 +141408,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -130907,22 +141433,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 32
+    LVCA: 2
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 864
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
+    LdsOffsetB: 576
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -130935,11 +141457,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130947,15 +141469,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 8
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -130965,8 +141485,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -131011,31 +141531,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 819
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 881
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -131053,21 +141575,21 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -131076,20 +141598,16 @@
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1664
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -131102,9 +141620,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131112,15 +141630,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -131130,7 +141648,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -131176,28 +141694,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 820
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 882
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -131218,21 +141736,21 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -131241,20 +141759,16 @@
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1664
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -131267,9 +141781,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131277,15 +141791,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -131295,7 +141807,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -131341,31 +141853,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 821
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 883
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -131383,21 +141897,21 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -131406,20 +141920,16 @@
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1664
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 576
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -131431,10 +141941,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131442,13 +141952,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -131458,7 +141968,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -131504,28 +142014,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 822
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 884
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -131548,21 +142058,21 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -131571,20 +142081,16 @@
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1664
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -131597,9 +142103,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131607,13 +142113,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -131623,7 +142129,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -131669,29 +142175,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 823
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 885
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -131699,7 +142205,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -131714,42 +142220,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -131761,10 +142268,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131772,14 +142279,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -131790,6 +142295,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -131836,8 +142342,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 824
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 886
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT6_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -131845,26 +142351,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 32
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -131896,6 +142404,7 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -131906,15 +142415,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -131926,9 +142435,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -131937,13 +142446,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
@@ -131955,6 +142464,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -132001,8 +142511,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 825
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 887
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -132010,11 +142520,11 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -132023,13 +142533,13 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -132044,16 +142554,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -132061,25 +142571,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -132091,9 +142602,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -132102,12 +142613,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -132118,8 +142631,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -132164,8 +142678,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 826
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 888
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -132173,28 +142687,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -132210,7 +142722,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -132218,48 +142730,49 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 32
-    LVCA: 8
+    LVCA: 4
     LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132267,12 +142780,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -132283,6 +142796,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -132329,29 +142843,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 827
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 889
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -132359,7 +142873,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -132374,16 +142888,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -132391,39 +142905,40 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 16
+    LSPB: 64
     LVCA: 8
-    LVCB: 8
-    LVPA: 16
+    LVCB: 4
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -132432,14 +142947,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -132450,6 +142963,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -132496,35 +143010,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 828
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 890
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -132532,7 +143048,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -132556,25 +143072,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -132585,10 +143102,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -132597,15 +143114,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -132615,6 +143133,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -132661,8 +143180,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 829
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 891
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -132670,11 +143189,11 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -132685,11 +143204,11 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -132697,14 +143216,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -132721,23 +143240,24 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3168
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -132750,10 +143270,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -132762,13 +143282,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -132778,6 +143301,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -132824,8 +143348,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 830
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 892
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -132833,14 +143357,14 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -132848,13 +143372,11 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -132868,43 +143390,40 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 1088
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -132916,9 +143435,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -132927,15 +143446,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -132945,8 +143465,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -132991,8 +143512,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 831
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 893
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA2_LPB2_PGR0_PLR0_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -133000,26 +143521,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -133033,17 +143554,17 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -133051,23 +143572,20 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetB: 1088
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -133081,9 +143599,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -133092,13 +143610,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -133108,7 +143629,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -133154,8 +143676,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 832
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 894
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -133163,11 +143685,11 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -133179,12 +143701,10 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -133199,7 +143719,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -133216,6 +143736,7 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -133226,15 +143747,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -133247,9 +143768,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -133257,15 +143778,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -133275,6 +143795,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -133321,8 +143842,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 833
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 895
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -133330,26 +143851,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -133363,7 +143886,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -133381,6 +143904,7 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -133391,13 +143915,9 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -133412,9 +143932,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -133422,13 +143942,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -133438,7 +143959,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -133484,8 +144006,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 834
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 896
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -133493,12 +144015,12 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -133506,7 +144028,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -133514,7 +144036,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -133528,10 +144050,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -133542,39 +144064,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 32
     LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -133584,12 +144111,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -133599,7 +144127,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -133645,8 +144174,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 835
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB0_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 897
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -133655,19 +144184,19 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -133675,7 +144204,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -133683,13 +144212,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -133707,35 +144236,40 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 8
     LSPB: 8
-    LVCA: 16
-    LVCB: 16
+    LVCA: 32
+    LVCB: 32
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -133744,15 +144278,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -133762,7 +144297,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -133808,35 +144344,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 836
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW1_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 898
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW1_LPA0_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -133844,23 +144380,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -133868,35 +144404,40 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -133905,15 +144446,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -133923,7 +144465,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -133969,35 +144512,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 837
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW1_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 899
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -134005,23 +144548,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -134029,36 +144572,41 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2128
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134066,15 +144614,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -134084,7 +144633,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -134130,35 +144680,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 838
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 900
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_LPA2_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -134166,16 +144716,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -134190,36 +144740,41 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2128
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134227,13 +144782,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -134243,7 +144801,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -134289,37 +144848,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 839
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 901
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -134333,17 +144890,17 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -134351,36 +144908,41 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 8
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134388,15 +144950,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -134406,7 +144967,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -134452,35 +145014,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 840
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 902
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x16_SE_EPS1_FL1_GRVW2_LPA0_LPB0_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -134494,10 +145058,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -134508,40 +145072,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134549,13 +145118,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -134565,7 +145137,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -134611,15 +145184,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 841
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 903
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [2, 4]
     ThreadTile0: 2
@@ -134631,17 +145204,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -134649,16 +145220,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -134669,25 +145240,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 4
+    LSCA: 8
+    LSCB: 8
+    LSPA: 96
+    LSPB: 64
+    LVCA: 2
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 24
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -134698,11 +145274,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134710,15 +145286,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -134728,7 +145303,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -134774,35 +145350,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 842
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG8_16_1_WGM1
+    SolutionIndex: 904
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT6_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -134810,15 +145388,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -134830,25 +145408,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 128
     LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -134859,11 +145442,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134871,13 +145454,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -134887,8 +145473,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134933,37 +145520,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 843
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG8_16_1_WGM1
+    SolutionIndex: 905
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -134971,15 +145556,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -134991,25 +145576,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 128
     LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2128
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -135020,11 +145610,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135032,8 +145622,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -135041,6 +145631,7 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -135050,7 +145641,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -135096,8 +145688,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 844
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 906
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -135106,25 +145698,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -135132,16 +145724,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -135152,25 +145744,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2128
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -135181,10 +145778,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -135193,13 +145790,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -135209,8 +145809,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -135255,8 +145856,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 845
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 907
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -135265,27 +145866,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -135299,7 +145898,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -135313,25 +145912,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -135343,10 +145947,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135354,15 +145958,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -135372,7 +145977,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -135418,35 +146024,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 846
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 908
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -135454,13 +146060,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -135474,25 +146080,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -135503,11 +146114,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135515,13 +146126,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -135531,7 +146143,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -135577,37 +146190,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 847
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 909
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -135621,7 +146234,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -135635,25 +146248,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -135665,10 +146283,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135676,15 +146294,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -135694,7 +146313,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -135740,35 +146360,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 848
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG8_16_1_WGM8
+    SolutionIndex: 910
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -135776,16 +146396,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -135796,25 +146416,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2144
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -135825,11 +146450,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135837,15 +146462,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -135855,7 +146479,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -135901,35 +146526,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 849
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 911
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -135937,16 +146564,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -135961,25 +146588,30 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 32
-    LVCA: 2
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 864
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -135987,10 +146619,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135998,13 +146630,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -136014,8 +146647,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -136060,15 +146694,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 850
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 912
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -136081,16 +146715,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -136104,39 +146738,44 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1664
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136149,25 +146788,28 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -136177,7 +146819,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -136207,6 +146850,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -136223,15 +146867,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 851
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 913
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -136243,15 +146887,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -136265,17 +146909,17 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -136283,21 +146927,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1664
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136310,23 +146959,28 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -136336,7 +146990,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -136366,6 +147021,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -136382,15 +147038,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 852
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 914
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -136403,16 +147059,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -136426,8 +147080,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -136444,21 +147098,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1664
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136470,24 +147129,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -136497,7 +147161,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -136527,6 +147192,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -136543,14 +147209,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 853
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG8_16_1_WGM1
+    SolutionIndex: 915
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -136564,16 +147230,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -136587,8 +147251,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -136605,21 +147269,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1664
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136632,23 +147301,28 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -136658,7 +147332,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -136688,6 +147363,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -136704,15 +147380,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 854
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 916
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -136725,12 +147401,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -136750,19 +147424,19 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -136770,20 +147444,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 1536
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -136797,24 +147471,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 96
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -136855,6 +147532,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -136871,8 +147549,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 855
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT6_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 917
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -136881,22 +147559,22 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 32
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -136916,20 +147594,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -136937,20 +147615,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -136964,26 +147642,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -137024,6 +147703,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -137040,8 +147720,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 856
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 918
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -137050,21 +147730,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -137083,7 +147765,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -137111,13 +147793,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -137131,26 +147813,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -137162,7 +147845,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -137191,6 +147874,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -137207,8 +147891,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 857
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 919
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -137217,11 +147901,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -137229,9 +147913,11 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -137249,10 +147935,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -137263,7 +147949,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -137272,50 +147958,49 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -137326,7 +148011,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -137356,6 +148041,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -137372,15 +148058,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 858
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_8_2_WGM8
+    SolutionIndex: 920
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_GSU1_PGR0_PLR1_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -137392,8 +148078,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -137417,20 +148103,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -137438,51 +148124,56 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
-    LVCB: 4
-    LVPA: 8
+    LVCB: 8
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 2
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -137523,6 +148214,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -137539,33 +148231,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 859
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG4_16_4_WGM8
+    SolutionIndex: 921
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x96x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_6_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -137577,7 +148267,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -137597,28 +148287,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -137631,26 +148321,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 2
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -137693,6 +148385,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -137709,8 +148402,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 860
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 922
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x96x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_6_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -137719,21 +148412,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -137754,14 +148447,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -137774,21 +148467,21 @@
     LSCA: 8
     LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 128
     LVCA: 4
-    LVCB: 4
+    LVCB: 2
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3168
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -137801,18 +148494,20 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -137832,7 +148527,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -137861,6 +148556,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -137877,8 +148573,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 861
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 923
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -137887,11 +148583,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -137919,7 +148615,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -137933,7 +148629,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -137948,11 +148644,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2144
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -137965,24 +148665,26 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -137995,7 +148697,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -138025,6 +148727,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -138041,8 +148744,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 862
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA2_LPB2_PGR0_PLR0_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 924
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -138051,19 +148754,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -138083,7 +148786,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -138112,11 +148815,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2176
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -138129,24 +148836,26 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -138159,7 +148868,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -138189,6 +148898,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -138205,8 +148915,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 863
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 925
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -138215,11 +148925,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -138227,7 +148937,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -138248,7 +148958,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -138276,13 +148986,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -138297,22 +149007,26 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -138355,6 +149069,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -138371,8 +149086,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 864
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 926
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -138381,11 +149096,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -138396,8 +149111,6 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -138409,23 +149122,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -138435,20 +149148,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2176
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -138459,24 +149176,26 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -138489,7 +149208,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -138519,6 +149238,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -138535,8 +149255,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 865
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 927
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -138545,11 +149265,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -138557,9 +149277,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -138582,7 +149302,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -138593,7 +149313,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -138602,49 +149322,51 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -138687,6 +149409,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -138703,29 +149426,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 866
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
+    SolutionIndex: 928
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -138741,54 +149464,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 128
+    LVCA: 4
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -138796,25 +149519,25 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -138828,7 +149551,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -138857,6 +149580,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -138873,31 +149597,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 867
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW1_LPA0_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    SolutionIndex: 929
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT4_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -138909,15 +149635,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -138929,60 +149655,60 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 320
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 320
-    LdsOffsetB_Blk: 2368
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -139025,6 +149751,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -139041,31 +149768,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 868
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    SolutionIndex: 930
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -139077,80 +149806,80 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -139193,6 +149922,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -139209,31 +149939,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 869
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_LPA2_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
+    SolutionIndex: 931
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -139245,7 +149977,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -139253,46 +149985,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 8
-    LVCA: 8
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -139300,24 +150032,26 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -139332,7 +150066,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -139361,6 +150095,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -139377,31 +150112,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 870
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM8
+    SolutionIndex: 932
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -139413,14 +150148,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -139433,57 +150168,61 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 4
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -139498,7 +150237,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -139527,6 +150266,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -139543,33 +150283,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 871
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x16_SE_EPS1_FL1_GRVW2_LPA0_LPB0_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
+    SolutionIndex: 933
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -139581,7 +150319,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -139589,8 +150327,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -139607,48 +150345,50 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -139668,7 +150408,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -139697,6 +150437,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -139713,20 +150454,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 872
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_4_4_WGM1
+    SolutionIndex: 934
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -139734,10 +150475,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -139756,7 +150497,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -139769,7 +150510,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -139777,20 +150518,20 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 96
+    LSPA: 128
     LSPB: 64
     LVCA: 2
     LVCB: 4
-    LVPA: 24
+    LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -139804,19 +150545,23 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -139834,7 +150579,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -139863,6 +150608,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -139879,8 +150625,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 873
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT6_4_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 935
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -139889,23 +150635,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -139917,7 +150661,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -139925,7 +150669,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -139943,22 +150687,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
-    LSPB: 128
+    LSPB: 64
     LVCA: 4
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -139971,25 +150715,27 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -140004,7 +150750,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -140033,6 +150779,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -140049,8 +150796,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 874
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 936
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140059,11 +150806,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -140073,7 +150820,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -140092,16 +150839,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -140114,19 +150861,19 @@
     LSCA: 8
     LSCB: 8
     LSPA: 64
-    LSPB: 128
+    LSPB: 64
     LVCA: 4
-    LVCB: 2
+    LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -140140,24 +150887,24 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -140172,7 +150919,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -140201,6 +150948,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -140217,8 +150965,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 875
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 937
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140227,11 +150975,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -140242,6 +150990,8 @@
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -140260,8 +151010,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -140269,7 +151019,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -140281,9 +151031,9 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 128
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
     LVPA: 32
     LVPB: 32
@@ -140315,17 +151065,17 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -140369,6 +151119,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -140385,8 +151136,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 876
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 938
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140410,6 +151161,8 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -140421,23 +151174,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -140447,22 +151200,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -140475,26 +151228,26 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -140537,6 +151290,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -140553,8 +151307,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 877
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 939
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140563,11 +151317,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -140577,7 +151331,9 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -140598,7 +151354,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -140609,7 +151365,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -140618,15 +151374,15 @@
     LSCA: 8
     LSCB: 8
     LSPA: 128
-    LSPB: 128
+    LSPB: 64
     LVCA: 2
-    LVCB: 2
+    LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -140645,17 +151401,19 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -140674,7 +151432,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -140703,6 +151461,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -140719,8 +151478,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 878
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 940
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140729,17 +151488,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -140757,16 +151516,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -140777,24 +151536,24 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -140811,22 +151570,22 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -140844,7 +151603,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -140873,6 +151632,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -140889,8 +151649,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 879
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 941
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140899,21 +151659,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -140987,7 +151749,9 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -141010,7 +151774,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -141039,6 +151803,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -141055,8 +151820,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 880
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 942
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -141077,7 +151842,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -141093,7 +151858,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -141101,8 +151866,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -141119,28 +151884,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 8
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -141148,19 +151913,21 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -141207,6 +151974,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -141223,20 +151991,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 881
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG8_16_2_WGM1
+    SolutionIndex: 943
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -141244,10 +152012,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -141296,13 +152064,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -141316,10 +152084,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141329,14 +152097,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -141350,7 +152118,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -141396,8 +152164,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 882
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 944
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -141406,11 +152174,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -141452,7 +152220,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -141467,13 +152235,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -141487,10 +152255,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141500,14 +152268,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -141521,7 +152289,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -141567,8 +152335,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 883
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 945
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -141577,19 +152345,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -141611,15 +152379,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -141631,20 +152399,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -141658,10 +152426,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141671,14 +152439,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -141692,7 +152460,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -141738,8 +152506,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 884
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 946
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -141748,11 +152516,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -141782,15 +152550,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -141802,20 +152570,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -141829,10 +152597,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141842,14 +152610,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -141909,8 +152677,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 885
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 947
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -141919,11 +152687,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -141931,7 +152699,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -141952,7 +152720,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -141980,13 +152748,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -142000,10 +152768,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142013,12 +152781,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -142078,8 +152848,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 886
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 948
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -142088,11 +152858,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -142100,11 +152870,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -142123,7 +152891,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -142151,13 +152919,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -142171,10 +152939,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142184,12 +152952,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -142249,8 +153019,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 887
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 949
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -142259,11 +153029,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -142271,11 +153041,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -142294,7 +153062,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -142322,13 +153090,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -142342,10 +153110,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142355,12 +153123,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -142420,8 +153190,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 888
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 950
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -142430,11 +153200,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -142445,8 +153215,6 @@
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -142464,21 +153232,21 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -142486,16 +153254,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -142509,10 +153281,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142522,12 +153294,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -142540,8 +153312,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -142587,8 +153359,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 889
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_GSU1_PGR0_PLR1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 951
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -142597,19 +153369,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -142632,7 +153404,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -142660,13 +153432,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -142680,10 +153452,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142693,14 +153465,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 2
-    NumLoadsB: 3
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -142760,8 +153530,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 890
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x96x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_6_VW2_WG16_16_1_WGM1
+    SolutionIndex: 952
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -142770,11 +153540,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -142785,6 +153555,8 @@
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -142803,7 +153575,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -142816,7 +153588,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -142831,13 +153603,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -142851,10 +153623,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142864,14 +153636,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 2
-    NumLoadsB: 3
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -142885,7 +153655,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -142931,8 +153701,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 891
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x96x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_6_VW2_WG16_16_1_WGM8
+    SolutionIndex: 953
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -142941,21 +153711,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -142967,23 +153739,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -142993,22 +153765,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 128
-    LVCA: 4
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -143021,10 +153793,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -143035,14 +153807,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -143056,7 +153826,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -143102,8 +153872,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 892
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 954
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -143112,10 +153882,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -143126,7 +153896,9 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -143145,16 +153917,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -143166,20 +153938,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -143193,9 +153965,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -143206,14 +153978,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -143227,7 +153997,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -143273,8 +154043,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 893
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 955
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -143283,10 +154053,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -143298,6 +154068,8 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -143316,7 +154088,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -143329,7 +154101,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -143344,13 +154116,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -143364,9 +154136,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -143377,13 +154149,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -143398,7 +154168,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -143444,8 +154214,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 894
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 956
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -143454,21 +154224,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -143487,7 +154259,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -143515,13 +154287,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -143535,9 +154307,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -143548,13 +154320,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -143569,7 +154339,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -143615,8 +154385,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 895
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 957
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -143625,10 +154395,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -143640,6 +154410,8 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -143651,7 +154423,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -143659,15 +154431,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -143677,22 +154449,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -143705,10 +154477,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -143719,11 +154491,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -143784,8 +154556,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 896
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 958
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -143794,10 +154566,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -143808,7 +154580,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -143842,7 +154614,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -143857,13 +154629,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -143877,9 +154649,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -143890,11 +154662,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -143955,8 +154727,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 897
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW2_WG16_16_1_WGM8
+    SolutionIndex: 959
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -143965,17 +154737,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -143993,14 +154765,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -144019,16 +154791,16 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 128
-    LVCA: 4
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
@@ -144040,7 +154812,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -144048,10 +154820,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -144061,8 +154833,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -144080,7 +154854,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -144126,33 +154900,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 898
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT4_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 960
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -144171,8 +154943,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -144192,37 +154964,37 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 32
     LSPB: 64
-    LVCA: 4
+    LVCA: 8
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -144232,12 +155004,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -144297,33 +155071,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 899
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 961
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -144342,9 +155114,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -144355,7 +155127,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -144364,36 +155136,36 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -144403,12 +155175,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -144468,33 +155242,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 900
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 962
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -144541,13 +155313,13 @@
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -144561,9 +155333,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -144574,13 +155346,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -144631,6 +155403,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -144641,8 +155414,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 901
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 963
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR0_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -144651,10 +155424,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -144663,7 +155436,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -144712,13 +155485,13 @@
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -144732,9 +155505,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -144745,13 +155518,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -144766,7 +155539,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -144802,6 +155575,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -144812,8 +155586,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 902
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 964
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -144822,10 +155596,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -144834,7 +155608,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -144856,7 +155630,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -144864,11 +155638,11 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -144876,20 +155650,20 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 128
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -144903,9 +155677,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -144916,8 +155690,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -144937,7 +155711,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -144973,6 +155747,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -144983,8 +155758,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 903
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 965
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -144993,17 +155768,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -145027,7 +155802,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -145047,20 +155822,20 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 128
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -145074,9 +155849,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145087,8 +155862,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -145108,7 +155883,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -145144,6 +155919,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -145154,8 +155930,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 904
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 966
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -145164,10 +155940,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -145176,7 +155952,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -145190,7 +155966,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -145198,8 +155974,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -145216,22 +155992,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -145244,10 +156020,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145258,13 +156034,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -145315,6 +156091,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -145325,8 +156102,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 905
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 967
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -145335,10 +156112,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -145347,9 +156124,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -145361,23 +156138,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -145387,22 +156164,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -145415,10 +156188,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145429,11 +156202,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -145447,8 +156222,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -145484,6 +156259,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -145494,8 +156270,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 906
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 968
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_GSU1_LPA0_LPB0_PGR0_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -145504,10 +156280,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -145518,9 +156294,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -145532,23 +156306,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -145558,18 +156332,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -145586,10 +156360,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145600,11 +156374,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -145619,7 +156395,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -145655,6 +156431,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -145665,8 +156442,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 907
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 969
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -145675,10 +156452,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -145687,11 +156464,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -145703,23 +156478,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -145729,18 +156504,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -145757,10 +156532,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145771,11 +156546,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -145826,6 +156603,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -145836,8 +156614,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 908
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 970
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -145846,10 +156624,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -145858,11 +156636,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -145882,7 +156658,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -145890,11 +156666,11 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -145902,20 +156678,20 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 128
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -145929,9 +156705,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145942,8 +156718,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -145997,6 +156773,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -146007,8 +156784,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 909
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 971
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR0_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -146017,17 +156794,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -146053,7 +156830,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -146061,11 +156838,11 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -146073,20 +156850,20 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 128
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -146100,9 +156877,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -146113,8 +156890,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -146132,7 +156909,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -146168,6 +156945,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -146178,8 +156956,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 910
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 972
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -146188,19 +156966,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -146222,9 +157000,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -146232,7 +157010,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -146244,20 +157022,16 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 128
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -146271,9 +157045,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -146284,8 +157058,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -146302,8 +157076,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -146339,6 +157113,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -146349,8 +157124,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 911
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 973
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS0_FL1_GRVW2_GSU1_LPA0_LPB0_PGR0_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -146359,10 +157134,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -146387,7 +157162,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -146396,7 +157171,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -146413,18 +157188,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -146441,10 +157216,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -146455,8 +157230,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -146474,7 +157249,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -146510,6 +157285,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -146520,8 +157296,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 912
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 974
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR0_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -146530,10 +157306,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -146544,7 +157320,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -146558,14 +157334,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -146574,32 +157350,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -146612,11 +157388,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -146626,14 +157402,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -146647,7 +157421,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -146683,6 +157457,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -146693,8 +157468,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 913
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 975
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -146703,21 +157478,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -146729,14 +157506,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -146745,32 +157522,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -146783,11 +157560,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -146797,14 +157574,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -146818,7 +157593,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -146854,6 +157629,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -146864,8 +157640,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 914
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM8
+    SolutionIndex: 976
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -146874,21 +157650,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -146906,17 +157684,17 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -146928,20 +157706,16 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -146955,10 +157729,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -146968,14 +157742,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -146988,8 +157760,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -147025,6 +157797,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -147035,8 +157808,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 915
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 977
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_GSU1_LPA0_LPB0_PGR0_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147045,11 +157818,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -147057,9 +157830,11 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -147071,15 +157846,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -147087,32 +157862,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 96
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 24
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -147125,11 +157900,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -147139,14 +157914,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -147196,6 +157969,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -147206,8 +157980,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 916
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 978
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT6_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147216,21 +157990,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -147242,15 +158018,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -147258,32 +158034,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 96
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 24
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -147296,11 +158072,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -147310,14 +158086,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -147367,6 +158141,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -147377,8 +158152,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 917
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 979
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT6_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147387,21 +158162,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -147413,7 +158190,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -147421,40 +158198,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -147467,10 +158244,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -147481,13 +158258,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -147538,6 +158315,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -147548,8 +158326,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 918
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 980
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147558,21 +158336,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -147584,7 +158362,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -147592,7 +158370,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -147604,28 +158382,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 128
     LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -147638,10 +158416,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -147652,14 +158430,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -147709,6 +158487,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -147719,8 +158498,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 919
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 981
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147729,21 +158508,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -147755,48 +158534,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 128
+    LVCA: 4
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -147809,10 +158588,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -147823,12 +158602,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -147842,7 +158623,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -147878,6 +158659,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -147888,8 +158670,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 920
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 982
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147898,23 +158680,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -147926,48 +158706,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 128
+    LVCA: 4
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -147980,10 +158760,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -147994,12 +158774,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -148049,6 +158831,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -148059,8 +158842,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 921
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 983
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148069,23 +158852,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -148097,7 +158878,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -148123,22 +158904,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -148151,10 +158932,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -148165,12 +158946,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -148184,7 +158965,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -148220,6 +159001,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -148230,8 +159012,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 922
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 984
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148240,10 +159022,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -148252,9 +159034,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -148268,15 +159050,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -148284,7 +159066,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -148294,22 +159076,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -148322,11 +159104,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148336,12 +159118,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -148355,7 +159139,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -148391,6 +159175,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -148401,8 +159186,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 923
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 985
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR0_TT8_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148411,11 +159196,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -148423,11 +159208,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -148439,15 +159222,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -148455,7 +159238,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -148465,22 +159248,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -148493,11 +159276,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148507,12 +159290,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -148562,6 +159347,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -148572,8 +159358,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 924
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 986
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148582,11 +159368,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -148594,11 +159380,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -148610,7 +159394,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -148618,40 +159402,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -148664,11 +159448,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148678,12 +159462,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -148697,7 +159481,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -148733,6 +159517,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -148743,8 +159528,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 925
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 987
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148753,21 +159538,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -148781,16 +159566,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -148807,22 +159592,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -148835,11 +159616,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148849,12 +159630,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -148867,8 +159648,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -148904,6 +159685,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -148914,8 +159696,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 926
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 988
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS0_FL1_GRVW4_GSU1_LPA0_LPB0_PGR0_PLR1_TT8_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148924,11 +159706,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -148938,7 +159720,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -148987,9 +159769,9 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -149008,9 +159790,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -149020,12 +159802,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -149075,6 +159857,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -149085,8 +159868,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 927
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 989
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -149095,11 +159878,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -149123,7 +159906,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -149149,22 +159932,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -149177,7 +159960,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
     MacroTile1: 128
     MacroTileA: 128
@@ -149195,8 +159978,8 @@
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -149210,7 +159993,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -149246,6 +160029,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -149256,8 +160040,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 928
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 990
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR0_TT8_8_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -149280,7 +160064,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -149294,15 +160078,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -149320,28 +160104,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 64
-    LVCA: 8
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -149349,10 +160133,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -149362,10 +160146,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -149419,6 +160201,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -149429,31 +160212,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 929
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG8_16_2_WGM1
+    SolutionIndex: 991
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_8_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -149472,8 +160257,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -149482,10 +160267,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -149493,36 +160278,36 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 64
-    LVCA: 8
+    LVCA: 4
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -149533,10 +160318,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -149590,6 +160373,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -149600,14 +160384,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 930
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG8_16_2_WGM8
+    SolutionIndex: 992
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -149620,11 +160404,13 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -149636,7 +160422,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -149644,15 +160430,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -149662,22 +160448,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
     LSPB: 32
-    LVCA: 4
+    LVCA: 8
     LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -149690,10 +160476,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -149704,8 +160490,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -149761,6 +160547,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -149771,31 +160558,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 931
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_8_2_WGM8
+    SolutionIndex: 993
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -149815,7 +160602,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -149835,36 +160622,36 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 64
+    LSPA: 32
     LSPB: 64
-    LVCA: 4
+    LVCA: 8
     LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -149875,8 +160662,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -149896,7 +160683,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -149943,14 +160730,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 932
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR0_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 994
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -149964,8 +160751,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -149987,7 +160774,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -149995,7 +160782,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -150007,36 +160794,36 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 64
+    LSPA: 32
     LSPB: 64
-    LVCA: 4
+    LVCA: 8
     LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -150047,8 +160834,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -150115,14 +160902,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 933
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 995
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -150136,7 +160923,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -150151,7 +160938,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -150160,14 +160947,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -150177,28 +160964,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
     LSPB: 64
-    LVCA: 4
+    LVCA: 8
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -150206,9 +160993,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -150219,8 +161006,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -150287,14 +161074,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 934
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 996
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -150308,10 +161095,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150330,7 +161117,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -150339,7 +161126,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -150351,36 +161138,36 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 64
+    LSPA: 32
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 32
+    LVPA: 16
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -150391,10 +161178,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -150459,14 +161244,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 935
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 997
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -150480,10 +161265,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150502,7 +161289,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -150511,7 +161298,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -150523,36 +161310,36 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 64
+    LSPA: 32
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 32
+    LVPA: 16
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -150563,10 +161350,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -150631,14 +161416,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 936
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 998
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -150652,10 +161437,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150667,61 +161454,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150731,8 +161522,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -150751,7 +161542,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -150799,31 +161590,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 937
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_GSU1_LPA0_LPB0_PGR0_PLR1_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 999
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_FL0_GRVW1_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150835,7 +161626,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -150843,15 +161634,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -150861,39 +161652,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150903,8 +161694,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -150971,15 +161762,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 938
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 1000
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -150992,10 +161783,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -151007,7 +161798,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -151015,15 +161806,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -151033,39 +161824,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151075,8 +161866,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -151143,15 +161934,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 939
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 1001
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -151164,10 +161955,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -151179,15 +161970,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -151195,38 +161986,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -151235,9 +162026,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151247,8 +162038,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -151266,7 +162059,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -151313,15 +162106,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 940
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR0_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 1002
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -151333,13 +162126,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -151358,16 +162149,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -151380,15 +162171,15 @@
     LSCA: 8
     LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -151398,18 +162189,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151419,8 +162210,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -151485,15 +162278,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 941
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 1003
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -151506,12 +162299,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -151529,7 +162320,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -151552,32 +162343,36 @@
     LSCA: 8
     LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
     LVCB: 4
     LVPA: 32
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151587,8 +162382,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -151605,7 +162400,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -151653,15 +162448,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 942
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS0_FL1_GRVW2_GSU1_LPA0_LPB0_PGR0_PLR1_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 1004
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -151674,8 +162469,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -151691,7 +162486,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -151699,15 +162494,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -151717,39 +162512,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
+    LVPA: 32
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151759,8 +162554,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -151778,7 +162573,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -151825,15 +162620,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 943
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR0_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 1005
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -151846,10 +162641,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -151863,7 +162658,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -151871,7 +162666,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -151880,37 +162675,37 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -151919,9 +162714,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151931,7 +162726,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -151997,15 +162792,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 944
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 1006
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -152017,11 +162812,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -152035,7 +162830,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -152043,7 +162838,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -152061,28 +162856,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -152091,9 +162886,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152103,8 +162898,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -152169,15 +162964,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 945
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 1007
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -152190,10 +162985,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -152213,21 +163008,21 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -152235,33 +163030,37 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 1152
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152271,8 +163070,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -152289,7 +163088,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -152337,29 +163136,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 946
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_GSU1_LPA0_LPB0_PGR0_PLR1_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 1008
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x16_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -152375,7 +163174,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -152383,7 +163182,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -152395,45 +163194,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 96
-    LSPB: 64
-    LVCA: 2
-    LVCB: 4
-    LVPA: 24
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 128
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 1152
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152443,8 +163242,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -152509,31 +163308,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 947
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT6_4_WG16_16_1_WGM1
+    SolutionIndex: 1009
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -152547,7 +163346,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -152555,7 +163354,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -152567,45 +163366,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 96
-    LSPB: 64
-    LVCA: 2
-    LVCB: 4
-    LVPA: 24
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 128
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 1152
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152615,8 +163414,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -152681,31 +163480,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 948
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT6_4_WG16_16_1_WGM8
+    SolutionIndex: 1010
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -152719,7 +163518,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -152727,7 +163526,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -152739,45 +163538,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152787,14 +163586,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -152855,31 +163654,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 949
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
+    SolutionIndex: 1011
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -152891,7 +163690,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -152899,8 +163698,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -152917,39 +163716,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 128
-    LVCA: 4
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152959,8 +163758,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -153027,31 +163826,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 950
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
+    SolutionIndex: 1012
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153063,14 +163862,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -153083,45 +163882,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 128
-    LVCA: 4
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 128
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 2176
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 64
+    MacroTileA: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -153131,10 +163930,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -153199,31 +163996,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 951
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
+    SolutionIndex: 1013
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153235,7 +164034,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -153243,7 +164042,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -153255,45 +164054,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 128
-    LVCA: 4
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -153303,8 +164102,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -153371,31 +164170,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 952
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM8
+    SolutionIndex: 1014
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153407,65 +164206,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 4
+    LVCA: 16
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -153475,12 +164274,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -153541,33 +164342,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 953
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
+    SolutionIndex: 1015
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153579,7 +164378,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -153587,8 +164386,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -153605,38 +164404,38 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 2
+    LVCA: 16
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -153647,8 +164446,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -153668,7 +164467,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -153715,20 +164514,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 954
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR0_TT8_4_WG16_16_1_WGM8
+    SolutionIndex: 1016
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -153736,10 +164535,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153751,7 +164550,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -153759,8 +164558,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -153777,38 +164576,38 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 2
+    LVCA: 16
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -153819,8 +164618,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -153887,20 +164686,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 955
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_4_WG16_16_1_WGM1
+    SolutionIndex: 1017
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -153908,10 +164707,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153923,24 +164722,24 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -153949,38 +164748,38 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 4
+    LVCA: 16
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -153991,11 +164790,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -154057,20 +164858,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 956
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_4_WG16_16_1_WGM1
+    SolutionIndex: 1018
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -154078,12 +164879,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -154095,61 +164894,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 64
-    LVCA: 2
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154159,8 +164962,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -154177,7 +164982,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -154225,33 +165030,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 957
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS0_FL1_GRVW4_GSU1_LPA0_LPB0_PGR0_PLR1_TT8_4_WG16_16_1_WGM8
+    SolutionIndex: 1019
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -154270,20 +165073,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -154291,37 +165094,37 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154331,11 +165134,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -154397,33 +165202,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 958
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_4_WG16_16_1_WGM1
+    SolutionIndex: 1020
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -154435,16 +165238,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -154455,45 +165258,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 128
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154503,8 +165306,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -154522,7 +165327,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -154569,33 +165374,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 959
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR0_TT8_8_WG16_16_1_WGM8
+    SolutionIndex: 1021
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -154607,7 +165410,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -154615,8 +165418,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -154627,45 +165430,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 128
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154675,8 +165478,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -154741,31 +165544,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 960
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_8_WG16_16_1_WGM8
+    SolutionIndex: 1022
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -154786,9 +165589,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -154796,7 +165599,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -154808,15 +165611,15 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 16
     LVCA: 4
-    LVCB: 4
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -154826,18 +165629,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154847,8 +165650,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -154913,15 +165718,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 961
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 1023
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -154934,12 +165739,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -154951,7 +165754,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -154959,7 +165762,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -154967,7 +165770,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -154977,28 +165780,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -155006,10 +165809,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155087,31 +165890,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 962
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_2_WG8_16_2_WGM8
+    SolutionIndex: 1024
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155123,7 +165926,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -155131,46 +165934,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 64
-    LVCA: 8
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -155178,10 +165981,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155191,7 +165994,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
@@ -155259,15 +166062,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 963
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
+    SolutionIndex: 1025
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -155279,11 +166082,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155295,7 +166098,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -155303,8 +166106,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -155321,28 +166124,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 64
-    LVCA: 8
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -155350,10 +166153,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155363,8 +166166,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -155431,15 +166234,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 964
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
+    SolutionIndex: 1026
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -155452,10 +166255,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155475,8 +166278,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -155495,37 +166298,37 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 64
-    LVCA: 8
-    LVCB: 4
+    LSPA: 64
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155535,8 +166338,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -155603,15 +166406,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 965
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
+    SolutionIndex: 1027
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -155624,8 +166427,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -155655,7 +166458,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -155667,37 +166470,37 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 32
-    LSPB: 64
+    LSPA: 64
+    LSPB: 16
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 32
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155707,8 +166510,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -155773,15 +166576,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 966
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
+    SolutionIndex: 1028
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -155794,8 +166597,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -155811,14 +166614,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -155837,38 +166640,38 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -155879,12 +166682,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -155945,14 +166750,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 967
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM8
+    SolutionIndex: 1029
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW2_GSU1_LPA4_LPB4_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -155966,12 +166771,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155990,20 +166793,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -156011,37 +166814,37 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3168
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156051,10 +166854,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -156072,7 +166873,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -156119,31 +166920,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 968
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_FL0_GRVW1_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_8_2_WGM1
+    SolutionIndex: 1030
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA4_LPB4_PGR1_PLR0_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156155,61 +166958,61 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 4
+    LVCA: 8
     LVCB: 8
-    LVPA: 32
-    LVPB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 32
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -156224,12 +167027,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -156291,31 +167092,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 969
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
+    SolutionIndex: 1031
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT4_2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156327,7 +167130,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -156336,56 +167139,56 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156396,7 +167199,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -156463,31 +167266,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 970
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM8
+    SolutionIndex: 1032
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156506,9 +167309,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -156516,7 +167319,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -156527,37 +167330,37 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156569,8 +167372,6 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -156635,20 +167436,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 971
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM8
+    SolutionIndex: 1033
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -156656,10 +167457,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156671,7 +167474,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -156679,8 +167482,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -156691,45 +167494,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
-    LVPA: 32
-    LVPB: 32
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156739,14 +167542,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -156807,31 +167610,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 972
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
+    SolutionIndex: 1034
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156850,16 +167653,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -156872,36 +167675,36 @@
     LSCA: 8
     LSCB: 8
     LSPA: 64
-    LSPB: 32
+    LSPB: 128
     LVCA: 4
-    LVCB: 4
+    LVCB: 2
     LVPA: 32
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 4
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156911,8 +167714,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -156977,33 +167782,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 973
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
+    SolutionIndex: 1035
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA4_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -157015,65 +167818,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 32
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -157083,11 +167886,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -157149,33 +167954,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 974
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM8
+    SolutionIndex: 1036
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT8_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -157194,20 +167997,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -157215,33 +168018,33 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -157255,13 +168058,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -157321,8 +168126,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 975
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
+    SolutionIndex: 1037
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_GSU1_LPA4_LPB4_PGR1_PLR1_TT4_4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -157341,13 +168146,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -157366,16 +168169,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -157387,33 +168190,33 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -157427,13 +168230,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -157493,8 +168298,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 976
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
+    SolutionIndex: 1038
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_GSU1_LPA4_LPB4_PGR1_PLR1_TT4_4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -157514,12 +168319,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -157538,20 +168341,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -157560,35 +168363,35 @@
     LSCA: 16
     LSCB: 16
     LSPA: 8
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3168
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 1152
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 8
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -157599,13 +168402,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -157665,33 +168470,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 977
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x16_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
+    SolutionIndex: 1039
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS1_FL0_GRVW1_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -157703,16 +168506,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -157723,44 +168526,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
-    LSPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 8
     LVCB: 8
     LVPA: 4
-    LVPB: 16
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 1152
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
+    LoopUnroll: 32
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 8
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -157771,13 +168574,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -157837,33 +168642,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 978
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
+    SolutionIndex: 1040
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -157875,15 +168678,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -157891,7 +168694,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -157901,24 +168704,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 8
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 1152
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -157929,7 +168732,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 8
     MacroTile1: 32
     MacroTileA: 8
@@ -157945,10 +168748,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -158009,8 +168814,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 979
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
+    SolutionIndex: 1041
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -158033,9 +168838,7 @@
     WorkGroup: [4, 16, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -158047,7 +168850,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -158067,30 +168870,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -158101,10 +168904,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -158115,14 +168918,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -158183,8 +168986,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 980
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_2_WG4_16_4_WGM1
+    SolutionIndex: 1042
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -158193,10 +168996,10 @@
     SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -158205,9 +169008,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -158219,7 +169022,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -158235,34 +169038,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -158273,10 +169076,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -158287,14 +169090,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -158355,8 +169158,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 981
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_2_WG4_16_4_WGM1
+    SolutionIndex: 1043
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -158365,10 +169168,10 @@
     SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -158379,7 +169182,7 @@
     WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -158391,15 +169194,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -158411,30 +169214,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 8
-    LSPB: 64
-    LVCA: 8
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3200
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 2176
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -158445,11 +169248,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 8
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 8
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158459,8 +169262,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -158525,8 +169330,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 982
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG4_16_4_WGM1
+    SolutionIndex: 1044
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -158535,11 +169340,11 @@
     SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -158549,9 +169354,7 @@
     WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -158563,7 +169366,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -158583,30 +169386,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -158617,11 +169420,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158631,8 +169434,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -158699,8 +169502,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 983
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM1
+    SolutionIndex: 1045
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -158709,11 +169512,11 @@
     SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -158721,9 +169524,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -158735,7 +169538,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -158743,16 +169546,16 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -158761,24 +169564,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 64
+    LSPB: 16
     LVCA: 16
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -158789,11 +169592,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 16
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158803,14 +169606,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -158824,7 +169627,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -158871,8 +169674,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 984
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM8
+    SolutionIndex: 1046
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR0_TT4_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -158881,11 +169684,11 @@
     SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -158893,9 +169696,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -158907,7 +169710,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -158916,41 +169719,41 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -158961,11 +169764,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158975,13 +169778,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -159043,31 +169846,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 985
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM1
+    SolutionIndex: 1047
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW1_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -159079,7 +169882,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -159087,41 +169890,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 64
+    LSPB: 8
     LVCA: 16
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -159133,11 +169936,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159147,13 +169950,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -159215,31 +170018,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 986
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM8
+    SolutionIndex: 1048
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPA2_LPB0_PGR1_PLR1_TT2_2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -159251,7 +170054,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -159259,42 +170062,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 64
+    LSPB: 8
     LVCA: 16
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159305,11 +170108,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159319,13 +170122,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -159387,31 +170190,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 987
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM1
+    SolutionIndex: 1049
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -159423,7 +170226,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -159431,7 +170234,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -159439,34 +170242,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 8
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159477,11 +170280,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 8
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159491,7 +170294,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -159559,8 +170362,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 988
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM1
+    SolutionIndex: 1050
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -159569,11 +170372,11 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -159583,7 +170386,7 @@
     WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -159595,7 +170398,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -159603,7 +170406,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -159611,34 +170414,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 8
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159649,11 +170452,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 8
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159663,7 +170466,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -159731,8 +170534,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 989
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM8
+    SolutionIndex: 1051
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -159741,11 +170544,11 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -159755,7 +170558,7 @@
     WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -159767,7 +170570,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -159775,7 +170578,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -159783,8 +170586,8 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -159793,24 +170596,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159821,7 +170624,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -159837,12 +170640,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -159903,8 +170706,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 990
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM1
+    SolutionIndex: 1052
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW1_GSU8_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -159927,7 +170730,7 @@
     WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -159939,7 +170742,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -159955,8 +170758,8 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -159965,24 +170768,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159993,7 +170796,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -160011,7 +170814,7 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -160073,8 +170876,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 991
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM8
+    SolutionIndex: 1053
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -160097,7 +170900,7 @@
     WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -160111,7 +170914,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -160119,16 +170922,16 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -160137,24 +170940,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 4
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -160165,7 +170968,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 16
     MacroTileA: 64
@@ -160181,11 +170984,11 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -160247,8 +171050,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 992
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
+    SolutionIndex: 1054
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -160271,7 +171074,7 @@
     WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -160283,7 +171086,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -160292,7 +171095,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -160300,7 +171103,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -160309,24 +171112,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
     LSPB: 16
-    LVCA: 4
+    LVCA: 8
     LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -160337,7 +171140,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 16
     MacroTileA: 64
@@ -160353,11 +171156,11 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -160419,8 +171222,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 993
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
+    SolutionIndex: 1055
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW4_GSU8_LPA2_LPB2_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -160443,7 +171246,7 @@
     WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -160455,16 +171258,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -160481,24 +171284,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
     LSPB: 16
-    LVCA: 4
+    LVCA: 8
     LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -160509,7 +171312,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 16
     MacroTileA: 64
@@ -160525,11 +171328,9 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -160591,8 +171392,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 994
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
+    SolutionIndex: 1056
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU8_LPA2_LPB2_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -160613,9 +171414,11 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -160627,7 +171430,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -160635,8 +171438,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -160644,33 +171447,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 16
-    LVCA: 4
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -160681,11 +171484,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -160695,7 +171498,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -160763,31 +171566,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 995
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
+    SolutionIndex: 1057
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU4_LPA0_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -160808,7 +171611,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -160828,15 +171631,15 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 16
+    LSPB: 32
     LVCA: 4
-    LVCB: 16
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -160846,18 +171649,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -160867,8 +171670,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -160931,19 +171734,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 996
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
+    SolutionIndex: 1058
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -160956,7 +171761,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -160971,16 +171776,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -160997,22 +171802,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 16
-    LVCA: 4
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
     LVCB: 4
-    LVPA: 32
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -161025,11 +171830,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -161041,6 +171846,8 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -161101,19 +171908,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 997
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
+    SolutionIndex: 1059
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -161126,12 +171935,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -161151,15 +171958,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -161171,36 +171978,36 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6272
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -161211,14 +172018,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -161275,18 +172082,20 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 998
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW2_GSU1_LPA4_LPB4_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 1060
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -161300,8 +172109,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -161315,7 +172124,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -161335,30 +172144,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3168
+    LdsNumElements: 3680
     LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 576
     LdsOffsetB_Blk: 2624
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -161369,10 +172178,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -161383,12 +172192,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -161402,7 +172211,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -161445,12 +172254,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 999
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA4_LPB4_PGR1_PLR0_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 1061
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -161459,21 +172270,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -161523,12 +172334,12 @@
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
@@ -161542,10 +172353,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -161559,8 +172370,8 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -161617,12 +172428,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1000
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT4_2_WG16_16_1_WGM8
+    SolutionIndex: 1062
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -161631,11 +172444,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -161667,7 +172480,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -161687,20 +172500,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 64
-    LVCA: 8
+    LVCA: 4
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3680
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
@@ -161714,10 +172527,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -161727,14 +172540,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -161791,12 +172604,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1001
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_16_1_WGM8
+    SolutionIndex: 1063
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -161805,11 +172620,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -161837,9 +172652,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -161851,7 +172666,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -161859,22 +172674,18 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 64
-    LVCA: 8
+    LVCA: 4
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3680
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3200
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 2112
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -161886,9 +172697,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -161899,11 +172710,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -161917,7 +172730,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -161961,12 +172774,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1002
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_16_1_WGM8
+    SolutionIndex: 1064
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -161975,23 +172790,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -162010,7 +172823,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -162039,12 +172852,12 @@
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
@@ -162058,10 +172871,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162073,12 +172886,10 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -162135,12 +172946,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1003
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
+    SolutionIndex: 1065
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT8_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -162149,11 +172962,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -162161,9 +172974,11 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -162175,15 +172990,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -162201,24 +173016,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
-    LSPB: 128
+    LSPB: 64
     LVCA: 4
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
     LdsPadA: 4
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -162229,11 +173044,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162245,11 +173060,9 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -162307,12 +173120,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1004
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA4_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
+    SolutionIndex: 1066
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA4_LPB4_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -162321,11 +173136,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -162335,7 +173150,9 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -162355,19 +173172,19 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -162375,22 +173192,22 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -162402,10 +173219,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162415,15 +173232,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -162479,33 +173296,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1005
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT8_4_WG16_16_1_WGM8
+    SolutionIndex: 1067
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -162651,12 +173470,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1006
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_GSU1_LPA4_LPB4_PGR1_PLR1_TT4_4_WG16_8_1_WGM1
+    SolutionIndex: 1068
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -162677,7 +173498,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -162714,25 +173535,26 @@
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3712
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetB_Blk: 5184
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -162747,9 +173569,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162761,19 +173583,21 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 8
+    NumLoadsA: 4
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -162823,19 +173647,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1007
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_GSU1_LPA4_LPB4_PGR1_PLR1_TT4_4_WG16_8_1_WGM8
+    SolutionIndex: 1069
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -162848,8 +173674,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -162871,42 +173697,43 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3168
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -162918,10 +173745,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162931,21 +173758,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -162995,32 +173824,34 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1008
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS1_FL0_GRVW1_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_8_1_WGM1
+    SolutionIndex: 1070
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -163035,42 +173866,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6272
+    LdsNumElements: 6240
     LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
@@ -163089,11 +173921,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -163103,21 +173935,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -163167,24 +173999,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1009
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_8_1_WGM1
+    SolutionIndex: 1071
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -163192,10 +174026,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -163207,15 +174043,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -163227,45 +174063,46 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -163275,21 +174112,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -163339,35 +174176,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1010
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
+    SolutionIndex: 1072
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -163379,15 +174220,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -163399,45 +174240,46 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 320
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 320
-    LdsOffsetB_Blk: 2368
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -163447,21 +174289,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -163511,35 +174353,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1011
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
+    SolutionIndex: 1073
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -163559,56 +174405,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 320
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 320
-    LdsOffsetB_Blk: 2368
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 8
+    LoopUnroll: 32
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 8
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -163619,21 +174466,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -163683,24 +174532,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1012
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
+    SolutionIndex: 1074
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -163708,8 +174559,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
   - AggressivePerfMode: 1
@@ -163730,8 +174581,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -163743,44 +174594,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 8
+    LSPA: 32
     LSPB: 32
-    LVCA: 32
+    LVCA: 8
     LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 320
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 320
-    LdsOffsetB_Blk: 2368
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 8
+    LoopUnroll: 32
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 8
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -163791,21 +174643,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -163855,24 +174707,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1013
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
+    SolutionIndex: 1075
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -163880,10 +174734,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -163895,7 +174751,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -163903,7 +174759,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -163915,45 +174771,46 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 320
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 320
-    LdsOffsetB_Blk: 2368
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -163963,8 +174820,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -163976,8 +174833,10 @@
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -164027,35 +174886,37 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1014
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
+    SolutionIndex: 1076
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -164067,42 +174928,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3712
+    LdsNumElements: 3680
     LdsNumElementsAlignedA: 576
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
@@ -164114,18 +174976,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164135,28 +174997,28 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -164199,35 +175061,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1015
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR0_TT4_2_WG4_16_4_WGM1
+    SolutionIndex: 1077
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -164246,58 +175112,59 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3456
+    LdsNumElements: 7296
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetB_Blk: 5184
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 32
     MacroTile0: 32
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 32
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164307,21 +175174,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -164371,35 +175238,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1016
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW1_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM1
+    SolutionIndex: 1078
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -164418,58 +175289,59 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
+    LdsNumElements: 7296
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetB_Blk: 5184
     LdsPadA: 2
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 32
     MacroTile0: 32
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 32
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164479,21 +175351,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -164543,35 +175415,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1017
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPA2_LPB0_PGR1_PLR1_TT2_2_WG16_4_4_WGM8
+    SolutionIndex: 1079
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -164583,7 +175459,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -164592,7 +175468,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -164603,45 +175479,46 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3456
+    LdsNumElements: 7296
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164651,21 +175528,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -164715,35 +175594,37 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1018
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM8
+    SolutionIndex: 1080
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -164755,65 +175636,66 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
-    LSPB: 8
+    LSPB: 32
     LVCA: 8
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3456
+    LdsNumElements: 7264
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetB_Blk: 5184
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164823,28 +175705,28 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -164887,35 +175769,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1019
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM1
+    SolutionIndex: 1081
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR0_TT4_8_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -164927,65 +175813,66 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
-    LSPB: 8
+    LSPB: 32
     LVCA: 8
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3456
+    LdsNumElements: 7232
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164995,21 +175882,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -165059,35 +175946,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1020
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM8
+    SolutionIndex: 1082
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA4_LPB0_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -165099,65 +175990,66 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3712
+    LdsNumElements: 7264
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetB_Blk: 5184
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165167,21 +176059,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -165231,35 +176123,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1021
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW1_GSU8_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_4_4_WGM1
+    SolutionIndex: 1083
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -165271,65 +176167,62 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 16
     LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3712
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3200
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 2112
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165339,25 +176232,29 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -165401,37 +176298,37 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1022
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_4_4_WGM8
+    SolutionIndex: 1084
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW1_LPA4_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -165443,7 +176340,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -165451,36 +176348,37 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6784
+    LdsNumElements: 7264
     LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2112
@@ -165490,18 +176388,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165511,21 +176409,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -165575,24 +176475,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1023
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
+    SolutionIndex: 1085
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT8_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -165600,10 +176502,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -165615,16 +176517,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -165632,48 +176534,45 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3200
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165683,8 +176582,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -165696,14 +176595,16 @@
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -165747,35 +176648,37 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1024
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW4_GSU8_LPA2_LPB2_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
+    SolutionIndex: 1086
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -165787,7 +176690,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -165795,7 +176698,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -165803,38 +176706,39 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -165842,10 +176746,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165855,8 +176759,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -165866,15 +176770,17 @@
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -165917,35 +176823,37 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1025
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU8_LPA2_LPB2_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
+    SolutionIndex: 1087
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_LPA4_LPB0_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -165959,65 +176867,66 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
     LSPB: 32
-    LVCA: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166027,21 +176936,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -166091,35 +177000,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1026
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU4_LPA0_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
+    SolutionIndex: 1088
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -166138,9 +177051,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -166151,45 +177064,46 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166199,21 +177113,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -166269,31 +177183,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1027
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM8
+    SolutionIndex: 1089
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT8_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -166312,8 +177228,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -166328,41 +177244,42 @@
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
+    LSPA: 64
     LSPB: 64
-    LVCA: 16
+    LVCA: 4
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 16
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -166373,21 +177290,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -166443,20 +177360,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1028
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG4_16_4_WGM1
+    SolutionIndex: 1090
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA4_LPB4_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -166464,10 +177381,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -166488,56 +177407,57 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 64
+    LSPA: 8
+    LSPB: 8
     LVCA: 16
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166547,21 +177467,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -166617,15 +177539,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1029
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG4_16_4_WGM8
+    SolutionIndex: 1091
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -166638,8 +177560,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -166653,14 +177575,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -166676,25 +177598,22 @@
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3680
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
+    LdsOffsetB: 1088
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
@@ -166707,11 +177626,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166723,24 +177642,28 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -166789,15 +177712,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1030
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1092
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS0_FL0_GRVW2_LPA2_LPB2_PGR0_PLR0_TT2_4_USFGRO1_VW2_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [2, 4]
     ThreadTile0: 2
@@ -166810,12 +177733,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -166833,8 +177754,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -166850,25 +177771,22 @@
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
@@ -166883,9 +177801,9 @@
     LoopTail: true
     LoopUnroll: 32
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166897,23 +177815,27 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -166963,15 +177885,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1031
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1093
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS0_FL0_GRVW4_LPA2_LPB2_PGR0_PLR1_TT2_4_USFGRO1_VW2_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [2, 4]
     ThreadTile0: 2
@@ -166984,12 +177906,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -167001,7 +177921,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -167024,21 +177944,22 @@
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7264
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
@@ -167055,11 +177976,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -167069,21 +177990,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -167139,31 +178062,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1032
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1094
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -167175,14 +178098,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -167195,26 +178118,31 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3200
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 2112
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -167225,11 +178153,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -167239,27 +178167,27 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -167309,31 +178237,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1033
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1095
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -167352,43 +178282,44 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 2112
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 576
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -167400,9 +178331,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -167413,19 +178344,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -167481,33 +178416,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1034
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT8_4_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1096
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -167527,42 +178460,43 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -167574,9 +178508,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -167587,19 +178521,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -167655,29 +178591,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1035
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA4_LPB4_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1097
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG8_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -167693,7 +178629,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -167701,42 +178637,43 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3712
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -167747,10 +178684,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 32
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -167761,21 +178698,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 8
-    NumLoadsB: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -167831,31 +178770,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1036
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1098
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -167867,50 +178806,51 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3712
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -167921,10 +178861,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 32
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -167935,21 +178875,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 8
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -168005,31 +178945,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1037
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1099
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
 - [2, 3, 0, 1]
 - - - [1024, 128, 1, 128]
     - [12, 896.219]
@@ -174073,6094 +185015,6238 @@
     - [474, 959.247]
   - - [512, 1024, 1, 196]
     - [417, 4978.7]
-  - - [96, 64, 36, 10368]
-    - [511, 5000.95]
-  - - [384, 448, 36, 512]
-    - [516, 8903.0]
   - - [2048, 64, 1, 1001]
     - [509, 4385.13]
-  - - [224, 192, 36, 5184]
-    - [515, 7487.81]
   - - [2048, 128, 1, 1001]
     - [508, 5764.63]
-  - - [96, 96, 36, 10368]
-    - [517, 5275.21]
-  - - [192, 80, 36, 20736]
-    - [513, 5409.4]
-  - - [96, 64, 36, 5184]
-    - [511, 4911.83]
   - - [1536, 64, 1, 1001]
     - [510, 3162.03]
-  - - [96, 64, 36, 20736]
-    - [512, 5034.33]
+  - - [32, 32, 64, 40000]
+    - [544, 2449.4]
+  - - [224, 192, 36, 5184]
+    - [539, 7500.12]
+  - - [32, 32, 49, 115200]
+    - [545, 1878.28]
+  - - [384, 448, 49, 512]
+    - [535, 8945.32]
+  - - [192, 80, 36, 20736]
+    - [533, 5412.26]
+  - - [384, 448, 64, 256]
+    - [536, 9230.33]
+  - - [96, 64, 64, 18432]
+    - [520, 5008.4]
+  - - [224, 192, 64, 4608]
+    - [539, 8684.53]
+  - - [96, 96, 49, 3136]
+    - [543, 5183.63]
+  - - [224, 192, 64, 2304]
+    - [535, 8722.76]
+  - - [64, 32, 49, 57600]
+    - [525, 3565.26]
   - - [384, 448, 36, 256]
-    - [514, 8815.87]
+    - [534, 8843.41]
+  - - [96, 64, 36, 10368]
+    - [527, 4997.46]
+  - - [96, 64, 36, 20736]
+    - [529, 5034.77]
+  - - [192, 80, 49, 14400]
+    - [525, 4892.22]
+  - - [96, 64, 49, 6272]
+    - [546, 5617.04]
+  - - [64, 32, 49, 115200]
+    - [524, 3572.57]
+  - - [384, 448, 49, 256]
+    - [537, 8858.66]
+  - - [96, 96, 64, 2304]
+    - [533, 5379.02]
+  - - [96, 96, 49, 6272]
+    - [542, 5235.76]
+  - - [224, 192, 49, 6272]
+    - [538, 7629.28]
+  - - [96, 96, 36, 10368]
+    - [541, 5281.04]
+  - - [96, 64, 36, 5184]
+    - [526, 4945.73]
+  - - [384, 448, 64, 512]
+    - [534, 9294.86]
+  - - [224, 192, 49, 3136]
+    - [538, 7513.4]
+  - - [384, 448, 36, 512]
+    - [540, 8961.38]
+  - - [32, 32, 36, 175232]
+    - [548, 1385.5]
+  - - [224, 192, 36, 10368]
+    - [539, 7565.73]
+  - - [64, 32, 64, 40000]
+    - [524, 4658.85]
+  - - [96, 64, 64, 4608]
+    - [523, 5461.6]
+  - - [32, 32, 49, 57600]
+    - [545, 1877.01]
+  - - [192, 80, 36, 41472]
+    - [531, 5123.59]
+  - - [32, 32, 36, 87616]
+    - [544, 1382.32]
+  - - [192, 80, 49, 28800]
+    - [524, 4901.95]
+  - - [96, 64, 49, 28800]
+    - [521, 4862.5]
+  - - [96, 64, 36, 41472]
+    - [528, 5002.26]
+  - - [192, 80, 64, 9216]
+    - [519, 5300.55]
   - - [96, 96, 36, 5184]
-    - [518, 5236.02]
+    - [541, 5246.24]
+  - - [32, 32, 64, 80000]
+    - [549, 2457.11]
+  - - [96, 64, 64, 2304]
+    - [547, 6225.74]
+  - - [96, 64, 49, 3136]
+    - [546, 5489.02]
+  - - [64, 32, 36, 87616]
+    - [524, 2636.29]
+  - - [64, 32, 64, 80000]
+    - [524, 4677.64]
+  - - [96, 96, 64, 4608]
+    - [530, 5119.63]
+  - - [64, 32, 36, 175232]
+    - [525, 2639.83]
   - - [1024, 128, 1, 128]
-    - [531, 896.319]
+    - [562, 896.319]
   - - [4, 704, 1, 1280]
-    - [568, 328.976]
+    - [599, 328.976]
   - - [4, 1856, 1, 3328]
-    - [578, 501.461]
+    - [609, 501.461]
   - - [1856, 448, 1, 3328]
-    - [623, 5678.01]
+    - [654, 5678.01]
   - - [2944, 4288, 1, 1280]
-    - [609, 8412.49]
+    - [640, 8412.49]
   - - [2368, 64, 1, 3328]
-    - [559, 4914.02]
+    - [590, 4914.02]
   - - [1760, 32, 1, 1760]
-    - [586, 3313.04]
+    - [617, 3313.04]
   - - [2368, 5888, 1, 256]
-    - [609, 6489.82]
+    - [640, 6489.82]
   - - [5888, 1856, 1, 256]
-    - [621, 7791.98]
+    - [652, 7791.98]
   - - [128, 64, 1, 256]
-    - [593, 369.317]
+    - [624, 369.317]
   - - [512, 24000, 1, 1536]
-    - [615, 8827.47]
+    - [646, 8827.47]
   - - [128, 6784, 1, 3328]
-    - [615, 6537.09]
+    - [646, 6537.09]
   - - [5888, 1408, 1, 256]
-    - [629, 6129.71]
+    - [660, 6129.71]
   - - [5888, 1856, 1, 3328]
-    - [615, 7969.27]
+    - [646, 7969.27]
   - - [5056, 704, 1, 256]
-    - [615, 6723.92]
+    - [646, 6723.92]
   - - [2048, 400, 1, 512]
-    - [621, 4531.54]
+    - [652, 4531.54]
   - - [5888, 2944, 1, 3328]
-    - [621, 8608.14]
+    - [652, 8608.14]
   - - [1856, 4288, 1, 256]
-    - [621, 6297.64]
+    - [652, 6297.64]
   - - [1024, 5056, 1, 128]
-    - [599, 3595.47]
+    - [630, 3595.47]
   - - [5056, 5056, 1, 3328]
-    - [615, 8559.26]
+    - [646, 8559.26]
   - - [1408, 5888, 1, 1280]
-    - [610, 6797.16]
+    - [641, 6797.16]
   - - [2368, 448, 1, 128]
-    - [599, 2815.0]
+    - [630, 2815.0]
   - - [2368, 6784, 1, 128]
-    - [603, 4782.08]
+    - [634, 4782.08]
   - - [1024, 3584, 1, 3328]
-    - [611, 8402.54]
+    - [642, 8402.54]
   - - [512, 48000, 1, 2048]
-    - [615, 8162.33]
+    - [646, 8162.33]
   - - [128, 448, 1, 1280]
-    - [586, 2903.59]
+    - [617, 2903.59]
   - - [256, 4288, 1, 3328]
-    - [616, 6346.04]
+    - [647, 6346.04]
   - - [5888, 1408, 1, 1280]
-    - [615, 8959.55]
+    - [646, 8959.55]
   - - [704, 1856, 1, 3328]
-    - [610, 6955.37]
+    - [641, 6955.37]
   - - [4, 1408, 1, 128]
-    - [630, 60.1747]
+    - [661, 60.1747]
   - - [1024, 2368, 1, 256]
-    - [617, 5927.88]
+    - [648, 5927.88]
   - - [64, 4, 1, 256]
-    - [635, 13.3129]
+    - [666, 13.3129]
   - - [1408, 1856, 1, 1280]
-    - [613, 8051.68]
+    - [644, 8051.68]
   - - [1408, 64, 1, 1280]
-    - [589, 3400.55]
+    - [620, 3400.55]
   - - [448, 1024, 1, 1280]
-    - [617, 5730.02]
+    - [648, 5730.02]
   - - [6144, 24000, 1, 2048]
-    - [621, 7738.4]
+    - [652, 7738.4]
   - - [4096, 32, 1, 4096]
-    - [559, 2381.53]
+    - [590, 2381.53]
   - - [256, 1408, 1, 3328]
-    - [617, 4844.88]
+    - [648, 4844.88]
   - - [5056, 5056, 1, 1280]
-    - [621, 9090.2]
+    - [652, 9090.2]
   - - [448, 5056, 1, 256]
-    - [627, 4961.28]
+    - [658, 4961.28]
   - - [704, 1856, 1, 1280]
-    - [613, 6456.54]
+    - [644, 6456.54]
   - - [128, 5056, 1, 128]
-    - [542, 2251.12]
+    - [573, 2251.12]
   - - [2368, 128, 1, 256]
-    - [610, 3403.37]
+    - [641, 3403.37]
   - - [1760, 6400, 1, 1760]
-    - [609, 8959.8]
+    - [640, 8959.8]
   - - [1856, 1408, 1, 128]
-    - [602, 3493.16]
+    - [633, 3493.16]
   - - [64, 5056, 1, 256]
-    - [611, 2582.32]
+    - [642, 2582.32]
   - - [6784, 256, 1, 3328]
-    - [609, 7323.64]
+    - [640, 7323.64]
   - - [6784, 4288, 1, 3328]
-    - [611, 8542.19]
+    - [642, 8542.19]
   - - [4288, 448, 1, 256]
-    - [627, 5030.6]
+    - [658, 5030.6]
   - - [64, 704, 1, 128]
-    - [544, 375.567]
+    - [575, 375.567]
   - - [1856, 2368, 1, 3328]
-    - [620, 6742.44]
+    - [651, 6742.44]
   - - [4288, 2944, 1, 1280]
-    - [621, 8578.27]
+    - [652, 8578.27]
   - - [704, 5056, 1, 1280]
-    - [617, 8014.55]
+    - [648, 8014.55]
   - - [2368, 704, 1, 3328]
-    - [616, 6544.41]
+    - [647, 6544.41]
   - - [256, 5888, 1, 256]
-    - [614, 5933.0]
+    - [645, 5933.0]
   - - [1856, 4288, 1, 3328]
-    - [620, 7410.82]
+    - [651, 7410.82]
   - - [256, 2944, 1, 256]
-    - [616, 5014.08]
+    - [647, 5014.08]
   - - [5888, 1024, 1, 256]
-    - [621, 8069.44]
+    - [652, 8069.44]
   - - [448, 64, 1, 1280]
-    - [596, 2057.28]
+    - [627, 2057.28]
   - - [3072, 64, 1, 1024]
-    - [576, 2145.52]
+    - [607, 2145.52]
   - - [3584, 4, 1, 1280]
-    - [568, 498.743]
+    - [599, 498.743]
   - - [16384, 3200, 1, 4096]
-    - [608, 6621.53]
+    - [639, 6621.53]
   - - [2944, 64, 1, 256]
-    - [616, 2554.89]
+    - [647, 2554.89]
   - - [128, 4, 1, 1280]
-    - [578, 87.2489]
+    - [609, 87.2489]
   - - [1408, 2944, 1, 256]
-    - [615, 8029.45]
+    - [646, 8029.45]
   - - [256, 1856, 1, 1280]
-    - [610, 6170.7]
+    - [641, 6170.7]
   - - [6784, 5056, 1, 3328]
-    - [619, 7134.29]
+    - [650, 7134.29]
   - - [5056, 5056, 1, 256]
-    - [627, 6246.9]
+    - [658, 6246.9]
   - - [1408, 6784, 1, 128]
-    - [604, 4329.55]
+    - [635, 4329.55]
   - - [64, 1024, 1, 1280]
-    - [586, 3206.75]
+    - [617, 3206.75]
   - - [2944, 4, 1, 256]
-    - [635, 333.58]
+    - [666, 333.58]
   - - [704, 5056, 1, 128]
-    - [599, 4085.52]
+    - [630, 4085.52]
   - - [4, 2368, 1, 1280]
-    - [636, 394.767]
+    - [667, 394.767]
   - - [2368, 2944, 1, 1280]
-    - [615, 8634.05]
+    - [646, 8634.05]
   - - [128, 3584, 1, 1280]
-    - [616, 6046.25]
+    - [647, 6046.25]
   - - [6784, 6784, 1, 1280]
-    - [621, 8847.51]
+    - [652, 8847.51]
   - - [1408, 4288, 1, 1280]
-    - [621, 8236.79]
+    - [652, 8236.79]
   - - [3584, 4288, 1, 1280]
-    - [616, 7399.98]
+    - [647, 7399.98]
   - - [2368, 704, 1, 1280]
-    - [609, 6754.5]
+    - [640, 6754.5]
   - - [5056, 4288, 1, 3328]
-    - [615, 8569.63]
+    - [646, 8569.63]
   - - [3584, 2368, 1, 3328]
-    - [620, 7942.48]
+    - [651, 7942.48]
   - - [64, 704, 1, 1280]
-    - [589, 2363.69]
+    - [620, 2363.69]
   - - [4288, 256, 1, 256]
-    - [617, 4591.9]
+    - [648, 4591.9]
   - - [2944, 128, 1, 128]
-    - [542, 1878.39]
+    - [573, 1878.39]
   - - [6144, 32, 1, 2560]
-    - [587, 3334.2]
+    - [618, 3334.2]
   - - [6784, 448, 1, 1280]
-    - [619, 7939.3]
+    - [650, 7939.3]
   - - [1408, 2944, 1, 128]
-    - [603, 4096.61]
+    - [634, 4096.61]
   - - [4288, 2944, 1, 256]
-    - [609, 8141.23]
+    - [640, 8141.23]
   - - [5888, 704, 1, 1280]
-    - [610, 7516.23]
+    - [641, 7516.23]
   - - [5056, 4, 1, 3328]
-    - [553, 552.509]
+    - [584, 552.509]
   - - [1856, 64, 1, 1280]
-    - [559, 3870.86]
+    - [590, 3870.86]
   - - [1760, 16, 1, 1760]
-    - [571, 2181.51]
+    - [602, 2181.51]
   - - [448, 5888, 1, 128]
-    - [604, 3371.1]
+    - [635, 3371.1]
   - - [5888, 64, 1, 3328]
-    - [584, 5319.48]
+    - [615, 5319.48]
   - - [2944, 256, 1, 3328]
-    - [616, 7122.4]
+    - [647, 7122.4]
   - - [1024, 64, 1, 128]
-    - [531, 595.882]
+    - [562, 595.882]
   - - [5056, 2368, 1, 1280]
-    - [610, 7778.29]
+    - [641, 7778.29]
   - - [448, 3584, 1, 1280]
-    - [615, 6500.62]
+    - [646, 6500.62]
   - - [6784, 5888, 1, 256]
-    - [615, 8918.68]
+    - [646, 8918.68]
   - - [704, 1024, 1, 128]
-    - [599, 2627.51]
+    - [630, 2627.51]
   - - [704, 128, 1, 1280]
-    - [586, 3408.59]
+    - [617, 3408.59]
   - - [4, 3584, 1, 128]
-    - [630, 140.821]
+    - [661, 140.821]
   - - [1408, 448, 1, 1280]
-    - [610, 5881.54]
+    - [641, 5881.54]
   - - [1024, 1408, 1, 256]
-    - [614, 5647.27]
+    - [645, 5647.27]
   - - [2368, 2368, 1, 3328]
-    - [608, 7688.83]
+    - [639, 7688.83]
   - - [1856, 6784, 1, 128]
-    - [599, 4705.95]
+    - [630, 4705.95]
   - - [5056, 704, 1, 3328]
-    - [619, 8198.98]
+    - [650, 8198.98]
   - - [1408, 1856, 1, 256]
-    - [621, 6340.05]
+    - [652, 6340.05]
   - - [1408, 704, 1, 3328]
-    - [613, 7599.65]
+    - [644, 7599.65]
   - - [2368, 5056, 1, 256]
-    - [621, 8242.85]
+    - [652, 8242.85]
   - - [1408, 256, 1, 1280]
-    - [616, 4879.26]
+    - [647, 4879.26]
   - - [3072, 128, 1, 1024]
-    - [585, 2525.52]
+    - [616, 2525.52]
   - - [3584, 2368, 1, 1280]
-    - [617, 8132.72]
+    - [648, 8132.72]
   - - [4288, 64, 1, 3328]
-    - [572, 5156.53]
+    - [603, 5156.53]
   - - [2368, 4, 1, 1280]
-    - [634, 482.75]
+    - [665, 482.75]
   - - [704, 5888, 1, 256]
-    - [624, 5398.75]
+    - [655, 5398.75]
   - - [6784, 2944, 1, 128]
-    - [600, 4748.99]
+    - [631, 4748.99]
   - - [2560, 1600, 1, 2560]
-    - [611, 7355.0]
+    - [642, 7355.0]
   - - [4288, 6784, 1, 3328]
-    - [608, 7409.41]
+    - [639, 7409.41]
   - - [2944, 256, 1, 256]
-    - [616, 5077.42]
+    - [647, 5077.42]
   - - [2944, 6784, 1, 3328]
-    - [621, 8068.05]
+    - [652, 8068.05]
   - - [704, 1408, 1, 3328]
-    - [616, 7239.43]
+    - [647, 7239.43]
   - - [6144, 5984, 1, 2048]
-    - [615, 7176.07]
+    - [646, 7176.07]
   - - [3584, 704, 1, 3328]
-    - [621, 6642.86]
+    - [652, 6642.86]
   - - [2944, 256, 1, 128]
-    - [600, 2644.54]
+    - [631, 2644.54]
   - - [6784, 4, 1, 1280]
-    - [632, 402.487]
+    - [663, 402.487]
   - - [1024, 64, 1, 1280]
-    - [586, 2602.03]
+    - [617, 2602.03]
   - - [2048, 1600, 1, 512]
-    - [613, 5592.5]
+    - [644, 5592.5]
   - - [448, 4288, 1, 256]
-    - [611, 6128.99]
+    - [642, 6128.99]
   - - [64, 3584, 1, 3328]
-    - [552, 5534.93]
+    - [583, 5534.93]
   - - [1856, 4288, 1, 128]
-    - [602, 4400.11]
+    - [633, 4400.11]
   - - [704, 2368, 1, 1280]
-    - [627, 5735.02]
+    - [658, 5735.02]
   - - [1856, 2368, 1, 1280]
-    - [624, 6482.4]
+    - [655, 6482.4]
   - - [2368, 128, 1, 3328]
-    - [597, 4717.32]
+    - [628, 4717.32]
   - - [2944, 128, 1, 256]
-    - [624, 3276.9]
+    - [655, 3276.9]
   - - [448, 1408, 1, 256]
-    - [616, 4852.28]
+    - [647, 4852.28]
   - - [1856, 4288, 1, 1280]
-    - [611, 8132.96]
+    - [642, 8132.96]
   - - [64, 5056, 1, 3328]
-    - [587, 5097.06]
+    - [618, 5097.06]
   - - [4, 704, 1, 256]
-    - [634, 128.831]
+    - [665, 128.831]
   - - [1024, 448, 1, 128]
-    - [599, 1816.94]
+    - [630, 1816.94]
   - - [704, 4, 1, 1280]
-    - [635, 328.976]
+    - [666, 328.976]
   - - [704, 256, 1, 128]
-    - [603, 876.569]
+    - [634, 876.569]
   - - [704, 2944, 1, 128]
-    - [603, 3734.47]
+    - [634, 3734.47]
   - - [1408, 1024, 1, 1280]
-    - [611, 7224.85]
+    - [642, 7224.85]
   - - [704, 6784, 1, 256]
-    - [615, 7354.77]
+    - [646, 7354.77]
   - - [6784, 704, 1, 256]
-    - [611, 6012.28]
+    - [642, 6012.28]
   - - [5056, 1408, 1, 128]
-    - [604, 4311.28]
+    - [635, 4311.28]
   - - [2048, 7000, 1, 2048]
-    - [615, 7232.07]
+    - [646, 7232.07]
   - - [256, 3584, 1, 3328]
-    - [619, 7006.0]
+    - [650, 7006.0]
   - - [4, 5888, 1, 3328]
-    - [637, 534.612]
+    - [668, 534.612]
   - - [128, 1408, 1, 128]
-    - [529, 1177.07]
+    - [560, 1177.07]
   - - [3584, 4288, 1, 3328]
-    - [621, 7135.0]
+    - [652, 7135.0]
   - - [5888, 1856, 1, 1280]
-    - [609, 8395.03]
+    - [640, 8395.03]
   - - [256, 1408, 1, 256]
-    - [610, 3977.46]
+    - [641, 3977.46]
   - - [5056, 64, 1, 1280]
-    - [610, 4257.78]
+    - [641, 4257.78]
   - - [1024, 704, 1, 256]
-    - [610, 5036.93]
+    - [641, 5036.93]
   - - [448, 128, 1, 128]
-    - [531, 533.533]
+    - [562, 533.533]
   - - [2368, 3584, 1, 1280]
-    - [615, 8272.43]
+    - [646, 8272.43]
   - - [2368, 6784, 1, 1280]
-    - [608, 8288.24]
+    - [639, 8288.24]
   - - [1856, 4, 1, 1280]
-    - [548, 464.1]
+    - [579, 464.1]
   - - [448, 448, 1, 256]
-    - [610, 3058.45]
+    - [641, 3058.45]
   - - [2944, 3584, 1, 3328]
-    - [615, 8557.63]
+    - [646, 8557.63]
   - - [7680, 32, 1, 2560]
-    - [587, 3729.03]
+    - [618, 3729.03]
   - - [128, 4288, 1, 128]
-    - [530, 2116.2]
+    - [561, 2116.2]
   - - [256, 256, 1, 3328]
-    - [586, 4051.06]
+    - [617, 4051.06]
   - - [128, 1024, 1, 3328]
-    - [559, 5139.21]
+    - [590, 5139.21]
   - - [4, 1408, 1, 3328]
-    - [578, 502.871]
+    - [609, 502.871]
   - - [6784, 2944, 1, 256]
-    - [609, 8446.06]
+    - [640, 8446.06]
   - - [64, 1856, 1, 1280]
-    - [551, 3870.86]
+    - [582, 3870.86]
   - - [6784, 64, 1, 128]
-    - [599, 1877.62]
+    - [630, 1877.62]
   - - [4288, 2368, 1, 3328]
-    - [619, 8419.4]
+    - [650, 8419.4]
   - - [1856, 2368, 1, 256]
-    - [613, 6887.48]
+    - [644, 6887.48]
   - - [3584, 256, 1, 128]
-    - [603, 2496.71]
+    - [634, 2496.71]
   - - [3584, 6784, 1, 3328]
-    - [615, 7626.18]
+    - [646, 7626.18]
   - - [256, 1024, 1, 256]
-    - [616, 3095.53]
+    - [647, 3095.53]
   - - [4, 6784, 1, 3328]
-    - [578, 589.274]
+    - [609, 589.274]
   - - [1024, 5888, 1, 3328]
-    - [615, 7794.35]
+    - [646, 7794.35]
   - - [1024, 128, 1, 1280]
-    - [588, 3130.18]
+    - [619, 3130.18]
   - - [3072, 32, 1, 1024]
-    - [575, 1675.59]
+    - [606, 1675.59]
   - - [6144, 24000, 1, 2560]
-    - [615, 7256.14]
+    - [646, 7256.14]
   - - [5056, 4288, 1, 1280]
-    - [613, 8349.03]
+    - [644, 8349.03]
   - - [5888, 64, 1, 256]
-    - [562, 2593.35]
+    - [593, 2593.35]
   - - [6784, 1856, 1, 3328]
-    - [609, 8087.38]
+    - [640, 8087.38]
   - - [1408, 5056, 1, 1280]
-    - [611, 7802.63]
+    - [642, 7802.63]
   - - [1856, 256, 1, 1280]
-    - [616, 6150.73]
+    - [647, 6150.73]
   - - [64, 5888, 1, 3328]
-    - [583, 5301.49]
+    - [614, 5301.49]
   - - [2368, 2368, 1, 1280]
-    - [613, 8233.43]
+    - [644, 8233.43]
   - - [2944, 5888, 1, 128]
-    - [606, 3745.51]
+    - [637, 3745.51]
   - - [704, 5888, 1, 1280]
-    - [611, 8245.04]
+    - [642, 8245.04]
   - - [2368, 3584, 1, 128]
-    - [603, 4523.43]
+    - [634, 4523.43]
   - - [1856, 5056, 1, 128]
-    - [600, 4498.08]
+    - [631, 4498.08]
   - - [704, 1024, 1, 1280]
-    - [624, 5479.59]
+    - [655, 5479.59]
   - - [448, 256, 1, 3328]
-    - [567, 5048.8]
+    - [598, 5048.8]
   - - [448, 1856, 1, 128]
-    - [600, 2936.92]
+    - [631, 2936.92]
   - - [8192, 3200, 1, 2048]
-    - [609, 6713.12]
+    - [640, 6713.12]
   - - [128, 1024, 1, 128]
-    - [545, 998.744]
+    - [576, 998.744]
   - - [2944, 4, 1, 128]
-    - [630, 98.7471]
+    - [661, 98.7471]
   - - [1024, 704, 1, 1280]
-    - [616, 5897.0]
+    - [647, 5897.0]
   - - [128, 5888, 1, 256]
-    - [616, 5014.08]
+    - [647, 5014.08]
   - - [1024, 5056, 1, 1280]
-    - [615, 8857.81]
+    - [646, 8857.81]
   - - [4288, 1024, 1, 256]
-    - [621, 6195.39]
+    - [652, 6195.39]
   - - [2944, 2368, 1, 128]
-    - [599, 4442.23]
+    - [630, 4442.23]
   - - [704, 704, 1, 3328]
-    - [616, 6764.4]
+    - [647, 6764.4]
   - - [704, 1408, 1, 1280]
-    - [617, 7383.58]
+    - [648, 7383.58]
   - - [5888, 448, 1, 1280]
-    - [615, 7299.49]
+    - [646, 7299.49]
   - - [3584, 256, 1, 3328]
-    - [613, 7061.72]
+    - [644, 7061.72]
   - - [704, 5888, 1, 3328]
-    - [617, 8142.42]
+    - [648, 8142.42]
   - - [704, 1856, 1, 128]
-    - [603, 3139.14]
+    - [634, 3139.14]
   - - [448, 448, 1, 3328]
-    - [581, 5063.34]
+    - [612, 5063.34]
   - - [4, 4288, 1, 128]
-    - [631, 64.9775]
+    - [662, 64.9775]
   - - [128, 704, 1, 1280]
-    - [551, 3400.55]
+    - [582, 3400.55]
   - - [3584, 2944, 1, 256]
-    - [621, 7982.14]
+    - [652, 7982.14]
   - - [3584, 4, 1, 128]
-    - [630, 105.318]
+    - [661, 105.318]
   - - [1856, 128, 1, 3328]
-    - [582, 5442.19]
+    - [613, 5442.19]
   - - [4, 64, 1, 1280]
-    - [636, 42.3268]
+    - [667, 42.3268]
   - - [2944, 448, 1, 128]
-    - [599, 2926.95]
+    - [630, 2926.95]
   - - [128, 2944, 1, 1280]
-    - [610, 5109.69]
+    - [641, 5109.69]
   - - [64, 64, 1, 3328]
-    - [578, 1252.99]
+    - [609, 1252.99]
   - - [448, 2944, 1, 1280]
-    - [619, 6684.47]
+    - [650, 6684.47]
   - - [512, 24000, 1, 2048]
-    - [615, 7939.03]
+    - [646, 7939.03]
   - - [128, 256, 1, 3328]
-    - [596, 3276.9]
+    - [627, 3276.9]
   - - [1408, 5056, 1, 3328]
-    - [621, 8959.21]
+    - [652, 8959.21]
   - - [1856, 1856, 1, 3328]
-    - [611, 8006.17]
+    - [642, 8006.17]
   - - [3584, 128, 1, 256]
-    - [616, 4292.52]
+    - [647, 4292.52]
   - - [2560, 800, 1, 2560]
-    - [611, 6262.48]
+    - [642, 6262.48]
   - - [448, 1408, 1, 3328]
-    - [627, 4997.35]
+    - [658, 4997.35]
   - - [2368, 2368, 1, 256]
-    - [629, 4978.94]
+    - [660, 4978.94]
   - - [4288, 4288, 1, 1280]
-    - [608, 8617.78]
+    - [639, 8617.78]
   - - [64, 448, 1, 1280]
-    - [554, 2057.28]
+    - [585, 2057.28]
   - - [5888, 1024, 1, 1280]
-    - [626, 6848.17]
+    - [657, 6848.17]
   - - [1408, 4288, 1, 256]
-    - [609, 7077.01]
+    - [640, 7077.01]
   - - [448, 4, 1, 256]
-    - [634, 84.4294]
+    - [665, 84.4294]
   - - [5888, 448, 1, 128]
-    - [603, 3493.91]
+    - [634, 3493.91]
   - - [512, 48000, 1, 2560]
-    - [621, 8960.13]
+    - [652, 8960.13]
   - - [35, 8457, 1, 1760]
-    - [523, 3934.78]
+    - [554, 3934.78]
   - - [704, 6784, 1, 3328]
-    - [608, 8180.88]
+    - [639, 8180.88]
   - - [2560, 6400, 1, 2560]
-    - [609, 7822.24]
+    - [640, 7822.24]
   - - [5056, 1024, 1, 1280]
-    - [611, 8357.38]
+    - [642, 8357.38]
   - - [448, 5888, 1, 3328]
-    - [615, 7505.28]
+    - [646, 7505.28]
   - - [128, 4, 1, 128]
-    - [630, 0.662251]
+    - [661, 0.662251]
   - - [1024, 2944, 1, 1280]
-    - [615, 8406.24]
+    - [646, 8406.24]
   - - [5056, 5888, 1, 1280]
-    - [615, 8819.76]
+    - [646, 8819.76]
   - - [4288, 5888, 1, 128]
-    - [600, 3522.32]
+    - [631, 3522.32]
   - - [256, 3584, 1, 256]
-    - [611, 5883.89]
+    - [642, 5883.89]
   - - [1408, 3584, 1, 128]
-    - [599, 4283.41]
+    - [630, 4283.41]
   - - [256, 2944, 1, 3328]
-    - [619, 5670.63]
+    - [650, 5670.63]
   - - [448, 3584, 1, 128]
-    - [603, 3171.72]
+    - [634, 3171.72]
   - - [5888, 2944, 1, 1280]
-    - [621, 8198.86]
+    - [652, 8198.86]
   - - [4, 6784, 1, 1280]
-    - [568, 553.896]
+    - [599, 553.896]
   - - [2368, 5888, 1, 128]
-    - [599, 4787.32]
+    - [630, 4787.32]
   - - [8448, 16, 1, 2816]
-    - [558, 2452.63]
+    - [589, 2452.63]
   - - [64, 2944, 1, 128]
-    - [531, 1376.66]
+    - [562, 1376.66]
   - - [2368, 4, 1, 256]
-    - [553, 278.177]
+    - [584, 278.177]
   - - [3584, 5888, 1, 256]
-    - [629, 6233.66]
+    - [660, 6233.66]
   - - [2368, 1024, 1, 128]
-    - [600, 3781.51]
+    - [631, 3781.51]
   - - [2368, 704, 1, 128]
-    - [600, 3198.32]
+    - [631, 3198.32]
   - - [3584, 2944, 1, 1280]
-    - [611, 8045.68]
+    - [642, 8045.68]
   - - [3584, 2368, 1, 128]
-    - [600, 4188.57]
+    - [631, 4188.57]
   - - [5056, 704, 1, 128]
-    - [603, 4019.21]
+    - [634, 4019.21]
   - - [448, 2368, 1, 128]
-    - [605, 2522.21]
+    - [636, 2522.21]
   - - [5056, 1408, 1, 3328]
-    - [613, 8349.93]
+    - [644, 8349.93]
   - - [1408, 704, 1, 256]
-    - [619, 4741.42]
+    - [650, 4741.42]
   - - [6784, 1024, 1, 3328]
-    - [621, 8769.5]
+    - [652, 8769.5]
   - - [6784, 2944, 1, 3328]
-    - [618, 7319.74]
+    - [649, 7319.74]
   - - [2944, 5056, 1, 3328]
-    - [608, 8889.76]
+    - [639, 8889.76]
   - - [1856, 1856, 1, 256]
-    - [611, 6309.84]
+    - [642, 6309.84]
   - - [1024, 5888, 1, 128]
-    - [602, 3759.6]
+    - [633, 3759.6]
   - - [6784, 2368, 1, 1280]
-    - [611, 8298.4]
+    - [642, 8298.4]
   - - [256, 4, 1, 128]
-    - [630, 7.10171]
+    - [661, 7.10171]
   - - [4288, 5888, 1, 1280]
-    - [615, 8365.28]
+    - [646, 8365.28]
   - - [4288, 4288, 1, 256]
-    - [615, 6513.78]
+    - [646, 6513.78]
   - - [8448, 32, 1, 2816]
-    - [586, 4257.74]
+    - [617, 4257.74]
   - - [448, 2944, 1, 3328]
-    - [619, 6875.62]
+    - [650, 6875.62]
   - - [5888, 4, 1, 128]
-    - [630, 163.94]
+    - [661, 163.94]
   - - [4288, 1856, 1, 1280]
-    - [615, 8402.91]
+    - [646, 8402.91]
   - - [1856, 2944, 1, 3328]
-    - [615, 6612.21]
+    - [646, 6612.21]
   - - [256, 6784, 1, 3328]
-    - [616, 7358.7]
+    - [647, 7358.7]
   - - [64, 5888, 1, 256]
-    - [610, 3359.05]
+    - [641, 3359.05]
   - - [256, 5056, 1, 128]
-    - [603, 2489.21]
+    - [634, 2489.21]
   - - [5056, 1024, 1, 256]
-    - [621, 8077.87]
+    - [652, 8077.87]
   - - [704, 64, 1, 3328]
-    - [565, 3288.4]
+    - [596, 3288.4]
   - - [5056, 1856, 1, 3328]
-    - [619, 8171.13]
+    - [650, 8171.13]
   - - [4, 2944, 1, 3328]
-    - [578, 546.843]
+    - [609, 546.843]
   - - [4, 5056, 1, 256]
-    - [553, 378.561]
+    - [584, 378.561]
   - - [1856, 1408, 1, 256]
-    - [621, 6320.88]
+    - [652, 6320.88]
   - - [8448, 12000, 1, 2816]
-    - [619, 7365.87]
+    - [650, 7365.87]
   - - [6784, 128, 1, 3328]
-    - [616, 6366.57]
+    - [647, 6366.57]
   - - [4288, 1408, 1, 128]
-    - [599, 4451.7]
+    - [630, 4451.7]
   - - [1856, 5888, 1, 3328]
-    - [617, 8619.76]
+    - [648, 8619.76]
   - - [4288, 5056, 1, 256]
-    - [621, 7289.05]
+    - [652, 7289.05]
   - - [1408, 128, 1, 1280]
-    - [559, 4291.15]
+    - [590, 4291.15]
   - - [4096, 800, 1, 1024]
-    - [610, 5867.89]
+    - [641, 5867.89]
   - - [5056, 256, 1, 3328]
-    - [616, 7527.61]
+    - [647, 7527.61]
   - - [704, 704, 1, 256]
-    - [616, 4417.85]
+    - [647, 4417.85]
   - - [1024, 5888, 1, 1280]
-    - [621, 8674.57]
+    - [652, 8674.57]
   - - [6784, 2368, 1, 128]
-    - [599, 4724.08]
+    - [630, 4724.08]
   - - [4, 5056, 1, 1280]
-    - [568, 540.307]
+    - [599, 540.307]
   - - [256, 64, 1, 1280]
-    - [570, 1515.38]
+    - [601, 1515.38]
   - - [128, 1856, 1, 1280]
-    - [610, 4574.21]
+    - [641, 4574.21]
   - - [1856, 1024, 1, 1280]
-    - [615, 7741.61]
+    - [646, 7741.61]
   - - [6784, 4288, 1, 1280]
-    - [621, 8521.29]
+    - [652, 8521.29]
   - - [2560, 64, 1, 2560]
-    - [552, 3504.7]
+    - [583, 3504.7]
   - - [1856, 1856, 1, 1280]
-    - [611, 7779.31]
+    - [642, 7779.31]
   - - [4096, 400, 1, 1024]
-    - [621, 4157.81]
+    - [652, 4157.81]
   - - [3072, 24000, 1, 1024]
-    - [621, 8663.45]
+    - [652, 8663.45]
   - - [128, 4288, 1, 3328]
-    - [567, 5674.23]
+    - [598, 5674.23]
   - - [4, 2368, 1, 3328]
-    - [578, 525.48]
+    - [609, 525.48]
   - - [5888, 1856, 1, 128]
-    - [603, 4099.74]
+    - [634, 4099.74]
   - - [448, 704, 1, 1280]
-    - [616, 4309.47]
+    - [647, 4309.47]
   - - [128, 5056, 1, 1280]
-    - [559, 5068.46]
+    - [590, 5068.46]
   - - [1024, 448, 1, 3328]
-    - [619, 6077.82]
+    - [650, 6077.82]
   - - [1856, 704, 1, 1280]
-    - [627, 6257.49]
+    - [658, 6257.49]
   - - [5056, 3584, 1, 128]
-    - [600, 4598.52]
+    - [631, 4598.52]
   - - [5888, 5888, 1, 3328]
-    - [621, 8058.25]
+    - [652, 8058.25]
   - - [6784, 1024, 1, 256]
-    - [621, 5120.99]
+    - [652, 5120.99]
   - - [2944, 2368, 1, 256]
-    - [612, 6523.03]
+    - [643, 6523.03]
   - - [256, 448, 1, 256]
-    - [562, 1816.94]
+    - [593, 1816.94]
   - - [5056, 5888, 1, 3328]
-    - [614, 6722.41]
+    - [645, 6722.41]
   - - [1856, 1024, 1, 256]
-    - [621, 6632.31]
+    - [652, 6632.31]
   - - [512, 48000, 1, 1536]
-    - [615, 8556.01]
+    - [646, 8556.01]
   - - [3584, 448, 1, 1280]
-    - [610, 6567.09]
+    - [641, 6567.09]
   - - [8448, 5984, 1, 2816]
-    - [615, 8990.66]
+    - [646, 8990.66]
   - - [448, 5888, 1, 256]
-    - [615, 6220.47]
+    - [646, 6220.47]
   - - [704, 64, 1, 128]
-    - [528, 450.66]
+    - [559, 450.66]
   - - [1408, 6784, 1, 3328]
-    - [608, 8478.68]
+    - [639, 8478.68]
   - - [448, 1024, 1, 128]
-    - [607, 1844.33]
+    - [638, 1844.33]
   - - [4288, 704, 1, 128]
-    - [603, 3895.26]
+    - [634, 3895.26]
   - - [128, 1856, 1, 128]
-    - [534, 1456.46]
+    - [565, 1456.46]
   - - [448, 2368, 1, 3328]
-    - [613, 5538.04]
+    - [644, 5538.04]
   - - [5056, 64, 1, 128]
-    - [599, 1648.94]
+    - [630, 1648.94]
   - - [5056, 2944, 1, 256]
-    - [615, 8230.87]
+    - [646, 8230.87]
   - - [6784, 5888, 1, 128]
-    - [599, 4873.19]
+    - [630, 4873.19]
   - - [1024, 700, 1, 512]
-    - [613, 4445.37]
+    - [644, 4445.37]
   - - [704, 1024, 1, 256]
-    - [611, 4707.99]
+    - [642, 4707.99]
   - - [1024, 4, 1, 256]
-    - [553, 174.863]
+    - [584, 174.863]
   - - [2944, 704, 1, 128]
-    - [603, 3483.42]
+    - [634, 3483.42]
   - - [128, 6784, 1, 1280]
-    - [611, 6522.93]
+    - [642, 6522.93]
   - - [1408, 3584, 1, 3328]
-    - [615, 8673.59]
+    - [646, 8673.59]
   - - [2368, 6784, 1, 256]
-    - [611, 7941.76]
+    - [642, 7941.76]
   - - [5056, 1408, 1, 1280]
-    - [615, 8801.01]
+    - [646, 8801.01]
   - - [256, 256, 1, 128]
-    - [540, 551.982]
+    - [571, 551.982]
   - - [5056, 4288, 1, 128]
-    - [607, 3793.64]
+    - [638, 3793.64]
   - - [1408, 1856, 1, 128]
-    - [599, 3067.74]
+    - [630, 3067.74]
   - - [1408, 5888, 1, 3328]
-    - [615, 9148.97]
+    - [646, 9148.97]
   - - [1856, 256, 1, 256]
-    - [611, 4319.52]
+    - [642, 4319.52]
   - - [6784, 6784, 1, 256]
-    - [611, 7668.53]
+    - [642, 7668.53]
   - - [64, 256, 1, 128]
-    - [545, 131.172]
+    - [576, 131.172]
   - - [4288, 2368, 1, 128]
-    - [600, 4582.99]
+    - [631, 4582.99]
   - - [256, 4288, 1, 1280]
-    - [610, 6058.61]
+    - [641, 6058.61]
   - - [2368, 2944, 1, 256]
-    - [615, 8016.07]
+    - [646, 8016.07]
   - - [4, 1856, 1, 256]
-    - [632, 252.832]
+    - [663, 252.832]
   - - [3584, 1856, 1, 1280]
-    - [611, 7760.24]
+    - [642, 7760.24]
   - - [6784, 6784, 1, 128]
-    - [600, 4970.14]
+    - [631, 4970.14]
   - - [256, 1856, 1, 128]
-    - [606, 1580.59]
+    - [637, 1580.59]
   - - [704, 64, 1, 1280]
-    - [595, 2556.47]
+    - [626, 2556.47]
   - - [5888, 5056, 1, 256]
-    - [615, 8216.67]
+    - [646, 8216.67]
   - - [8448, 48000, 1, 2816]
-    - [621, 4082.89]
+    - [652, 4082.89]
   - - [3584, 448, 1, 256]
-    - [615, 5518.92]
+    - [646, 5518.92]
   - - [448, 4288, 1, 128]
-    - [603, 3415.25]
+    - [634, 3415.25]
   - - [7680, 64, 1, 2560]
-    - [564, 5162.1]
+    - [595, 5162.1]
   - - [256, 6784, 1, 256]
-    - [615, 6272.62]
+    - [646, 6272.62]
   - - [1408, 4288, 1, 128]
-    - [603, 4343.63]
+    - [634, 4343.63]
   - - [2944, 704, 1, 3328]
-    - [610, 7679.71]
+    - [641, 7679.71]
   - - [128, 448, 1, 256]
-    - [550, 1422.59]
+    - [581, 1422.59]
   - - [5056, 256, 1, 1280]
-    - [617, 5052.39]
+    - [648, 5052.39]
   - - [2560, 32, 1, 2560]
-    - [573, 3106.07]
+    - [604, 3106.07]
   - - [3584, 3584, 1, 256]
-    - [621, 8260.57]
+    - [652, 8260.57]
   - - [448, 1408, 1, 128]
-    - [599, 2397.38]
+    - [630, 2397.38]
   - - [128, 256, 1, 1280]
-    - [554, 2340.67]
+    - [585, 2340.67]
   - - [3584, 5056, 1, 256]
-    - [621, 7347.56]
+    - [652, 7347.56]
   - - [6784, 128, 1, 256]
-    - [611, 5591.1]
+    - [642, 5591.1]
   - - [4288, 4, 1, 256]
-    - [553, 354.206]
+    - [584, 354.206]
   - - [704, 448, 1, 256]
-    - [616, 3492.33]
+    - [647, 3492.33]
   - - [2944, 2368, 1, 1280]
-    - [623, 6661.71]
+    - [654, 6661.71]
   - - [448, 64, 1, 3328]
-    - [595, 3058.45]
+    - [626, 3058.45]
   - - [1408, 3584, 1, 256]
-    - [621, 7966.59]
+    - [652, 7966.59]
   - - [3584, 4, 1, 3328]
-    - [634, 605.559]
+    - [665, 605.559]
   - - [6784, 3584, 1, 256]
-    - [611, 7525.41]
+    - [642, 7525.41]
   - - [256, 128, 1, 128]
-    - [543, 276.041]
+    - [574, 276.041]
   - - [704, 1408, 1, 128]
-    - [600, 3109.85]
+    - [631, 3109.85]
   - - [4, 2368, 1, 256]
-    - [634, 283.375]
+    - [665, 283.375]
   - - [4288, 128, 1, 1280]
-    - [616, 5132.65]
+    - [647, 5132.65]
   - - [128, 1408, 1, 256]
-    - [610, 2733.35]
+    - [641, 2733.35]
   - - [4, 2944, 1, 256]
-    - [632, 314.127]
+    - [663, 314.127]
   - - [64, 128, 1, 3328]
-    - [580, 1514.71]
+    - [611, 1514.71]
   - - [5056, 2368, 1, 128]
-    - [604, 3449.17]
+    - [635, 3449.17]
   - - [2944, 2944, 1, 3328]
-    - [608, 8169.03]
+    - [639, 8169.03]
   - - [5056, 6784, 1, 256]
-    - [628, 5792.77]
+    - [659, 5792.77]
   - - [1856, 3584, 1, 128]
-    - [605, 4213.5]
+    - [636, 4213.5]
   - - [128, 2944, 1, 128]
-    - [529, 1970.46]
+    - [560, 1970.46]
   - - [35, 8457, 1, 2560]
-    - [524, 3525.15]
+    - [555, 3525.15]
   - - [1024, 704, 1, 3328]
-    - [610, 6784.99]
+    - [641, 6784.99]
   - - [6784, 448, 1, 256]
-    - [619, 6544.88]
+    - [650, 6544.88]
   - - [3584, 6784, 1, 128]
-    - [599, 4623.6]
+    - [630, 4623.6]
   - - [128, 4288, 1, 256]
-    - [613, 3606.6]
+    - [644, 3606.6]
   - - [704, 448, 1, 3328]
-    - [610, 4478.01]
+    - [641, 4478.01]
   - - [128, 128, 1, 3328]
-    - [595, 2177.65]
+    - [626, 2177.65]
   - - [5056, 1856, 1, 256]
-    - [629, 5608.72]
+    - [660, 5608.72]
   - - [4608, 5984, 1, 1536]
-    - [618, 7859.85]
+    - [649, 7859.85]
   - - [256, 128, 1, 256]
-    - [554, 998.744]
+    - [585, 998.744]
   - - [1760, 3200, 1, 1760]
-    - [611, 8179.64]
+    - [642, 8179.64]
   - - [1024, 1856, 1, 256]
-    - [621, 6143.27]
+    - [652, 6143.27]
   - - [4096, 1600, 1, 1024]
-    - [629, 5851.52]
+    - [660, 5851.52]
   - - [4288, 64, 1, 128]
-    - [534, 1372.26]
+    - [565, 1372.26]
   - - [256, 448, 1, 3328]
-    - [573, 4795.1]
+    - [604, 4795.1]
   - - [1408, 6784, 1, 1280]
-    - [615, 8426.5]
+    - [646, 8426.5]
   - - [3584, 3584, 1, 1280]
-    - [615, 7556.56]
+    - [646, 7556.56]
   - - [7680, 24000, 1, 2560]
-    - [608, 5019.19]
+    - [639, 5019.19]
   - - [64, 2368, 1, 1280]
-    - [559, 4061.8]
+    - [590, 4061.8]
   - - [448, 2368, 1, 1280]
-    - [610, 5928.77]
+    - [641, 5928.77]
   - - [4608, 48000, 1, 1536]
-    - [615, 6937.4]
+    - [646, 6937.4]
   - - [5888, 5888, 1, 128]
-    - [600, 3744.0]
+    - [631, 3744.0]
   - - [64, 6784, 1, 3328]
-    - [610, 5988.72]
+    - [641, 5988.72]
   - - [2944, 256, 1, 1280]
-    - [616, 6717.97]
+    - [647, 6717.97]
   - - [2048, 16, 1, 2048]
-    - [568, 1210.58]
+    - [599, 1210.58]
   - - [256, 2368, 1, 128]
-    - [603, 1936.07]
+    - [634, 1936.07]
   - - [5056, 2368, 1, 3328]
-    - [621, 8875.63]
+    - [652, 8875.63]
   - - [2944, 4288, 1, 256]
-    - [615, 8063.24]
+    - [646, 8063.24]
   - - [1408, 3584, 1, 1280]
-    - [611, 8197.07]
+    - [642, 8197.07]
   - - [2368, 64, 1, 256]
-    - [610, 2365.79]
+    - [641, 2365.79]
   - - [64, 448, 1, 3328]
-    - [596, 3027.4]
+    - [627, 3027.4]
   - - [704, 128, 1, 3328]
-    - [567, 4452.19]
+    - [598, 4452.19]
   - - [8192, 1600, 1, 2048]
-    - [615, 7229.93]
+    - [646, 7229.93]
   - - [1856, 704, 1, 256]
-    - [617, 5545.45]
+    - [648, 5545.45]
   - - [4, 4288, 1, 1280]
-    - [568, 523.825]
+    - [599, 523.825]
   - - [1408, 448, 1, 3328]
-    - [622, 4789.4]
+    - [653, 4789.4]
   - - [1024, 4, 1, 3328]
-    - [548, 504.223]
+    - [579, 504.223]
   - - [512, 24000, 1, 2560]
-    - [621, 8903.62]
+    - [652, 8903.62]
   - - [2368, 6784, 1, 3328]
-    - [621, 8311.14]
+    - [652, 8311.14]
   - - [1856, 1408, 1, 1280]
-    - [611, 8160.11]
+    - [642, 8160.11]
   - - [1856, 448, 1, 1280]
-    - [613, 6243.07]
+    - [644, 6243.07]
   - - [6784, 704, 1, 128]
-    - [599, 4069.05]
+    - [630, 4069.05]
   - - [4, 4, 1, 256]
-    - [568, 0.842029]
+    - [599, 0.842029]
   - - [128, 5888, 1, 128]
-    - [599, 2328.02]
+    - [630, 2328.02]
   - - [1408, 5888, 1, 256]
-    - [610, 6986.91]
+    - [641, 6986.91]
   - - [704, 2944, 1, 1280]
-    - [611, 7905.03]
+    - [642, 7905.03]
   - - [4288, 64, 1, 1280]
-    - [586, 3828.27]
+    - [617, 3828.27]
   - - [256, 64, 1, 256]
-    - [561, 655.46]
+    - [592, 655.46]
   - - [704, 1856, 1, 256]
-    - [619, 5444.37]
+    - [650, 5444.37]
   - - [704, 6784, 1, 128]
-    - [599, 4319.77]
+    - [630, 4319.77]
   - - [3584, 704, 1, 1280]
-    - [619, 7726.43]
+    - [650, 7726.43]
   - - [256, 128, 1, 1280]
-    - [554, 2184.63]
+    - [585, 2184.63]
   - - [5888, 2368, 1, 256]
-    - [621, 8192.69]
+    - [652, 8192.69]
   - - [256, 2368, 1, 1280]
-    - [616, 5675.54]
+    - [647, 5675.54]
   - - [2944, 6784, 1, 128]
-    - [604, 4248.35]
+    - [635, 4248.35]
   - - [3584, 448, 1, 3328]
-    - [615, 6560.77]
+    - [646, 6560.77]
   - - [1408, 4, 1, 256]
-    - [633, 176.79]
+    - [664, 176.79]
   - - [704, 2368, 1, 3328]
-    - [616, 7085.31]
+    - [647, 7085.31]
   - - [2944, 448, 1, 256]
-    - [612, 3412.0]
+    - [643, 3412.0]
   - - [1856, 448, 1, 128]
-    - [600, 2748.82]
+    - [631, 2748.82]
   - - [4288, 4, 1, 3328]
-    - [568, 553.648]
+    - [599, 553.648]
   - - [2368, 128, 1, 1280]
-    - [589, 4173.65]
+    - [620, 4173.65]
   - - [256, 5888, 1, 128]
-    - [604, 2860.98]
+    - [635, 2860.98]
   - - [64, 6784, 1, 256]
-    - [617, 3637.18]
+    - [648, 3637.18]
   - - [64, 5056, 1, 1280]
-    - [616, 4289.53]
+    - [647, 4289.53]
   - - [4, 6784, 1, 128]
-    - [630, 160.906]
+    - [661, 160.906]
   - - [2048, 3200, 1, 512]
-    - [617, 6927.09]
+    - [648, 6927.09]
   - - [2944, 2944, 1, 1280]
-    - [609, 6267.85]
+    - [640, 6267.85]
   - - [5056, 448, 1, 3328]
-    - [610, 7400.36]
+    - [641, 7400.36]
   - - [4, 3584, 1, 1280]
-    - [568, 499.83]
+    - [599, 499.83]
   - - [1408, 128, 1, 128]
-    - [545, 1037.36]
+    - [576, 1037.36]
   - - [6784, 704, 1, 3328]
-    - [616, 7633.95]
+    - [647, 7633.95]
   - - [128, 64, 1, 1280]
-    - [568, 1170.39]
+    - [599, 1170.39]
   - - [2368, 256, 1, 1280]
-    - [616, 5609.89]
+    - [647, 5609.89]
   - - [4, 448, 1, 3328]
-    - [636, 358.5]
+    - [667, 358.5]
   - - [5888, 4288, 1, 128]
-    - [604, 4521.74]
+    - [635, 4521.74]
   - - [4, 5888, 1, 256]
-    - [568, 353.933]
+    - [599, 353.933]
   - - [1408, 2944, 1, 3328]
-    - [609, 8951.41]
+    - [640, 8951.41]
   - - [3584, 704, 1, 128]
-    - [599, 3395.41]
+    - [630, 3395.41]
   - - [4608, 12000, 1, 1536]
-    - [608, 6609.99]
+    - [639, 6609.99]
   - - [64, 1024, 1, 256]
-    - [554, 1588.85]
+    - [585, 1588.85]
   - - [5056, 5056, 1, 128]
-    - [599, 4080.81]
+    - [630, 4080.81]
   - - [2368, 448, 1, 1280]
-    - [610, 5423.04]
+    - [641, 5423.04]
   - - [128, 3584, 1, 256]
-    - [616, 4705.25]
+    - [647, 4705.25]
   - - [704, 448, 1, 1280]
-    - [613, 3961.07]
+    - [644, 3961.07]
   - - [8192, 800, 1, 2048]
-    - [611, 6306.36]
+    - [642, 6306.36]
   - - [448, 5056, 1, 128]
-    - [603, 3709.56]
+    - [634, 3709.56]
   - - [256, 4, 1, 1280]
-    - [635, 163.94]
+    - [666, 163.94]
   - - [5056, 3584, 1, 256]
-    - [608, 7008.34]
+    - [639, 7008.34]
   - - [2368, 4, 1, 3328]
-    - [568, 496.366]
+    - [599, 496.366]
   - - [1408, 5056, 1, 128]
-    - [603, 4175.37]
+    - [634, 4175.37]
   - - [2944, 3584, 1, 128]
-    - [599, 4659.79]
+    - [630, 4659.79]
   - - [3584, 2368, 1, 256]
-    - [621, 5851.87]
+    - [652, 5851.87]
   - - [128, 3584, 1, 3328]
-    - [611, 6105.04]
+    - [642, 6105.04]
   - - [128, 1024, 1, 1280]
-    - [551, 3848.09]
+    - [582, 3848.09]
   - - [8448, 24000, 1, 2816]
-    - [621, 5128.64]
+    - [652, 5128.64]
   - - [64, 704, 1, 256]
-    - [554, 1253.83]
+    - [585, 1253.83]
   - - [4288, 256, 1, 1280]
-    - [610, 5625.86]
+    - [641, 5625.86]
   - - [3584, 3584, 1, 3328]
-    - [615, 8206.15]
+    - [646, 8206.15]
   - - [4, 704, 1, 128]
-    - [630, 29.5484]
+    - [661, 29.5484]
   - - [5888, 6784, 1, 256]
-    - [617, 8248.75]
+    - [648, 8248.75]
   - - [4288, 2944, 1, 3328]
-    - [615, 8657.12]
+    - [646, 8657.12]
   - - [2944, 64, 1, 128]
-    - [534, 1240.7]
+    - [565, 1240.7]
   - - [1024, 128, 1, 3328]
-    - [559, 4433.1]
+    - [590, 4433.1]
   - - [1024, 16, 1, 500000]
-    - [522, 2571.15]
+    - [553, 2571.15]
   - - [4288, 128, 1, 3328]
-    - [559, 5716.85]
+    - [590, 5716.85]
   - - [7680, 128, 1, 2560]
-    - [557, 5488.1]
+    - [588, 5488.1]
   - - [256, 5056, 1, 1280]
-    - [617, 6380.06]
+    - [648, 6380.06]
   - - [1408, 256, 1, 128]
-    - [603, 1633.83]
+    - [634, 1633.83]
   - - [2944, 5888, 1, 3328]
-    - [612, 7849.02]
+    - [643, 7849.02]
   - - [6784, 5888, 1, 1280]
-    - [621, 9047.72]
+    - [652, 9047.72]
   - - [2048, 800, 1, 512]
-    - [616, 4841.17]
+    - [647, 4841.17]
   - - [704, 128, 1, 256]
-    - [561, 1567.27]
+    - [592, 1567.27]
   - - [5888, 4288, 1, 1280]
-    - [615, 7982.93]
+    - [646, 7982.93]
   - - [1024, 24000, 1, 2048]
-    - [617, 5774.4]
+    - [648, 5774.4]
   - - [448, 256, 1, 1280]
-    - [551, 3707.19]
+    - [582, 3707.19]
   - - [5888, 3584, 1, 128]
-    - [604, 3804.5]
+    - [635, 3804.5]
   - - [1024, 2944, 1, 128]
-    - [599, 3308.36]
+    - [630, 3308.36]
   - - [5056, 4, 1, 1280]
-    - [632, 469.062]
+    - [663, 469.062]
   - - [256, 1408, 1, 1280]
-    - [610, 4899.99]
+    - [641, 4899.99]
   - - [3072, 16, 1, 1024]
-    - [568, 1233.72]
+    - [599, 1233.72]
   - - [704, 3584, 1, 128]
-    - [599, 3919.53]
+    - [630, 3919.53]
   - - [5888, 448, 1, 3328]
-    - [629, 6095.71]
+    - [660, 6095.71]
   - - [2368, 4288, 1, 1280]
-    - [611, 8338.4]
+    - [642, 8338.4]
   - - [4288, 2944, 1, 128]
-    - [603, 3946.6]
+    - [634, 3946.6]
   - - [1024, 6784, 1, 3328]
-    - [617, 7494.38]
+    - [648, 7494.38]
   - - [128, 2368, 1, 256]
-    - [616, 2895.42]
+    - [647, 2895.42]
   - - [6784, 64, 1, 3328]
-    - [610, 5964.99]
+    - [641, 5964.99]
   - - [5056, 2944, 1, 3328]
-    - [621, 6605.63]
+    - [652, 6605.63]
   - - [448, 128, 1, 256]
-    - [554, 1339.52]
+    - [585, 1339.52]
   - - [2944, 3584, 1, 256]
-    - [617, 7165.66]
+    - [648, 7165.66]
   - - [1408, 1408, 1, 3328]
-    - [621, 8332.96]
+    - [652, 8332.96]
   - - [1856, 128, 1, 1280]
-    - [616, 4498.43]
+    - [647, 4498.43]
   - - [3584, 3584, 1, 128]
-    - [600, 4000.11]
+    - [631, 4000.11]
   - - [64, 3584, 1, 256]
-    - [627, 2383.23]
+    - [658, 2383.23]
   - - [1408, 4, 1, 3328]
-    - [578, 423.008]
+    - [609, 423.008]
   - - [128, 2944, 1, 3328]
-    - [583, 5430.03]
+    - [614, 5430.03]
   - - [3584, 704, 1, 256]
-    - [616, 6154.09]
+    - [647, 6154.09]
   - - [2944, 448, 1, 3328]
-    - [616, 6507.82]
+    - [647, 6507.82]
   - - [3584, 1408, 1, 3328]
-    - [621, 8829.73]
+    - [652, 8829.73]
   - - [704, 3584, 1, 1280]
-    - [611, 7860.33]
+    - [642, 7860.33]
   - - [2944, 6784, 1, 1280]
-    - [621, 8894.6]
+    - [652, 8894.6]
   - - [1856, 6784, 1, 256]
-    - [621, 8115.19]
+    - [652, 8115.19]
   - - [4288, 448, 1, 3328]
-    - [613, 6397.35]
+    - [644, 6397.35]
   - - [6784, 4288, 1, 128]
-    - [599, 4109.54]
+    - [630, 4109.54]
   - - [6784, 704, 1, 1280]
-    - [609, 7999.14]
+    - [640, 7999.14]
   - - [256, 4288, 1, 256]
-    - [613, 4603.94]
+    - [644, 4603.94]
   - - [3584, 6784, 1, 256]
-    - [621, 7361.65]
+    - [652, 7361.65]
   - - [6144, 12000, 1, 2048]
-    - [620, 6311.76]
+    - [651, 6311.76]
   - - [6144, 16, 1, 2560]
-    - [569, 2240.65]
+    - [600, 2240.65]
   - - [3584, 64, 1, 128]
-    - [540, 1292.36]
+    - [571, 1292.36]
   - - [5888, 1024, 1, 3328]
-    - [608, 8394.59]
+    - [639, 8394.59]
   - - [448, 64, 1, 128]
-    - [531, 262.244]
+    - [562, 262.244]
   - - [704, 6784, 1, 1280]
-    - [615, 7740.66]
+    - [646, 7740.66]
   - - [4, 1024, 1, 1280]
-    - [568, 378.921]
+    - [599, 378.921]
   - - [5888, 128, 1, 256]
-    - [616, 5003.68]
+    - [647, 5003.68]
   - - [4096, 16, 1, 4096]
-    - [568, 1585.85]
+    - [599, 1585.85]
   - - [1856, 5056, 1, 3328]
-    - [609, 8522.92]
+    - [640, 8522.92]
   - - [4, 6784, 1, 256]
-    - [553, 387.757]
+    - [584, 387.757]
   - - [1024, 3584, 1, 128]
-    - [603, 3031.61]
+    - [634, 3031.61]
   - - [1024, 1408, 1, 128]
-    - [605, 2600.85]
+    - [636, 2600.85]
   - - [2368, 2944, 1, 128]
-    - [602, 4340.26]
+    - [633, 4340.26]
   - - [5056, 64, 1, 256]
-    - [616, 3109.62]
+    - [647, 3109.62]
   - - [4, 448, 1, 1280]
-    - [636, 253.835]
+    - [667, 253.835]
   - - [5056, 2944, 1, 128]
-    - [607, 3740.01]
+    - [638, 3740.01]
   - - [5888, 5056, 1, 3328]
-    - [621, 9016.48]
+    - [652, 9016.48]
   - - [1024, 704, 1, 128]
-    - [603, 2363.66]
+    - [634, 2363.66]
   - - [5888, 2368, 1, 128]
-    - [606, 3651.83]
+    - [637, 3651.83]
   - - [128, 5056, 1, 3328]
-    - [610, 6243.64]
+    - [641, 6243.64]
   - - [3584, 6784, 1, 1280]
-    - [608, 9080.67]
+    - [639, 9080.67]
   - - [448, 4, 1, 1280]
-    - [636, 243.083]
+    - [667, 243.083]
   - - [1856, 5888, 1, 256]
-    - [621, 8182.12]
+    - [652, 8182.12]
   - - [256, 256, 1, 256]
-    - [554, 1542.12]
+    - [585, 1542.12]
   - - [256, 64, 1, 128]
-    - [535, 135.226]
+    - [566, 135.226]
   - - [4288, 4288, 1, 3328]
-    - [621, 8674.64]
+    - [652, 8674.64]
   - - [4288, 1408, 1, 1280]
-    - [609, 7867.18]
+    - [640, 7867.18]
   - - [3584, 5056, 1, 128]
-    - [599, 4457.83]
+    - [630, 4457.83]
   - - [4, 1024, 1, 3328]
-    - [548, 440.394]
+    - [579, 440.394]
   - - [4288, 2368, 1, 256]
-    - [629, 5699.57]
+    - [660, 5699.57]
   - - [2944, 5056, 1, 1280]
-    - [621, 8236.56]
+    - [652, 8236.56]
   - - [448, 6784, 1, 256]
-    - [611, 6620.62]
+    - [642, 6620.62]
   - - [64, 128, 1, 128]
-    - [536, 67.6629]
+    - [567, 67.6629]
   - - [1856, 2368, 1, 128]
-    - [603, 4233.7]
+    - [634, 4233.7]
   - - [6784, 2368, 1, 3328]
-    - [621, 8269.9]
+    - [652, 8269.9]
   - - [256, 1024, 1, 1280]
-    - [610, 4882.88]
+    - [641, 4882.88]
   - - [704, 4, 1, 128]
-    - [630, 19.111]
+    - [661, 19.111]
   - - [256, 4, 1, 256]
-    - [568, 46.9114]
+    - [599, 46.9114]
   - - [4288, 128, 1, 256]
-    - [616, 4273.49]
+    - [647, 4273.49]
   - - [4288, 1856, 1, 3328]
-    - [611, 8195.81]
+    - [642, 8195.81]
   - - [3584, 448, 1, 128]
-    - [604, 2750.65]
+    - [635, 2750.65]
   - - [2048, 1600, 1, 2048]
-    - [627, 5753.59]
+    - [658, 5753.59]
   - - [256, 4, 1, 3328]
-    - [637, 297.978]
+    - [668, 297.978]
   - - [4, 1408, 1, 1280]
-    - [635, 402.386]
+    - [666, 402.386]
   - - [3584, 64, 1, 1280]
-    - [624, 4096.1]
+    - [655, 4096.1]
   - - [1408, 448, 1, 128]
-    - [599, 2498.25]
+    - [630, 2498.25]
   - - [3584, 1024, 1, 1280]
-    - [621, 7252.18]
+    - [652, 7252.18]
   - - [1856, 5056, 1, 256]
-    - [615, 7711.59]
+    - [646, 7711.59]
   - - [4, 3584, 1, 256]
-    - [632, 314.314]
+    - [663, 314.314]
   - - [4, 2944, 1, 1280]
-    - [568, 483.218]
+    - [599, 483.218]
   - - [1024, 4288, 1, 256]
-    - [620, 6544.52]
+    - [651, 6544.52]
   - - [5888, 3584, 1, 3328]
-    - [609, 8105.15]
+    - [640, 8105.15]
   - - [1856, 4, 1, 256]
-    - [568, 252.832]
+    - [599, 252.832]
   - - [4, 256, 1, 256]
-    - [553, 48.2882]
+    - [584, 48.2882]
   - - [5056, 3584, 1, 3328]
-    - [614, 7354.8]
+    - [645, 7354.8]
   - - [704, 448, 1, 128]
-    - [607, 1233.91]
+    - [638, 1233.91]
   - - [2368, 1408, 1, 1280]
-    - [615, 6654.24]
+    - [646, 6654.24]
   - - [5056, 2944, 1, 1280]
-    - [621, 8505.72]
+    - [652, 8505.72]
   - - [4, 4, 1, 128]
-    - [631, 0.1478505]
+    - [662, 0.1478505]
   - - [3584, 256, 1, 256]
-    - [613, 4616.47]
+    - [644, 4616.47]
   - - [1024, 6784, 1, 256]
-    - [615, 7944.98]
+    - [646, 7944.98]
   - - [4, 128, 1, 256]
-    - [568, 29.3571]
+    - [599, 29.3571]
   - - [64, 64, 1, 1280]
-    - [579, 642.61]
+    - [610, 642.61]
   - - [5124, 9124, 1, 2048]
-    - [621, 8019.4]
+    - [652, 8019.4]
   - - [6784, 4, 1, 128]
-    - [630, 193.067]
+    - [661, 193.067]
   - - [2944, 1408, 1, 128]
-    - [599, 3827.13]
+    - [630, 3827.13]
   - - [448, 128, 1, 3328]
-    - [572, 4064.0]
+    - [603, 4064.0]
   - - [3584, 1408, 1, 1280]
-    - [621, 7180.83]
+    - [652, 7180.83]
   - - [64, 4288, 1, 3328]
-    - [567, 4786.84]
+    - [598, 4786.84]
   - - [5056, 6784, 1, 3328]
-    - [608, 7889.83]
+    - [639, 7889.83]
   - - [128, 2944, 1, 256]
-    - [611, 3599.69]
+    - [642, 3599.69]
   - - [128, 6784, 1, 128]
-    - [529, 2606.79]
+    - [560, 2606.79]
   - - [3584, 4288, 1, 256]
-    - [615, 7299.81]
+    - [646, 7299.81]
   - - [448, 1856, 1, 256]
-    - [611, 5207.07]
+    - [642, 5207.07]
   - - [1856, 6784, 1, 3328]
-    - [613, 8386.36]
+    - [644, 8386.36]
   - - [3584, 128, 1, 3328]
-    - [557, 5590.04]
+    - [588, 5590.04]
   - - [64, 1856, 1, 256]
-    - [550, 1949.38]
+    - [581, 1949.38]
   - - [64, 448, 1, 256]
-    - [555, 955.833]
+    - [586, 955.833]
   - - [5888, 4288, 1, 256]
-    - [619, 7791.84]
+    - [650, 7791.84]
   - - [4, 448, 1, 128]
-    - [630, 8.84146]
+    - [661, 8.84146]
   - - [5056, 1408, 1, 256]
-    - [621, 5154.01]
+    - [652, 5154.01]
   - - [35, 8457, 1, 2048]
-    - [526, 3182.57]
+    - [557, 3182.57]
   - - [64, 256, 1, 1280]
-    - [575, 1713.46]
+    - [606, 1713.46]
   - - [3584, 1024, 1, 256]
-    - [611, 6528.18]
+    - [642, 6528.18]
   - - [256, 704, 1, 256]
-    - [610, 2720.46]
+    - [641, 2720.46]
   - - [5888, 5888, 1, 256]
-    - [619, 7992.26]
+    - [650, 7992.26]
   - - [4288, 1024, 1, 1280]
-    - [613, 7837.5]
+    - [644, 7837.5]
   - - [5888, 128, 1, 3328]
-    - [616, 7181.13]
+    - [647, 7181.13]
   - - [448, 6784, 1, 3328]
-    - [610, 7663.1]
+    - [641, 7663.1]
   - - [2944, 1408, 1, 1280]
-    - [619, 7903.14]
+    - [650, 7903.14]
   - - [64, 128, 1, 1280]
-    - [568, 1191.66]
+    - [599, 1191.66]
   - - [2944, 1856, 1, 3328]
-    - [609, 7844.41]
+    - [640, 7844.41]
   - - [2368, 64, 1, 128]
-    - [540, 997.973]
+    - [571, 997.973]
   - - [256, 1024, 1, 128]
-    - [599, 1215.84]
+    - [630, 1215.84]
   - - [3584, 5888, 1, 1280]
-    - [608, 8958.94]
+    - [639, 8958.94]
   - - [64, 4, 1, 128]
-    - [631, 1.21608]
+    - [662, 1.21608]
   - - [6784, 1856, 1, 1280]
-    - [608, 6728.8]
+    - [639, 6728.8]
   - - [2944, 5056, 1, 256]
-    - [621, 8275.21]
+    - [652, 8275.21]
   - - [4288, 4, 1, 128]
-    - [630, 147.644]
+    - [661, 147.644]
   - - [5888, 256, 1, 3328]
-    - [617, 7094.2]
+    - [648, 7094.2]
   - - [2944, 4288, 1, 128]
-    - [602, 4611.55]
+    - [633, 4611.55]
   - - [3584, 1408, 1, 256]
-    - [612, 6543.06]
+    - [643, 6543.06]
   - - [704, 3584, 1, 3328]
-    - [611, 8117.2]
+    - [642, 8117.2]
   - - [4096, 3200, 1, 1024]
-    - [626, 6656.13]
+    - [657, 6656.13]
   - - [5056, 448, 1, 1280]
-    - [624, 6096.2]
+    - [655, 6096.2]
   - - [3584, 1856, 1, 3328]
-    - [609, 8552.41]
+    - [640, 8552.41]
   - - [4288, 6784, 1, 1280]
-    - [615, 8212.46]
+    - [646, 8212.46]
   - - [2560, 7000, 1, 2560]
-    - [617, 7655.34]
+    - [648, 7655.34]
   - - [1408, 704, 1, 1280]
-    - [613, 5756.79]
+    - [644, 5756.79]
   - - [2944, 1024, 1, 256]
-    - [621, 6880.91]
+    - [652, 6880.91]
   - - [6784, 64, 1, 256]
-    - [616, 4438.96]
+    - [647, 4438.96]
   - - [2368, 4288, 1, 3328]
-    - [617, 8377.99]
+    - [648, 8377.99]
   - - [4, 1408, 1, 256]
-    - [634, 222.599]
+    - [665, 222.599]
   - - [1024, 1408, 1, 1280]
-    - [611, 6339.38]
+    - [642, 6339.38]
   - - [64, 64, 1, 256]
-    - [568, 187.346]
+    - [599, 187.346]
   - - [704, 256, 1, 3328]
-    - [610, 4046.14]
+    - [641, 4046.14]
   - - [6784, 5056, 1, 256]
-    - [621, 7972.17]
+    - [652, 7972.17]
   - - [1856, 1856, 1, 128]
-    - [605, 3716.61]
+    - [636, 3716.61]
   - - [3584, 5056, 1, 3328]
-    - [621, 8684.76]
+    - [652, 8684.76]
   - - [448, 6784, 1, 128]
-    - [603, 3829.05]
+    - [634, 3829.05]
   - - [4, 704, 1, 3328]
-    - [636, 393.206]
+    - [667, 393.206]
   - - [35, 8457, 1, 4096]
-    - [525, 3173.24]
+    - [556, 3173.24]
   - - [448, 2944, 1, 256]
-    - [619, 5553.41]
+    - [650, 5553.41]
   - - [4, 4288, 1, 3328]
-    - [578, 573.211]
+    - [609, 573.211]
   - - [2944, 6784, 1, 256]
-    - [615, 8566.06]
+    - [646, 8566.06]
   - - [2944, 2944, 1, 128]
-    - [599, 4540.83]
+    - [630, 4540.83]
   - - [4, 4, 1, 1280]
-    - [578, 3.14762]
+    - [609, 3.14762]
   - - [1856, 3584, 1, 1280]
-    - [615, 7306.36]
+    - [646, 7306.36]
   - - [64, 2944, 1, 256]
-    - [627, 2292.61]
+    - [658, 2292.61]
   - - [448, 256, 1, 128]
-    - [536, 797.93]
+    - [567, 797.93]
   - - [4288, 448, 1, 128]
-    - [602, 3430.5]
+    - [633, 3430.5]
   - - [4608, 24000, 1, 1536]
-    - [620, 6820.24]
+    - [651, 6820.24]
   - - [1856, 1408, 1, 3328]
-    - [623, 6600.24]
+    - [654, 6600.24]
   - - [128, 128, 1, 128]
-    - [528, 161.917]
+    - [559, 161.917]
   - - [1024, 4288, 1, 3328]
-    - [611, 7937.08]
+    - [642, 7937.08]
   - - [448, 2368, 1, 256]
-    - [619, 4526.45]
+    - [650, 4526.45]
   - - [1024, 4, 1, 128]
-    - [631, 16.9907]
+    - [662, 16.9907]
   - - [64, 1408, 1, 1280]
-    - [551, 3345.32]
+    - [582, 3345.32]
   - - [64, 6784, 1, 1280]
-    - [616, 5526.6]
+    - [647, 5526.6]
   - - [5056, 448, 1, 256]
-    - [610, 4216.65]
+    - [641, 4216.65]
   - - [2944, 2368, 1, 3328]
-    - [621, 7000.42]
+    - [652, 7000.42]
   - - [704, 4288, 1, 3328]
-    - [627, 6414.43]
+    - [658, 6414.43]
   - - [1408, 128, 1, 256]
-    - [610, 2720.46]
+    - [641, 2720.46]
   - - [1024, 1856, 1, 1280]
-    - [621, 7682.93]
+    - [652, 7682.93]
   - - [2048, 6400, 1, 2048]
-    - [617, 7418.22]
+    - [648, 7418.22]
   - - [512, 48000, 1, 2816]
-    - [621, 8884.77]
+    - [652, 8884.77]
   - - [5124, 9124, 1, 2560]
-    - [613, 6040.8]
+    - [644, 6040.8]
   - - [128, 2368, 1, 3328]
-    - [567, 5025.66]
+    - [598, 5025.66]
   - - [1024, 5888, 1, 256]
-    - [615, 7322.21]
+    - [646, 7322.21]
   - - [64, 2944, 1, 1280]
-    - [551, 4222.31]
+    - [582, 4222.31]
   - - [5056, 64, 1, 3328]
-    - [592, 4936.32]
+    - [623, 4936.32]
   - - [128, 704, 1, 128]
-    - [537, 683.414]
+    - [568, 683.414]
   - - [1408, 2368, 1, 256]
-    - [616, 6404.22]
+    - [647, 6404.22]
   - - [1408, 1408, 1, 256]
-    - [621, 4537.93]
+    - [652, 4537.93]
   - - [4, 64, 1, 128]
-    - [630, 2.56747]
+    - [661, 2.56747]
   - - [64, 1024, 1, 128]
-    - [529, 532.372]
+    - [560, 532.372]
   - - [1024, 8, 1, 500000]
-    - [519, 1685.08]
+    - [550, 1685.08]
   - - [2368, 2368, 1, 128]
-    - [600, 4334.33]
+    - [631, 4334.33]
   - - [64, 5888, 1, 128]
-    - [529, 2003.19]
+    - [560, 2003.19]
   - - [5888, 4, 1, 3328]
-    - [547, 339.118]
+    - [578, 339.118]
   - - [6784, 1408, 1, 128]
-    - [603, 4431.23]
+    - [634, 4431.23]
   - - [4288, 5888, 1, 256]
-    - [621, 7800.88]
+    - [652, 7800.88]
   - - [1408, 5056, 1, 256]
-    - [615, 8153.38]
+    - [646, 8153.38]
   - - [5056, 128, 1, 3328]
-    - [572, 5829.93]
+    - [603, 5829.93]
   - - [128, 128, 1, 1280]
-    - [575, 1691.35]
+    - [606, 1691.35]
   - - [448, 704, 1, 256]
-    - [616, 3364.28]
+    - [647, 3364.28]
   - - [4288, 3584, 1, 128]
-    - [600, 2952.68]
+    - [631, 2952.68]
   - - [2944, 128, 1, 3328]
-    - [572, 5620.82]
+    - [603, 5620.82]
   - - [64, 1408, 1, 3328]
-    - [573, 4169.91]
+    - [604, 4169.91]
   - - [3584, 5056, 1, 1280]
-    - [618, 7780.76]
+    - [649, 7780.76]
   - - [256, 448, 1, 1280]
-    - [551, 3929.45]
+    - [582, 3929.45]
   - - [704, 704, 1, 128]
-    - [599, 2346.17]
+    - [630, 2346.17]
   - - [5056, 4, 1, 128]
-    - [630, 144.557]
+    - [661, 144.557]
   - - [704, 256, 1, 1280]
-    - [619, 2283.22]
+    - [650, 2283.22]
   - - [64, 2368, 1, 3328]
-    - [551, 4921.69]
+    - [582, 4921.69]
   - - [1856, 1024, 1, 128]
-    - [600, 3459.57]
+    - [631, 3459.57]
   - - [1856, 64, 1, 128]
-    - [532, 918.237]
+    - [563, 918.237]
   - - [4096, 64, 1, 4096]
-    - [577, 4000.62]
+    - [608, 4000.62]
   - - [1024, 24000, 1, 1536]
-    - [613, 8502.36]
+    - [644, 8502.36]
   - - [704, 4288, 1, 256]
-    - [617, 6003.83]
+    - [648, 6003.83]
   - - [5888, 2368, 1, 1280]
-    - [608, 8801.3]
+    - [639, 8801.3]
   - - [128, 256, 1, 256]
-    - [562, 1070.08]
+    - [593, 1070.08]
   - - [64, 128, 1, 256]
-    - [568, 374.591]
+    - [599, 374.591]
   - - [2368, 5888, 1, 1280]
-    - [611, 8308.63]
+    - [642, 8308.63]
   - - [5888, 256, 1, 1280]
-    - [619, 7154.42]
+    - [650, 7154.42]
   - - [1760, 128, 1, 1760]
-    - [560, 5363.91]
+    - [591, 5363.91]
   - - [4, 5888, 1, 1280]
-    - [568, 542.304]
+    - [599, 542.304]
   - - [704, 128, 1, 128]
-    - [540, 779.447]
+    - [571, 779.447]
   - - [1024, 4, 1, 1280]
-    - [568, 392.531]
+    - [599, 392.531]
   - - [2368, 1856, 1, 3328]
-    - [611, 7975.32]
+    - [642, 7975.32]
   - - [2368, 128, 1, 128]
-    - [533, 1584.96]
+    - [564, 1584.96]
   - - [2944, 704, 1, 256]
-    - [619, 4039.21]
+    - [650, 4039.21]
   - - [5056, 128, 1, 128]
-    - [599, 2575.89]
+    - [630, 2575.89]
   - - [2368, 1024, 1, 3328]
-    - [627, 6165.54]
+    - [658, 6165.54]
   - - [256, 704, 1, 3328]
-    - [610, 4028.74]
+    - [641, 4028.74]
   - - [704, 3584, 1, 256]
-    - [621, 6102.92]
+    - [652, 6102.92]
   - - [704, 2944, 1, 3328]
-    - [611, 8202.84]
+    - [642, 8202.84]
   - - [6784, 1024, 1, 128]
-    - [603, 4386.4]
+    - [634, 4386.4]
   - - [256, 448, 1, 128]
-    - [540, 834.195]
+    - [571, 834.195]
   - - [448, 1024, 1, 3328]
-    - [628, 5412.48]
+    - [659, 5412.48]
   - - [2944, 1024, 1, 3328]
-    - [621, 6265.87]
+    - [652, 6265.87]
   - - [2944, 5056, 1, 128]
-    - [599, 4770.88]
+    - [630, 4770.88]
   - - [2368, 256, 1, 256]
-    - [616, 3975.23]
+    - [647, 3975.23]
   - - [1408, 6784, 1, 256]
-    - [615, 7987.02]
+    - [646, 7987.02]
   - - [6784, 1408, 1, 3328]
-    - [615, 8472.71]
+    - [646, 8472.71]
   - - [4288, 6784, 1, 128]
-    - [606, 3865.2]
+    - [637, 3865.2]
   - - [704, 64, 1, 256]
-    - [554, 1287.41]
+    - [585, 1287.41]
   - - [5888, 4, 1, 1280]
-    - [553, 510.022]
+    - [584, 510.022]
   - - [256, 2368, 1, 3328]
-    - [616, 5837.65]
+    - [647, 5837.65]
   - - [6784, 2944, 1, 1280]
-    - [621, 8560.54]
+    - [652, 8560.54]
   - - [4288, 1856, 1, 128]
-    - [599, 4617.07]
+    - [630, 4617.07]
   - - [1856, 2944, 1, 128]
-    - [599, 4287.73]
+    - [630, 4287.73]
   - - [6784, 448, 1, 128]
-    - [603, 3893.43]
+    - [634, 3893.43]
   - - [64, 3584, 1, 128]
-    - [529, 1609.76]
+    - [560, 1609.76]
   - - [448, 5056, 1, 1280]
-    - [619, 7124.41]
+    - [650, 7124.41]
   - - [2368, 1856, 1, 128]
-    - [602, 4004.65]
+    - [633, 4004.65]
   - - [64, 2944, 1, 3328]
-    - [552, 5086.48]
+    - [583, 5086.48]
   - - [4288, 704, 1, 256]
-    - [617, 6176.57]
+    - [648, 6176.57]
   - - [256, 3584, 1, 128]
-    - [600, 2553.15]
+    - [631, 2553.15]
   - - [5888, 704, 1, 256]
-    - [616, 6781.51]
+    - [647, 6781.51]
   - - [3584, 1024, 1, 128]
-    - [603, 3660.95]
+    - [634, 3660.95]
   - - [256, 5888, 1, 3328]
-    - [619, 7772.13]
+    - [650, 7772.13]
   - - [1408, 4288, 1, 3328]
-    - [615, 8832.86]
+    - [646, 8832.86]
   - - [6784, 4288, 1, 256]
-    - [621, 8566.14]
+    - [652, 8566.14]
   - - [4288, 256, 1, 128]
-    - [601, 1953.79]
+    - [632, 1953.79]
   - - [5888, 256, 1, 256]
-    - [619, 3730.53]
+    - [650, 3730.53]
   - - [6784, 1024, 1, 1280]
-    - [615, 8578.39]
+    - [646, 8578.39]
   - - [5888, 1024, 1, 128]
-    - [600, 4092.96]
+    - [631, 4092.96]
   - - [1024, 128, 1, 256]
-    - [550, 1897.98]
+    - [581, 1897.98]
   - - [512, 16, 1, 500000]
-    - [521, 2363.79]
+    - [552, 2363.79]
   - - [128, 64, 1, 3328]
-    - [578, 1592.56]
+    - [609, 1592.56]
   - - [448, 64, 1, 256]
-    - [568, 976.168]
+    - [599, 976.168]
   - - [2368, 256, 1, 128]
-    - [603, 2094.99]
+    - [634, 2094.99]
   - - [6784, 3584, 1, 1280]
-    - [615, 8570.16]
+    - [646, 8570.16]
   - - [1024, 6784, 1, 1280]
-    - [621, 8203.57]
+    - [652, 8203.57]
   - - [2944, 64, 1, 1280]
-    - [559, 4300.61]
+    - [590, 4300.61]
   - - [1408, 2944, 1, 1280]
-    - [611, 7349.64]
+    - [642, 7349.64]
   - - [256, 1856, 1, 256]
-    - [610, 4649.75]
+    - [641, 4649.75]
   - - [2048, 800, 1, 2048]
-    - [629, 4668.73]
+    - [660, 4668.73]
   - - [1408, 2368, 1, 3328]
-    - [619, 7537.74]
+    - [650, 7537.74]
   - - [2944, 4, 1, 3328]
-    - [568, 514.142]
+    - [599, 514.142]
   - - [128, 1408, 1, 3328]
-    - [560, 4991.64]
+    - [591, 4991.64]
   - - [2944, 1856, 1, 128]
-    - [599, 4317.39]
+    - [630, 4317.39]
   - - [256, 2944, 1, 128]
-    - [599, 2258.27]
+    - [630, 2258.27]
   - - [256, 6784, 1, 128]
-    - [599, 3147.02]
+    - [630, 3147.02]
   - - [2368, 4, 1, 128]
-    - [631, 33.9286]
+    - [662, 33.9286]
   - - [1408, 256, 1, 3328]
-    - [610, 5077.85]
+    - [641, 5077.85]
   - - [1856, 4, 1, 128]
-    - [631, 21.5025]
+    - [662, 21.5025]
   - - [5056, 6784, 1, 128]
-    - [599, 4945.11]
+    - [630, 4945.11]
   - - [4288, 5056, 1, 128]
-    - [602, 4729.87]
+    - [633, 4729.87]
   - - [1856, 5888, 1, 128]
-    - [599, 4707.96]
+    - [630, 4707.96]
   - - [2944, 5888, 1, 256]
-    - [613, 8014.78]
+    - [644, 8014.78]
   - - [3584, 1856, 1, 256]
-    - [615, 7567.13]
+    - [646, 7567.13]
   - - [4288, 3584, 1, 1280]
-    - [608, 8726.43]
+    - [639, 8726.43]
   - - [2368, 448, 1, 256]
-    - [616, 4227.7]
+    - [647, 4227.7]
   - - [4288, 256, 1, 3328]
-    - [617, 5487.41]
+    - [648, 5487.41]
   - - [1856, 704, 1, 128]
-    - [603, 3125.06]
+    - [634, 3125.06]
   - - [1408, 64, 1, 256]
-    - [563, 1620.09]
+    - [594, 1620.09]
   - - [64, 1856, 1, 128]
-    - [527, 955.147]
+    - [558, 955.147]
   - - [4, 256, 1, 128]
-    - [630, 10.8789]
+    - [661, 10.8789]
   - - [2560, 16, 1, 2560]
-    - [575, 2019.7]
+    - [606, 2019.7]
   - - [704, 5888, 1, 128]
-    - [604, 3976.26]
+    - [635, 3976.26]
   - - [6784, 3584, 1, 128]
-    - [603, 4018.91]
+    - [634, 4018.91]
   - - [1024, 64, 1, 256]
-    - [568, 1370.79]
+    - [599, 1370.79]
   - - [64, 2368, 1, 256]
-    - [610, 2255.76]
+    - [641, 2255.76]
   - - [4288, 5056, 1, 3328]
-    - [615, 8368.69]
+    - [646, 8368.69]
   - - [4, 1856, 1, 1280]
-    - [568, 392.126]
+    - [599, 392.126]
   - - [4288, 128, 1, 128]
-    - [533, 2287.03]
+    - [564, 2287.03]
   - - [1408, 1408, 1, 128]
-    - [603, 3233.48]
+    - [634, 3233.48]
   - - [7680, 16, 1, 2560]
-    - [571, 2257.37]
+    - [602, 2257.37]
   - - [1856, 128, 1, 128]
-    - [533, 1532.8]
+    - [564, 1532.8]
   - - [5056, 2368, 1, 256]
-    - [615, 8167.29]
+    - [646, 8167.29]
   - - [4288, 704, 1, 3328]
-    - [621, 6411.16]
+    - [652, 6411.16]
   - - [448, 3584, 1, 256]
-    - [621, 5477.74]
+    - [652, 5477.74]
   - - [2368, 64, 1, 1280]
-    - [551, 3936.52]
+    - [582, 3936.52]
   - - [2368, 1024, 1, 1280]
-    - [617, 7688.82]
+    - [648, 7688.82]
   - - [2944, 1408, 1, 3328]
-    - [608, 7668.78]
+    - [639, 7668.78]
   - - [1408, 448, 1, 256]
-    - [610, 4863.98]
+    - [641, 4863.98]
   - - [1024, 1408, 1, 3328]
-    - [619, 7448.99]
+    - [650, 7448.99]
   - - [2944, 5888, 1, 1280]
-    - [609, 8208.57]
+    - [640, 8208.57]
   - - [1408, 4, 1, 1280]
-    - [548, 479.419]
+    - [579, 479.419]
   - - [5888, 3584, 1, 256]
-    - [609, 8610.09]
+    - [640, 8610.09]
   - - [2368, 5056, 1, 128]
-    - [606, 3726.25]
+    - [637, 3726.25]
   - - [1408, 1856, 1, 3328]
-    - [610, 7829.48]
+    - [641, 7829.48]
   - - [4, 4, 1, 3328]
-    - [637, 4.39419]
+    - [668, 4.39419]
   - - [6784, 1408, 1, 1280]
-    - [610, 7690.8]
+    - [641, 7690.8]
   - - [4096, 7000, 1, 4096]
-    - [622, 6272.49]
+    - [653, 6272.49]
   - - [704, 2944, 1, 256]
-    - [611, 6095.91]
+    - [642, 6095.91]
   - - [4288, 64, 1, 256]
-    - [576, 2121.31]
+    - [607, 2121.31]
   - - [6784, 5888, 1, 3328]
-    - [615, 8955.6]
+    - [646, 8955.6]
   - - [2368, 4288, 1, 128]
-    - [599, 4699.65]
+    - [630, 4699.65]
   - - [64, 4288, 1, 1280]
-    - [589, 4013.73]
+    - [620, 4013.73]
   - - [6784, 64, 1, 1280]
-    - [610, 5418.83]
+    - [641, 5418.83]
   - - [3584, 128, 1, 128]
-    - [539, 2165.3]
+    - [570, 2165.3]
   - - [1024, 6784, 1, 128]
-    - [600, 3765.3]
+    - [631, 3765.3]
   - - [4, 1856, 1, 128]
-    - [631, 33.3728]
+    - [662, 33.3728]
   - - [1408, 64, 1, 3328]
-    - [572, 4489.51]
+    - [603, 4489.51]
   - - [6784, 4, 1, 256]
-    - [568, 400.262]
+    - [599, 400.262]
   - - [1408, 1408, 1, 1280]
-    - [615, 8139.53]
+    - [646, 8139.53]
   - - [16384, 400, 1, 4096]
-    - [619, 6087.28]
+    - [650, 6087.28]
   - - [256, 2368, 1, 256]
-    - [610, 4766.35]
+    - [641, 4766.35]
   - - [448, 4288, 1, 3328]
-    - [617, 7577.08]
+    - [648, 7577.08]
   - - [2368, 1408, 1, 256]
-    - [613, 5284.53]
+    - [644, 5284.53]
   - - [5888, 5056, 1, 128]
-    - [600, 3643.6]
+    - [631, 3643.6]
   - - [704, 2368, 1, 256]
-    - [615, 5334.73]
+    - [646, 5334.73]
   - - [1024, 24000, 1, 2560]
-    - [623, 7438.06]
+    - [654, 7438.06]
   - - [2944, 448, 1, 1280]
-    - [624, 4937.53]
+    - [655, 4937.53]
   - - [5888, 2368, 1, 3328]
-    - [609, 8201.84]
+    - [640, 8201.84]
   - - [5124, 9124, 1, 1760]
-    - [616, 6764.06]
+    - [647, 6764.06]
   - - [448, 1408, 1, 1280]
-    - [610, 5881.54]
+    - [641, 5881.54]
   - - [448, 1856, 1, 1280]
-    - [617, 6225.56]
+    - [648, 6225.56]
   - - [4288, 448, 1, 1280]
-    - [619, 5626.37]
+    - [650, 5626.37]
   - - [5888, 704, 1, 3328]
-    - [613, 7873.62]
+    - [644, 7873.62]
   - - [5056, 256, 1, 128]
-    - [604, 2921.03]
+    - [635, 2921.03]
   - - [1856, 256, 1, 128]
-    - [606, 1995.42]
+    - [637, 1995.42]
   - - [64, 1408, 1, 128]
-    - [527, 758.938]
+    - [558, 758.938]
   - - [704, 4, 1, 256]
-    - [568, 130.697]
+    - [599, 130.697]
   - - [1408, 5888, 1, 128]
-    - [599, 4574.05]
+    - [630, 4574.05]
   - - [7680, 12000, 1, 2560]
-    - [615, 8747.13]
+    - [646, 8747.13]
   - - [1408, 1024, 1, 256]
-    - [612, 4609.23]
+    - [643, 4609.23]
   - - [8192, 400, 1, 2048]
-    - [624, 5283.25]
+    - [655, 5283.25]
   - - [1024, 1856, 1, 128]
-    - [599, 2686.38]
+    - [630, 2686.38]
   - - [256, 704, 1, 128]
-    - [599, 1004.83]
+    - [630, 1004.83]
   - - [2560, 128, 1, 2560]
-    - [577, 4259.14]
+    - [608, 4259.14]
   - - [448, 1024, 1, 256]
-    - [610, 4813.24]
+    - [641, 4813.24]
   - - [128, 4, 1, 3328]
-    - [636, 128.408]
+    - [667, 128.408]
   - - [5056, 6784, 1, 1280]
-    - [618, 6579.85]
+    - [649, 6579.85]
   - - [1408, 64, 1, 128]
-    - [540, 819.3]
+    - [571, 819.3]
   - - [1024, 448, 1, 1280]
-    - [619, 5703.31]
+    - [650, 5703.31]
   - - [704, 5056, 1, 3328]
-    - [611, 7574.49]
+    - [642, 7574.49]
   - - [128, 5056, 1, 256]
-    - [610, 5113.53]
+    - [641, 5113.53]
   - - [64, 1024, 1, 3328]
-    - [595, 3980.1]
+    - [626, 3980.1]
   - - [1856, 4, 1, 3328]
-    - [549, 433.253]
+    - [580, 433.253]
   - - [4, 2944, 1, 128]
-    - [631, 46.6225]
+    - [662, 46.6225]
   - - [2368, 2944, 1, 3328]
-    - [609, 9002.13]
+    - [640, 9002.13]
   - - [448, 448, 1, 1280]
-    - [551, 3969.52]
+    - [582, 3969.52]
   - - [2368, 3584, 1, 256]
-    - [621, 7806.39]
+    - [652, 7806.39]
   - - [5056, 3584, 1, 1280]
-    - [608, 8971.56]
+    - [639, 8971.56]
   - - [5124, 9124, 1, 4096]
-    - [621, 7208.72]
+    - [652, 7208.72]
   - - [7680, 48000, 1, 2560]
-    - [615, 3835.91]
+    - [646, 3835.91]
   - - [448, 4, 1, 3328]
-    - [636, 409.7]
+    - [667, 409.7]
   - - [1856, 2944, 1, 1280]
-    - [608, 7173.71]
+    - [639, 7173.71]
   - - [1024, 48000, 1, 2816]
-    - [615, 8976.26]
+    - [646, 8976.26]
   - - [128, 1024, 1, 256]
-    - [554, 1969.26]
+    - [585, 1969.26]
   - - [2944, 1408, 1, 256]
-    - [617, 4585.12]
+    - [648, 4585.12]
   - - [4288, 1408, 1, 3328]
-    - [611, 8237.27]
+    - [642, 8237.27]
   - - [3584, 64, 1, 3328]
-    - [557, 5183.16]
+    - [588, 5183.16]
   - - [5888, 2944, 1, 128]
-    - [606, 3674.56]
+    - [637, 3674.56]
   - - [2944, 1024, 1, 128]
-    - [603, 3834.32]
+    - [634, 3834.32]
   - - [4288, 5056, 1, 1280]
-    - [615, 8086.1]
+    - [646, 8086.1]
   - - [5888, 6784, 1, 1280]
-    - [609, 6941.32]
+    - [640, 6941.32]
   - - [6784, 5056, 1, 128]
-    - [600, 4860.15]
+    - [631, 4860.15]
   - - [256, 1024, 1, 3328]
-    - [624, 5156.22]
+    - [655, 5156.22]
   - - [3584, 4, 1, 256]
-    - [568, 332.529]
+    - [599, 332.529]
   - - [1760, 1600, 1, 1760]
-    - [611, 6330.76]
+    - [642, 6330.76]
   - - [1856, 64, 1, 3328]
-    - [572, 4756.03]
+    - [603, 4756.03]
   - - [4, 128, 1, 3328]
-    - [636, 160.244]
+    - [667, 160.244]
   - - [5888, 1408, 1, 3328]
-    - [609, 8722.74]
+    - [640, 8722.74]
   - - [448, 2944, 1, 128]
-    - [602, 2997.63]
+    - [633, 2997.63]
   - - [2368, 1856, 1, 256]
-    - [610, 6662.34]
+    - [641, 6662.34]
   - - [256, 5056, 1, 256]
-    - [612, 5256.29]
+    - [643, 5256.29]
   - - [128, 3584, 1, 128]
-    - [531, 2073.56]
+    - [562, 2073.56]
   - - [448, 3584, 1, 3328]
-    - [608, 6833.96]
+    - [639, 6833.96]
   - - [4, 5056, 1, 3328]
-    - [578, 581.523]
+    - [609, 581.523]
   - - [704, 2368, 1, 128]
-    - [599, 3402.29]
+    - [630, 3402.29]
   - - [5888, 256, 1, 128]
-    - [604, 2977.54]
+    - [635, 2977.54]
   - - [4, 5056, 1, 128]
-    - [630, 65.2074]
+    - [661, 65.2074]
   - - [448, 256, 1, 256]
-    - [616, 1764.53]
+    - [647, 1764.53]
   - - [704, 4, 1, 3328]
-    - [568, 398.554]
+    - [599, 398.554]
   - - [1408, 256, 1, 256]
-    - [611, 3463.86]
+    - [642, 3463.86]
   - - [3584, 1856, 1, 128]
-    - [607, 3228.19]
+    - [638, 3228.19]
   - - [4288, 4288, 1, 128]
-    - [603, 4853.93]
+    - [634, 4853.93]
   - - [1856, 1024, 1, 3328]
-    - [627, 5994.68]
+    - [658, 5994.68]
   - - [128, 5888, 1, 3328]
-    - [581, 6512.85]
+    - [612, 6512.85]
   - - [1024, 5056, 1, 256]
-    - [621, 7859.42]
+    - [652, 7859.42]
   - - [5888, 5888, 1, 1280]
-    - [621, 8131.44]
+    - [652, 8131.44]
   - - [5056, 5888, 1, 128]
-    - [600, 4920.71]
+    - [631, 4920.71]
   - - [2368, 1408, 1, 3328]
-    - [619, 7110.74]
+    - [650, 7110.74]
   - - [1024, 48000, 1, 1536]
-    - [619, 8590.82]
+    - [650, 8590.82]
   - - [5888, 448, 1, 256]
-    - [620, 3567.74]
+    - [651, 3567.74]
   - - [2560, 3200, 1, 2560]
-    - [610, 7638.31]
+    - [641, 7638.31]
   - - [5888, 6784, 1, 128]
-    - [600, 3910.92]
+    - [631, 3910.92]
   - - [6144, 48000, 1, 2048]
-    - [621, 3412.95]
+    - [652, 3412.95]
   - - [6784, 5056, 1, 1280]
-    - [612, 7890.22]
+    - [643, 7890.22]
   - - [5056, 704, 1, 1280]
-    - [616, 7665.06]
+    - [647, 7665.06]
   - - [1024, 48000, 1, 2560]
-    - [621, 8188.5]
+    - [652, 8188.5]
   - - [4608, 32, 1, 1536]
-    - [589, 2856.97]
+    - [620, 2856.97]
   - - [1024, 2368, 1, 128]
-    - [599, 3019.35]
+    - [630, 3019.35]
   - - [128, 704, 1, 256]
-    - [550, 1696.33]
+    - [581, 1696.33]
   - - [2368, 448, 1, 3328]
-    - [616, 5799.29]
+    - [647, 5799.29]
   - - [128, 5888, 1, 1280]
-    - [610, 6680.75]
+    - [641, 6680.75]
   - - [16384, 800, 1, 4096]
-    - [615, 6322.22]
+    - [646, 6322.22]
   - - [448, 128, 1, 1280]
-    - [589, 2849.49]
+    - [620, 2849.49]
   - - [6784, 4, 1, 3328]
-    - [568, 563.12]
+    - [599, 563.12]
   - - [5888, 5056, 1, 1280]
-    - [615, 8631.33]
+    - [646, 8631.33]
   - - [1024, 64, 1, 3328]
-    - [590, 3481.96]
+    - [621, 3481.96]
   - - [3072, 48000, 1, 1024]
-    - [615, 9019.49]
+    - [646, 9019.49]
   - - [64, 3584, 1, 1280]
-    - [552, 4327.95]
+    - [583, 4327.95]
   - - [6784, 1408, 1, 256]
-    - [615, 6320.59]
+    - [646, 6320.59]
   - - [3584, 5888, 1, 128]
-    - [602, 4406.79]
+    - [633, 4406.79]
   - - [5056, 5888, 1, 256]
-    - [621, 8037.13]
+    - [652, 8037.13]
   - - [2368, 1024, 1, 256]
-    - [613, 4936.14]
+    - [644, 4936.14]
   - - [2944, 1856, 1, 256]
-    - [621, 7222.32]
+    - [652, 7222.32]
   - - [1856, 6784, 1, 1280]
-    - [611, 8251.81]
+    - [642, 8251.81]
   - - [64, 5056, 1, 128]
-    - [531, 1643.7]
+    - [562, 1643.7]
   - - [64, 6784, 1, 128]
-    - [529, 1929.77]
+    - [560, 1929.77]
   - - [448, 704, 1, 128]
-    - [601, 979.959]
+    - [632, 979.959]
   - - [4, 1024, 1, 128]
-    - [630, 20.1416]
+    - [661, 20.1416]
   - - [4288, 3584, 1, 256]
-    - [615, 8444.14]
+    - [646, 8444.14]
   - - [1408, 704, 1, 128]
-    - [599, 3021.0]
+    - [630, 3021.0]
   - - [64, 256, 1, 3328]
-    - [595, 2227.47]
+    - [626, 2227.47]
   - - [6784, 448, 1, 3328]
-    - [621, 6573.11]
+    - [652, 6573.11]
   - - [5056, 1856, 1, 1280]
-    - [613, 7976.23]
+    - [644, 7976.23]
   - - [1408, 1024, 1, 3328]
-    - [611, 7470.33]
+    - [642, 7470.33]
   - - [2368, 256, 1, 3328]
-    - [616, 5394.37]
+    - [647, 5394.37]
   - - [5888, 3584, 1, 1280]
-    - [608, 9031.55]
+    - [639, 9031.55]
   - - [1856, 3584, 1, 3328]
-    - [623, 7272.6]
+    - [654, 7272.6]
   - - [5888, 128, 1, 1280]
-    - [616, 6684.48]
+    - [647, 6684.48]
   - - [1024, 2944, 1, 256]
-    - [621, 7415.09]
+    - [652, 7415.09]
   - - [448, 6784, 1, 1280]
-    - [617, 7923.78]
+    - [648, 7923.78]
   - - [256, 3584, 1, 1280]
-    - [613, 6901.87]
+    - [644, 6901.87]
   - - [704, 5056, 1, 256]
-    - [618, 5004.55]
+    - [649, 5004.55]
   - - [3584, 1024, 1, 3328]
-    - [610, 7894.63]
+    - [641, 7894.63]
   - - [2944, 1856, 1, 1280]
-    - [615, 7903.27]
+    - [646, 7903.27]
   - - [128, 256, 1, 128]
-    - [528, 325.745]
+    - [559, 325.745]
   - - [5056, 256, 1, 256]
-    - [612, 3356.56]
+    - [643, 3356.56]
   - - [2944, 4288, 1, 3328]
-    - [621, 7813.93]
+    - [652, 7813.93]
   - - [2368, 3584, 1, 3328]
-    - [621, 8371.09]
+    - [652, 8371.09]
   - - [2944, 704, 1, 1280]
-    - [627, 5514.09]
+    - [658, 5514.09]
   - - [128, 4, 1, 256]
-    - [568, 25.3062]
+    - [599, 25.3062]
   - - [2944, 3584, 1, 1280]
-    - [615, 7738.83]
+    - [646, 7738.83]
   - - [1856, 5888, 1, 1280]
-    - [609, 8584.63]
+    - [640, 8584.63]
   - - [256, 256, 1, 1280]
-    - [589, 2962.18]
+    - [620, 2962.18]
   - - [2048, 3200, 1, 2048]
-    - [617, 6911.69]
+    - [648, 6911.69]
   - - [4288, 1408, 1, 256]
-    - [615, 7954.0]
+    - [646, 7954.0]
   - - [3584, 64, 1, 256]
-    - [616, 2780.42]
+    - [647, 2780.42]
   - - [64, 1856, 1, 3328]
-    - [551, 4912.04]
+    - [582, 4912.04]
   - - [256, 1408, 1, 128]
-    - [599, 1373.24]
+    - [630, 1373.24]
   - - [5888, 1408, 1, 128]
-    - [604, 4242.01]
+    - [635, 4242.01]
   - - [4288, 2368, 1, 1280]
-    - [613, 8012.7]
+    - [644, 8012.7]
   - - [4, 4288, 1, 256]
-    - [634, 301.674]
+    - [665, 301.674]
   - - [256, 4288, 1, 128]
-    - [599, 2706.36]
+    - [630, 2706.36]
   - - [2048, 128, 1, 2048]
-    - [594, 2885.26]
+    - [625, 2885.26]
   - - [256, 128, 1, 3328]
-    - [596, 3170.21]
+    - [627, 3170.21]
   - - [512, 8, 1, 500000]
-    - [520, 1915.12]
+    - [551, 1915.12]
   - - [6784, 2368, 1, 256]
-    - [615, 8323.66]
+    - [646, 8323.66]
   - - [5888, 128, 1, 128]
-    - [603, 2466.08]
+    - [634, 2466.08]
   - - [1024, 24000, 1, 2816]
-    - [613, 8131.64]
+    - [644, 8131.64]
   - - [7680, 5984, 1, 2560]
-    - [617, 6040.77]
+    - [648, 6040.77]
   - - [4288, 1856, 1, 256]
-    - [629, 5818.53]
+    - [660, 5818.53]
   - - [1856, 256, 1, 3328]
-    - [610, 6532.03]
+    - [641, 6532.03]
   - - [1856, 2944, 1, 256]
-    - [615, 7312.92]
+    - [646, 7312.92]
   - - [5056, 1024, 1, 128]
-    - [605, 4103.0]
+    - [636, 4103.0]
   - - [64, 5888, 1, 1280]
-    - [610, 5058.25]
+    - [641, 5058.25]
   - - [1760, 800, 1, 1760]
-    - [613, 7280.0]
+    - [644, 7280.0]
   - - [6784, 256, 1, 128]
-    - [603, 3257.69]
+    - [634, 3257.69]
   - - [5888, 704, 1, 128]
-    - [599, 3813.93]
+    - [630, 3813.93]
   - - [1408, 2368, 1, 128]
-    - [600, 3561.27]
+    - [631, 3561.27]
   - - [1024, 4288, 1, 1280]
-    - [619, 7752.74]
+    - [650, 7752.74]
   - - [2368, 5056, 1, 3328]
-    - [622, 7711.91]
+    - [653, 7711.91]
   - - [448, 4, 1, 128]
-    - [630, 18.4795]
+    - [661, 18.4795]
   - - [4, 256, 1, 3328]
-    - [637, 269.71]
+    - [668, 269.71]
   - - [4288, 1024, 1, 3328]
-    - [616, 7910.27]
+    - [647, 7910.27]
   - - [6144, 48000, 1, 2560]
-    - [615, 3541.09]
+    - [646, 3541.09]
   - - [1024, 5056, 1, 3328]
-    - [609, 8509.66]
+    - [640, 8509.66]
   - - [1024, 1856, 1, 3328]
-    - [615, 7907.93]
+    - [646, 7907.93]
   - - [704, 704, 1, 1280]
-    - [627, 5648.15]
+    - [658, 5648.15]
   - - [128, 2368, 1, 1280]
-    - [586, 4145.11]
+    - [617, 4145.11]
   - - [1408, 128, 1, 3328]
-    - [559, 4919.6]
+    - [590, 4919.6]
   - - [3584, 256, 1, 1280]
-    - [611, 5185.56]
+    - [642, 5185.56]
   - - [4, 128, 1, 128]
-    - [630, 3.07891]
+    - [661, 3.07891]
   - - [5888, 64, 1, 1280]
-    - [559, 4499.59]
+    - [590, 4499.59]
   - - [3584, 128, 1, 1280]
-    - [616, 5929.01]
+    - [647, 5929.01]
   - - [4, 256, 1, 1280]
-    - [635, 170.767]
+    - [666, 170.767]
   - - [128, 704, 1, 3328]
-    - [559, 4379.37]
+    - [590, 4379.37]
   - - [4288, 6784, 1, 256]
-    - [609, 7181.09]
+    - [640, 7181.09]
   - - [3584, 2944, 1, 3328]
-    - [615, 8553.3]
+    - [646, 8553.3]
   - - [128, 1856, 1, 256]
-    - [616, 3207.77]
+    - [647, 3207.77]
   - - [64, 4288, 1, 256]
-    - [610, 2907.99]
+    - [641, 2907.99]
   - - [4, 3584, 1, 3328]
-    - [568, 560.605]
+    - [599, 560.605]
   - - [64, 4, 1, 3328]
-    - [637, 67.5025]
+    - [668, 67.5025]
   - - [4, 64, 1, 3328]
-    - [637, 88.8467]
+    - [668, 88.8467]
   - - [5888, 2944, 1, 256]
-    - [615, 7255.77]
+    - [646, 7255.77]
   - - [1856, 64, 1, 256]
-    - [561, 1743.72]
+    - [592, 1743.72]
   - - [5056, 128, 1, 1280]
-    - [616, 6009.79]
+    - [647, 6009.79]
   - - [448, 4288, 1, 1280]
-    - [617, 6466.82]
+    - [648, 6466.82]
   - - [448, 1856, 1, 3328]
-    - [617, 6381.99]
+    - [648, 6381.99]
   - - [1024, 4288, 1, 128]
-    - [602, 3491.87]
+    - [633, 3491.87]
   - - [4, 1024, 1, 256]
-    - [635, 172.563]
+    - [666, 172.563]
   - - [5056, 4288, 1, 256]
-    - [615, 8241.52]
+    - [646, 8241.52]
   - - [1024, 448, 1, 256]
-    - [619, 4218.51]
+    - [650, 4218.51]
   - - [1024, 3584, 1, 256]
-    - [615, 6513.69]
+    - [646, 6513.69]
   - - [2944, 128, 1, 1280]
-    - [559, 4710.48]
+    - [590, 4710.48]
   - - [2048, 32, 1, 2048]
-    - [574, 1779.23]
+    - [605, 1779.23]
   - - [64, 256, 1, 256]
-    - [568, 655.46]
+    - [599, 655.46]
   - - [1408, 4, 1, 128]
-    - [631, 20.1249]
+    - [662, 20.1249]
   - - [128, 2368, 1, 128]
-    - [531, 1707.73]
+    - [562, 1707.73]
   - - [256, 704, 1, 1280]
-    - [610, 3735.31]
+    - [641, 3735.31]
   - - [64, 2368, 1, 128]
-    - [538, 1049.81]
+    - [569, 1049.81]
   - - [6784, 6784, 1, 3328]
-    - [615, 9277.94]
+    - [646, 9277.94]
   - - [448, 5888, 1, 1280]
-    - [621, 7319.75]
+    - [652, 7319.75]
   - - [5056, 448, 1, 128]
-    - [603, 3694.43]
+    - [634, 3694.43]
   - - [4288, 704, 1, 1280]
-    - [613, 7890.96]
+    - [644, 7890.96]
   - - [3584, 2944, 1, 128]
-    - [605, 4124.71]
+    - [636, 4124.71]
   - - [6784, 256, 1, 1280]
-    - [621, 7185.83]
+    - [652, 7185.83]
   - - [256, 2944, 1, 1280]
-    - [610, 6736.76]
+    - [641, 6736.76]
   - - [64, 4288, 1, 128]
-    - [529, 1614.41]
+    - [560, 1614.41]
   - - [2368, 5888, 1, 3328]
-    - [611, 8616.46]
+    - [642, 8616.46]
   - - [4, 64, 1, 256]
-    - [548, 11.4778]
+    - [579, 11.4778]
   - - [704, 1024, 1, 3328]
-    - [616, 6801.92]
+    - [647, 6801.92]
   - - [2368, 1856, 1, 1280]
-    - [613, 7853.57]
+    - [644, 7853.57]
   - - [448, 5056, 1, 3328]
-    - [616, 7453.04]
+    - [647, 7453.04]
   - - [128, 448, 1, 128]
-    - [531, 530.449]
+    - [562, 530.449]
   - - [128, 6784, 1, 256]
-    - [611, 5557.55]
+    - [642, 5557.55]
   - - [3584, 4288, 1, 128]
-    - [602, 4462.73]
+    - [633, 4462.73]
   - - [64, 448, 1, 128]
-    - [531, 278.132]
+    - [562, 278.132]
   - - [5888, 4288, 1, 3328]
-    - [608, 9153.55]
+    - [639, 9153.55]
   - - [2368, 704, 1, 256]
-    - [615, 5350.78]
+    - [646, 5350.78]
   - - [256, 1856, 1, 3328]
-    - [610, 6536.35]
+    - [641, 6536.35]
   - - [1856, 128, 1, 256]
-    - [624, 2847.36]
+    - [655, 2847.36]
   - - [6784, 128, 1, 128]
-    - [604, 2530.82]
+    - [635, 2530.82]
   - - [3584, 1408, 1, 128]
-    - [605, 3625.62]
+    - [636, 3625.62]
   - - [1856, 5056, 1, 1280]
-    - [611, 8123.39]
+    - [642, 8123.39]
   - - [2944, 1024, 1, 1280]
-    - [621, 8450.41]
+    - [652, 8450.41]
   - - [5056, 4, 1, 256]
-    - [635, 380.787]
+    - [666, 380.787]
   - - [3584, 5888, 1, 3328]
-    - [613, 8567.99]
+    - [644, 8567.99]
   - - [2368, 4288, 1, 256]
-    - [617, 7858.07]
+    - [648, 7858.07]
   - - [1024, 2368, 1, 3328]
-    - [611, 6776.45]
+    - [642, 6776.45]
   - - [64, 704, 1, 3328]
-    - [566, 3503.52]
+    - [597, 3503.52]
   - - [704, 1408, 1, 256]
-    - [611, 6099.99]
+    - [642, 6099.99]
   - - [4096, 128, 1, 4096]
-    - [591, 4116.57]
+    - [622, 4116.57]
   - - [1024, 3584, 1, 1280]
-    - [621, 7231.65]
+    - [652, 7231.65]
   - - [4288, 5888, 1, 3328]
-    - [615, 8762.42]
+    - [646, 8762.42]
   - - [4288, 4, 1, 1280]
-    - [568, 492.797]
+    - [599, 492.797]
   - - [4608, 16, 1, 1536]
-    - [569, 1892.58]
+    - [600, 1892.58]
   - - [5888, 64, 1, 128]
-    - [546, 1747.73]
+    - [577, 1747.73]
   - - [4, 5888, 1, 128]
-    - [631, 84.5915]
+    - [662, 84.5915]
   - - [1024, 2944, 1, 3328]
-    - [619, 6907.05]
+    - [650, 6907.05]
   - - [6784, 1856, 1, 256]
-    - [615, 6274.07]
+    - [646, 6274.07]
   - - [2048, 64, 1, 2048]
-    - [598, 2371.44]
+    - [629, 2371.44]
   - - [256, 6784, 1, 1280]
-    - [615, 7067.04]
+    - [646, 7067.04]
   - - [1856, 3584, 1, 256]
-    - [621, 7706.87]
+    - [652, 7706.87]
   - - [128, 448, 1, 3328]
-    - [566, 3995.93]
+    - [597, 3995.93]
   - - [6784, 1856, 1, 128]
-    - [603, 4459.09]
+    - [634, 4459.09]
   - - [4, 448, 1, 256]
-    - [568, 84.4294]
+    - [599, 84.4294]
   - - [5056, 128, 1, 256]
-    - [616, 4954.5]
+    - [647, 4954.5]
   - - [512, 24000, 1, 2816]
-    - [609, 8994.98]
+    - [640, 8994.98]
   - - [256, 5888, 1, 1280]
-    - [608, 6184.0]
+    - [639, 6184.0]
   - - [4, 128, 1, 1280]
-    - [636, 71.9597]
+    - [667, 71.9597]
   - - [16384, 1600, 1, 4096]
-    - [615, 6921.09]
+    - [646, 6921.09]
   - - [6784, 128, 1, 1280]
-    - [619, 6486.37]
+    - [650, 6486.37]
   - - [64, 1408, 1, 256]
-    - [556, 1647.86]
+    - [587, 1647.86]
   - - [2368, 1408, 1, 128]
-    - [603, 3937.1]
+    - [634, 3937.1]
   - - [1856, 448, 1, 256]
-    - [616, 4635.57]
+    - [647, 4635.57]
   - - [1408, 1024, 1, 128]
-    - [599, 3208.51]
+    - [630, 3208.51]
   - - [128, 64, 1, 128]
-    - [528, 70.192]
+    - [559, 70.192]
   - - [6784, 3584, 1, 3328]
-    - [621, 8466.28]
+    - [652, 8466.28]
   - - [1760, 7000, 1, 1760]
-    - [619, 8149.21]
+    - [650, 8149.21]
   - - [2944, 64, 1, 3328]
-    - [552, 5018.09]
+    - [583, 5018.09]
   - - [64, 64, 1, 128]
-    - [528, 35.5249]
+    - [559, 35.5249]
   - - [2368, 5056, 1, 1280]
-    - [615, 8764.0]
+    - [646, 8764.0]
   - - [64, 4, 1, 1280]
-    - [637, 43.6745]
+    - [668, 43.6745]
   - - [1408, 2368, 1, 1280]
-    - [616, 7660.38]
+    - [647, 7660.38]
   - - [128, 1408, 1, 1280]
-    - [551, 4185.27]
+    - [582, 4185.27]
   - - [256, 64, 1, 3328]
-    - [576, 2071.75]
+    - [607, 2071.75]
   - - [704, 4288, 1, 128]
-    - [599, 4069.18]
+    - [630, 4069.18]
   - - [128, 1856, 1, 3328]
-    - [582, 5776.15]
+    - [613, 5776.15]
   - - [2944, 2944, 1, 256]
-    - [621, 7949.31]
+    - [652, 7949.31]
   - - [2944, 4, 1, 1280]
-    - [568, 483.218]
+    - [599, 483.218]
   - - [5888, 4, 1, 256]
-    - [553, 396.765]
+    - [584, 396.765]
   - - [6784, 256, 1, 256]
-    - [627, 4044.83]
+    - [658, 4044.83]
   - - [256, 5056, 1, 3328]
-    - [610, 7607.37]
+    - [641, 7607.37]
   - - [128, 4288, 1, 1280]
-    - [551, 4958.78]
+    - [582, 4958.78]
   - - [5056, 1856, 1, 128]
-    - [603, 4560.94]
+    - [634, 4560.94]
   - - [5056, 1024, 1, 3328]
-    - [615, 8634.18]
+    - [646, 8634.18]
   - - [128, 128, 1, 256]
-    - [553, 699.151]
+    - [584, 699.151]
   - - [1760, 64, 1, 1760]
-    - [559, 4580.65]
+    - [590, 4580.65]
   - - [4288, 3584, 1, 3328]
-    - [621, 9143.76]
+    - [652, 9143.76]
   - - [448, 704, 1, 3328]
-    - [610, 4473.43]
+    - [641, 4473.43]
   - - [448, 448, 1, 128]
-    - [541, 1264.38]
+    - [572, 1264.38]
   - - [1024, 2368, 1, 1280]
-    - [619, 7452.51]
+    - [650, 7452.51]
   - - [1856, 704, 1, 3328]
-    - [610, 6103.34]
+    - [641, 6103.34]
   - - [4, 2368, 1, 128]
-    - [630, 96.019]
+    - [661, 96.019]
   - - [5888, 6784, 1, 3328]
-    - [615, 9131.74]
+    - [646, 9131.74]
   - - [704, 4288, 1, 1280]
-    - [617, 7906.46]
+    - [648, 7906.46]
   - - [704, 256, 1, 256]
-    - [610, 2772.78]
+    - [641, 2772.78]
   - - [1024, 48000, 1, 2048]
-    - [614, 6513.45]
+    - [645, 6513.45]
   - - [4288, 1024, 1, 128]
-    - [599, 4291.77]
+    - [630, 4291.77]
   - - [256, 64, 1, 3136]
-    - [640, 3015.37]
+    - [671, 3015.37]
   - - [256, 1024, 1, 196]
-    - [644, 4225.45]
+    - [675, 4225.45]
   - - [1024, 1024, 1, 3328]
-    - [756, 8705.1]
+    - [787, 8705.1]
   - - [2048, 200, 1, 3200]
-    - [761, 6173.42]
+    - [792, 6173.42]
   - - [1024, 200, 1, 13312]
-    - [659, 5213.31]
+    - [690, 5213.31]
   - - [1024, 256, 1, 1536]
-    - [761, 5859.43]
+    - [792, 5859.43]
   - - [4096, 256, 1, 12288]
-    - [766, 8807.52]
+    - [797, 8807.52]
   - - [64, 200, 1, 1024]
-    - [733, 366.632]
+    - [764, 366.632]
   - - [32, 512, 1, 1024]
-    - [688, 453.049]
+    - [719, 453.049]
   - - [2048, 256, 1, 3328]
-    - [750, 7876.73]
+    - [781, 7876.73]
   - - [4096, 512, 1, 32]
-    - [754, 3975.74]
+    - [785, 3975.74]
   - - [2048, 256, 1, 13312]
-    - [731, 7837.81]
+    - [762, 7837.81]
   - - [4096, 200, 1, 11264]
-    - [766, 6902.76]
+    - [797, 6902.76]
   - - [2048, 512, 1, 1024]
-    - [760, 8100.14]
+    - [791, 8100.14]
   - - [2048, 1024, 1, 1664]
-    - [660, 9082.08]
+    - [691, 9082.08]
   - - [1024, 1024, 1, 64]
-    - [756, 4258.28]
+    - [787, 4258.28]
   - - [512, 1024, 1, 1536]
-    - [750, 7597.33]
+    - [781, 7597.33]
   - - [1024, 256, 1, 15360]
-    - [651, 6735.24]
+    - [682, 6735.24]
   - - [1, 512, 1, 1024]
-    - [701, 15.1657]
+    - [732, 15.1657]
   - - [4096, 512, 1, 1408]
-    - [663, 9024.52]
+    - [694, 9024.52]
   - - [1024, 200, 1, 1408]
-    - [761, 4461.09]
+    - [792, 4461.09]
   - - [1024, 512, 1, 512]
-    - [755, 6528.2]
+    - [786, 6528.2]
   - - [4096, 256, 1, 15360]
-    - [762, 8824.03]
+    - [793, 8824.03]
   - - [2048, 512, 1, 640]
-    - [752, 7989.25]
+    - [783, 7989.25]
   - - [4096, 1024, 1, 1280]
-    - [658, 9421.54]
+    - [689, 9421.54]
   - - [1024, 200, 1, 6144]
-    - [750, 4966.52]
+    - [781, 4966.52]
   - - [1024, 1024, 1, 512]
-    - [752, 7731.54]
+    - [783, 7731.54]
   - - [128, 512, 1, 2048]
-    - [668, 2190.34]
+    - [699, 2190.34]
   - - [2048, 1024, 1, 640]
-    - [658, 8581.8]
+    - [689, 8581.8]
   - - [1024, 256, 1, 3328]
-    - [750, 6192.71]
+    - [781, 6192.71]
   - - [4096, 1024, 1, 13312]
-    - [663, 9642.59]
+    - [694, 9642.59]
   - - [2048, 256, 1, 2048]
-    - [750, 7485.75]
+    - [781, 7485.75]
   - - [2048, 1024, 1, 13312]
-    - [663, 9352.26]
+    - [694, 9352.26]
   - - [2048, 512, 1, 16640]
-    - [751, 8839.17]
+    - [782, 8839.17]
   - - [1024, 512, 1, 128]
-    - [755, 4280.0]
+    - [786, 4280.0]
   - - [2048, 1024, 1, 3584]
-    - [658, 9264.72]
+    - [689, 9264.72]
   - - [2048, 512, 1, 256]
-    - [766, 6990.61]
+    - [797, 6990.61]
   - - [512, 256, 1, 3200]
-    - [713, 4154.52]
+    - [744, 4154.52]
   - - [4096, 1024, 1, 1920]
-    - [658, 9535.32]
+    - [689, 9535.32]
   - - [4096, 200, 1, 2560]
-    - [763, 6754.65]
+    - [794, 6754.65]
   - - [1024, 256, 1, 16384]
-    - [653, 6289.6]
+    - [684, 6289.6]
   - - [1024, 1024, 1, 1152]
-    - [756, 8407.39]
+    - [787, 8407.39]
   - - [2048, 200, 1, 32]
-    - [699, 1412.51]
+    - [730, 1412.51]
   - - [512, 1024, 1, 2816]
-    - [750, 7843.25]
+    - [781, 7843.25]
   - - [4096, 256, 1, 14336]
-    - [762, 8844.77]
+    - [793, 8844.77]
   - - [1024, 200, 1, 4608]
-    - [761, 4931.74]
+    - [792, 4931.74]
   - - [1024, 200, 1, 16384]
-    - [656, 5135.15]
+    - [687, 5135.15]
   - - [64, 256, 1, 1024]
-    - [734, 461.013]
+    - [765, 461.013]
   - - [1, 200, 1, 1024]
-    - [716, 7.49884]
+    - [747, 7.49884]
   - - [2048, 200, 1, 2080]
-    - [761, 6033.87]
+    - [792, 6033.87]
   - - [512, 256, 1, 1792]
-    - [671, 3153.71]
+    - [702, 3153.71]
   - - [2048, 200, 1, 1024]
-    - [761, 5711.3]
+    - [792, 5711.3]
   - - [4096, 1024, 1, 12288]
-    - [658, 9658.23]
+    - [689, 9658.23]
   - - [4096, 200, 1, 4096]
-    - [752, 6834.55]
+    - [783, 6834.55]
   - - [1024, 512, 1, 11264]
-    - [719, 7686.46]
+    - [750, 7686.46]
   - - [128, 512, 1, 1024]
-    - [689, 1458.99]
+    - [720, 1458.99]
   - - [32, 256, 1, 2048]
-    - [707, 384.899]
+    - [738, 384.899]
   - - [1024, 200, 1, 1792]
-    - [761, 4638.64]
+    - [792, 4638.64]
   - - [1024, 1024, 1, 1792]
-    - [756, 8550.56]
+    - [787, 8550.56]
   - - [32, 256, 1, 512]
-    - [740, 161.419]
+    - [771, 161.419]
   - - [512, 200, 1, 2816]
-    - [666, 3353.1]
+    - [697, 3353.1]
   - - [512, 200, 1, 3072]
-    - [651, 3298.89]
+    - [682, 3298.89]
   - - [1024, 1024, 1, 8192]
-    - [697, 8369.1]
+    - [728, 8369.1]
   - - [1024, 256, 1, 12288]
-    - [654, 6475.71]
+    - [685, 6475.71]
   - - [4096, 200, 1, 768]
-    - [756, 6367.97]
+    - [787, 6367.97]
   - - [1024, 512, 1, 16384]
-    - [772, 7367.12]
+    - [803, 7367.12]
   - - [4096, 256, 1, 1024]
-    - [752, 8214.16]
+    - [783, 8214.16]
   - - [1024, 512, 1, 256]
-    - [755, 5537.13]
+    - [786, 5537.13]
   - - [4096, 1024, 1, 8320]
-    - [658, 9674.26]
+    - [689, 9674.26]
   - - [4096, 256, 1, 9216]
-    - [760, 8791.02]
+    - [791, 8791.02]
   - - [1024, 512, 1, 1408]
-    - [750, 7459.65]
+    - [781, 7459.65]
   - - [1024, 512, 1, 5632]
-    - [761, 7997.91]
+    - [792, 7997.91]
   - - [4096, 200, 1, 256]
-    - [766, 5371.9]
+    - [797, 5371.9]
   - - [1024, 200, 1, 128]
-    - [744, 1998.15]
+    - [775, 1998.15]
   - - [256, 200, 1, 1024]
-    - [713, 1196.01]
+    - [744, 1196.01]
   - - [1024, 200, 1, 5120]
-    - [761, 4957.44]
+    - [792, 4957.44]
   - - [512, 1024, 1, 3072]
-    - [774, 7104.07]
+    - [805, 7104.07]
   - - [4096, 1024, 1, 15360]
-    - [658, 9669.04]
+    - [689, 9669.04]
   - - [1, 256, 1, 2048]
-    - [700, 13.9262]
+    - [731, 13.9262]
   - - [1024, 1024, 1, 4160]
-    - [752, 8759.3]
+    - [783, 8759.3]
   - - [1024, 256, 1, 256]
-    - [759, 3728.37]
+    - [790, 3728.37]
   - - [2048, 256, 1, 384]
-    - [761, 6123.17]
+    - [792, 6123.17]
   - - [512, 256, 1, 2560]
-    - [715, 3809.64]
+    - [746, 3809.64]
   - - [4096, 512, 1, 3072]
-    - [663, 9215.19]
+    - [694, 9215.19]
   - - [1024, 256, 1, 4160]
-    - [750, 6293.49]
+    - [781, 6293.49]
   - - [4096, 512, 1, 13312]
-    - [660, 9367.32]
+    - [691, 9367.32]
   - - [4096, 1024, 1, 3840]
-    - [658, 9631.57]
+    - [689, 9631.57]
   - - [4096, 200, 1, 640]
-    - [756, 6206.16]
+    - [787, 6206.16]
   - - [32, 200, 1, 2048]
-    - [694, 303.507]
+    - [725, 303.507]
   - - [1024, 200, 1, 512]
-    - [750, 3713.19]
+    - [781, 3713.19]
   - - [1024, 1024, 1, 7168]
-    - [753, 8475.74]
+    - [784, 8475.74]
   - - [2048, 1024, 1, 3200]
-    - [658, 9271.34]
+    - [689, 9271.34]
   - - [512, 512, 1, 1536]
-    - [761, 5832.27]
+    - [792, 5832.27]
   - - [4096, 256, 1, 768]
-    - [766, 8066.07]
+    - [797, 8066.07]
   - - [2048, 256, 1, 6656]
-    - [750, 8034.87]
+    - [781, 8034.87]
   - - [1024, 256, 1, 896]
-    - [750, 5467.54]
+    - [781, 5467.54]
   - - [2048, 256, 1, 512]
-    - [761, 6465.31]
+    - [792, 6465.31]
   - - [2048, 200, 1, 3072]
-    - [761, 6165.78]
+    - [792, 6165.78]
   - - [128, 200, 1, 1024]
-    - [718, 692.87]
+    - [749, 692.87]
   - - [4096, 512, 1, 3840]
-    - [663, 9272.7]
+    - [694, 9272.7]
   - - [1024, 200, 1, 3200]
-    - [761, 4838.85]
+    - [792, 4838.85]
   - - [4096, 512, 1, 5632]
-    - [658, 9335.52]
+    - [689, 9335.52]
   - - [4096, 512, 1, 64]
-    - [693, 5275.95]
+    - [724, 5275.95]
   - - [1024, 512, 1, 2816]
-    - [750, 7816.68]
+    - [781, 7816.68]
   - - [4096, 256, 1, 7680]
-    - [756, 8795.5]
+    - [787, 8795.5]
   - - [4096, 200, 1, 1024]
-    - [766, 6448.91]
+    - [797, 6448.91]
   - - [1024, 512, 1, 12288]
-    - [720, 7624.67]
+    - [751, 7624.67]
   - - [2048, 1024, 1, 512]
-    - [663, 8436.16]
+    - [694, 8436.16]
   - - [128, 256, 1, 2048]
-    - [737, 1342.28]
+    - [768, 1342.28]
   - - [2048, 200, 1, 1792]
-    - [761, 6020.47]
+    - [792, 6020.47]
   - - [1024, 1024, 1, 2816]
-    - [752, 8670.5]
+    - [783, 8670.5]
   - - [2048, 512, 1, 1536]
-    - [763, 8466.32]
+    - [794, 8466.32]
   - - [4096, 256, 1, 3072]
-    - [760, 8631.47]
+    - [791, 8631.47]
   - - [1024, 200, 1, 1536]
-    - [742, 4577.7]
+    - [773, 4577.7]
   - - [1024, 256, 1, 1024]
-    - [750, 5491.82]
+    - [781, 5491.82]
   - - [4096, 512, 1, 8192]
-    - [663, 9325.64]
+    - [694, 9325.64]
   - - [128, 1024, 1, 512]
-    - [761, 2534.42]
+    - [792, 2534.42]
   - - [4096, 512, 1, 2304]
-    - [658, 9193.09]
+    - [689, 9193.09]
   - - [2048, 256, 1, 5632]
-    - [761, 7999.64]
+    - [792, 7999.64]
   - - [1024, 256, 1, 5120]
-    - [761, 6307.32]
+    - [792, 6307.32]
   - - [1024, 512, 1, 6656]
-    - [761, 8028.95]
+    - [792, 8028.95]
   - - [4096, 512, 1, 2816]
-    - [658, 9234.5]
+    - [689, 9234.5]
   - - [4096, 200, 1, 2080]
-    - [745, 6697.96]
+    - [776, 6697.96]
   - - [1024, 200, 1, 2304]
-    - [761, 4752.91]
+    - [792, 4752.91]
   - - [2048, 200, 1, 13312]
-    - [750, 6346.23]
+    - [781, 6346.23]
   - - [64, 1024, 1, 1024]
-    - [734, 1359.68]
+    - [765, 1359.68]
   - - [4096, 256, 1, 3584]
-    - [756, 8668.9]
+    - [787, 8668.9]
   - - [2048, 1024, 1, 7680]
-    - [658, 9365.88]
+    - [689, 9365.88]
   - - [1024, 256, 1, 1664]
-    - [750, 5907.57]
+    - [781, 5907.57]
   - - [1, 512, 1, 2048]
-    - [677, 23.5057]
+    - [708, 23.5057]
   - - [512, 512, 1, 1024]
-    - [750, 5360.23]
+    - [781, 5360.23]
   - - [2048, 256, 1, 8192]
-    - [722, 7665.31]
+    - [753, 7665.31]
   - - [2048, 512, 1, 512]
-    - [752, 7767.33]
+    - [783, 7767.33]
   - - [4096, 512, 1, 1920]
-    - [658, 9133.04]
+    - [689, 9133.04]
   - - [4096, 200, 1, 12288]
-    - [766, 6910.75]
+    - [797, 6910.75]
   - - [1024, 512, 1, 3072]
-    - [696, 7310.43]
+    - [727, 7310.43]
   - - [2048, 512, 1, 1152]
-    - [756, 8342.36]
+    - [787, 8342.36]
   - - [1024, 256, 1, 2080]
-    - [750, 6010.46]
+    - [781, 6010.46]
   - - [4096, 1024, 1, 32]
-    - [746, 4793.59]
+    - [777, 4793.59]
   - - [4096, 512, 1, 16640]
-    - [658, 9365.41]
+    - [689, 9365.41]
   - - [2048, 200, 1, 9216]
-    - [750, 6315.98]
+    - [781, 6315.98]
   - - [2048, 200, 1, 2560]
-    - [750, 6119.24]
+    - [781, 6119.24]
   - - [2048, 1024, 1, 1024]
-    - [658, 8628.69]
+    - [689, 8628.69]
   - - [2048, 256, 1, 4608]
-    - [750, 7951.39]
+    - [781, 7951.39]
   - - [512, 200, 1, 768]
-    - [702, 2132.51]
+    - [733, 2132.51]
   - - [128, 256, 1, 512]
-    - [702, 670.117]
+    - [733, 670.117]
   - - [4096, 512, 1, 1792]
-    - [663, 9127.01]
+    - [694, 9127.01]
   - - [4096, 1024, 1, 8192]
-    - [658, 9591.37]
+    - [689, 9591.37]
   - - [1024, 256, 1, 2816]
-    - [761, 6119.11]
+    - [792, 6119.11]
   - - [1024, 1024, 1, 13312]
-    - [753, 8529.37]
+    - [784, 8529.37]
   - - [2048, 1024, 1, 4160]
-    - [658, 9305.67]
+    - [689, 9305.67]
   - - [2048, 256, 1, 3584]
-    - [750, 7903.23]
+    - [781, 7903.23]
   - - [128, 200, 1, 2048]
-    - [718, 1135.91]
+    - [749, 1135.91]
   - - [4096, 512, 1, 10240]
-    - [660, 9339.59]
+    - [691, 9339.59]
   - - [4096, 512, 1, 512]
-    - [658, 8446.78]
+    - [689, 8446.78]
   - - [2048, 1024, 1, 6656]
-    - [658, 9331.75]
+    - [689, 9331.75]
   - - [1024, 512, 1, 640]
-    - [750, 6776.04]
+    - [781, 6776.04]
   - - [2048, 512, 1, 768]
-    - [752, 8085.51]
+    - [783, 8085.51]
   - - [2048, 200, 1, 1408]
-    - [750, 5880.17]
+    - [781, 5880.17]
   - - [4096, 200, 1, 2048]
-    - [766, 6691.71]
+    - [797, 6691.71]
   - - [1024, 1024, 1, 5632]
-    - [752, 8749.63]
+    - [783, 8749.63]
   - - [2048, 512, 1, 3584]
-    - [756, 8704.23]
+    - [787, 8704.23]
   - - [64, 512, 1, 512]
-    - [692, 667.983]
+    - [723, 667.983]
   - - [64, 200, 1, 512]
-    - [702, 251.388]
+    - [733, 251.388]
   - - [1024, 200, 1, 64]
-    - [657, 1310.82]
+    - [688, 1310.82]
   - - [512, 512, 1, 2304]
-    - [750, 6078.8]
+    - [781, 6078.8]
   - - [2048, 1024, 1, 14336]
-    - [658, 9321.94]
+    - [689, 9321.94]
   - - [4096, 512, 1, 11264]
-    - [660, 9339.95]
+    - [691, 9339.95]
   - - [4096, 512, 1, 128]
-    - [745, 6566.53]
+    - [776, 6566.53]
   - - [1024, 512, 1, 64]
-    - [765, 2953.84]
+    - [796, 2953.84]
   - - [4096, 512, 1, 768]
-    - [658, 8738.23]
+    - [689, 8738.23]
   - - [4096, 1024, 1, 11264]
-    - [658, 9637.78]
+    - [689, 9637.78]
   - - [1, 256, 1, 1024]
-    - [748, 8.93234]
+    - [779, 8.93234]
   - - [4096, 200, 1, 7680]
-    - [745, 6889.57]
+    - [776, 6889.57]
   - - [1024, 200, 1, 12288]
-    - [717, 5237.74]
+    - [748, 5237.74]
   - - [1024, 1024, 1, 1280]
-    - [752, 8418.17]
+    - [783, 8418.17]
   - - [4096, 1024, 1, 16640]
-    - [658, 9675.01]
+    - [689, 9675.01]
   - - [2048, 1024, 1, 5632]
-    - [658, 9327.85]
+    - [689, 9327.85]
   - - [1024, 200, 1, 15360]
-    - [717, 5386.63]
+    - [748, 5386.63]
   - - [1, 1024, 1, 1024]
-    - [767, 27.3499]
+    - [798, 27.3499]
   - - [2048, 256, 1, 16384]
-    - [728, 7652.75]
+    - [759, 7652.75]
   - - [4096, 512, 1, 12288]
-    - [660, 9359.51]
+    - [691, 9359.51]
   - - [2048, 200, 1, 896]
-    - [761, 5628.96]
+    - [792, 5628.96]
   - - [4096, 1024, 1, 5632]
-    - [658, 9626.78]
+    - [689, 9626.78]
   - - [2048, 256, 1, 32]
-    - [754, 1889.43]
+    - [785, 1889.43]
   - - [2048, 256, 1, 1280]
-    - [750, 7390.94]
+    - [781, 7390.94]
   - - [4096, 256, 1, 4096]
-    - [752, 8694.37]
+    - [783, 8694.37]
   - - [2048, 256, 1, 11264]
-    - [750, 8113.95]
+    - [781, 8113.95]
   - - [4096, 200, 1, 9216]
-    - [752, 6891.08]
+    - [783, 6891.08]
   - - [1024, 512, 1, 4096]
-    - [698, 7348.46]
+    - [729, 7348.46]
   - - [2048, 1024, 1, 10240]
-    - [660, 9095.91]
+    - [691, 9095.91]
   - - [4096, 1024, 1, 640]
-    - [658, 9115.68]
+    - [689, 9115.68]
   - - [128, 1024, 1, 2048]
-    - [651, 3270.51]
+    - [682, 3270.51]
   - - [4096, 200, 1, 3840]
-    - [745, 6836.26]
+    - [776, 6836.26]
   - - [1024, 1024, 1, 1920]
-    - [756, 8562.82]
+    - [787, 8562.82]
   - - [2048, 200, 1, 7168]
-    - [761, 6296.23]
+    - [792, 6296.23]
   - - [2048, 512, 1, 16384]
-    - [652, 8632.51]
+    - [683, 8632.51]
   - - [2048, 1024, 1, 12288]
-    - [658, 9158.08]
+    - [689, 9158.08]
   - - [4096, 1024, 1, 10240]
-    - [658, 9658.84]
+    - [689, 9658.84]
   - - [1024, 1024, 1, 8320]
-    - [760, 8799.58]
+    - [791, 8799.58]
   - - [1024, 256, 1, 9216]
-    - [750, 6375.23]
+    - [781, 6375.23]
   - - [4096, 256, 1, 1152]
-    - [745, 8301.09]
+    - [776, 8301.09]
   - - [512, 200, 1, 2560]
-    - [711, 3088.51]
+    - [742, 3088.51]
   - - [2048, 256, 1, 1920]
-    - [750, 7714.94]
+    - [781, 7714.94]
   - - [2048, 1024, 1, 4608]
-    - [658, 9305.7]
+    - [689, 9305.7]
   - - [512, 256, 1, 1024]
-    - [758, 2887.74]
+    - [789, 2887.74]
   - - [1024, 256, 1, 1920]
-    - [742, 5913.12]
+    - [773, 5913.12]
   - - [4096, 512, 1, 3584]
-    - [658, 9275.69]
+    - [689, 9275.69]
   - - [2048, 512, 1, 4160]
-    - [763, 8734.03]
+    - [794, 8734.03]
   - - [2048, 512, 1, 5632]
-    - [766, 8758.98]
+    - [797, 8758.98]
   - - [4096, 1024, 1, 4608]
-    - [658, 9657.22]
+    - [689, 9657.22]
   - - [4096, 1024, 1, 3328]
-    - [658, 9621.45]
+    - [689, 9621.45]
   - - [4096, 256, 1, 7168]
-    - [752, 8770.05]
+    - [783, 8770.05]
   - - [4096, 200, 1, 128]
-    - [766, 4458.33]
+    - [797, 4458.33]
   - - [2048, 200, 1, 5120]
-    - [750, 6176.91]
+    - [781, 6176.91]
   - - [1024, 1024, 1, 6656]
-    - [752, 8780.45]
+    - [783, 8780.45]
   - - [512, 1024, 1, 3200]
-    - [761, 7887.09]
+    - [792, 7887.09]
   - - [512, 200, 1, 2304]
-    - [651, 2991.09]
+    - [682, 2991.09]
   - - [2048, 1024, 1, 9216]
-    - [663, 9325.46]
+    - [694, 9325.46]
   - - [2048, 256, 1, 1536]
-    - [761, 7551.73]
+    - [792, 7551.73]
   - - [4096, 256, 1, 256]
-    - [766, 6932.83]
+    - [797, 6932.83]
   - - [2048, 512, 1, 1408]
-    - [763, 8430.86]
+    - [794, 8430.86]
   - - [1024, 256, 1, 384]
-    - [755, 4462.13]
+    - [786, 4462.13]
   - - [2048, 1024, 1, 2304]
-    - [658, 9174.94]
+    - [689, 9174.94]
   - - [4096, 512, 1, 6144]
-    - [660, 9284.25]
+    - [691, 9284.25]
   - - [1024, 200, 1, 14336]
-    - [649, 5268.57]
+    - [680, 5268.57]
   - - [1024, 512, 1, 2080]
-    - [761, 7736.47]
+    - [792, 7736.47]
   - - [2048, 512, 1, 2304]
-    - [763, 8616.07]
+    - [794, 8616.07]
   - - [4096, 512, 1, 15360]
-    - [663, 9362.17]
+    - [694, 9362.17]
   - - [1024, 256, 1, 32]
-    - [683, 1028.12]
+    - [714, 1028.12]
   - - [1024, 200, 1, 2816]
-    - [761, 4780.58]
+    - [792, 4780.58]
   - - [4096, 200, 1, 512]
-    - [752, 6054.23]
+    - [783, 6054.23]
   - - [4096, 1024, 1, 7168]
-    - [663, 9468.49]
+    - [694, 9468.49]
   - - [2048, 256, 1, 14336]
-    - [724, 7865.52]
+    - [755, 7865.52]
   - - [1024, 200, 1, 3072]
-    - [761, 4804.2]
+    - [792, 4804.2]
   - - [2048, 200, 1, 1280]
-    - [761, 5846.31]
+    - [792, 5846.31]
   - - [1024, 1024, 1, 2304]
-    - [752, 8633.32]
+    - [783, 8633.32]
   - - [4096, 1024, 1, 9216]
-    - [658, 9641.03]
+    - [689, 9641.03]
   - - [2048, 512, 1, 4608]
-    - [763, 8743.3]
+    - [794, 8743.3]
   - - [4096, 1024, 1, 7680]
-    - [658, 9684.86]
+    - [689, 9684.86]
   - - [4096, 256, 1, 6144]
-    - [763, 8757.24]
+    - [794, 8757.24]
   - - [4096, 256, 1, 896]
-    - [756, 8258.93]
+    - [787, 8258.93]
   - - [512, 256, 1, 1536]
-    - [740, 3065.36]
+    - [771, 3065.36]
   - - [1024, 256, 1, 512]
-    - [750, 4752.85]
+    - [781, 4752.85]
   - - [2048, 256, 1, 640]
-    - [750, 6776.04]
+    - [781, 6776.04]
   - - [256, 256, 1, 2048]
-    - [687, 2249.06]
+    - [718, 2249.06]
   - - [2048, 1024, 1, 8192]
-    - [658, 9178.17]
+    - [689, 9178.17]
   - - [4096, 200, 1, 16640]
-    - [650, 7009.59]
+    - [681, 7009.59]
   - - [256, 512, 1, 512]
-    - [662, 2511.66]
+    - [693, 2511.66]
   - - [2048, 512, 1, 384]
-    - [763, 7467.7]
+    - [794, 7467.7]
   - - [2048, 200, 1, 16384]
-    - [731, 6327.31]
+    - [762, 6327.31]
   - - [4096, 200, 1, 10240]
-    - [756, 6892.74]
+    - [787, 6892.74]
   - - [1024, 512, 1, 9216]
-    - [705, 7530.09]
+    - [736, 7530.09]
   - - [4096, 1024, 1, 64]
-    - [680, 6260.26]
+    - [711, 6260.26]
   - - [4096, 200, 1, 1920]
-    - [766, 6710.27]
+    - [797, 6710.27]
   - - [2048, 1024, 1, 1280]
-    - [658, 8998.34]
+    - [689, 8998.34]
   - - [1024, 200, 1, 3840]
-    - [750, 4873.87]
+    - [781, 4873.87]
   - - [256, 1024, 1, 512]
-    - [761, 4766.35]
+    - [792, 4766.35]
   - - [2048, 1024, 1, 3328]
-    - [658, 9275.2]
+    - [689, 9275.2]
   - - [1024, 256, 1, 16640]
-    - [715, 6837.22]
+    - [746, 6837.22]
   - - [4096, 512, 1, 14336]
-    - [663, 9354.42]
+    - [694, 9354.42]
   - - [1024, 1024, 1, 16640]
-    - [760, 8832.37]
+    - [791, 8832.37]
   - - [1024, 256, 1, 1152]
-    - [761, 5642.66]
+    - [792, 5642.66]
   - - [512, 512, 1, 512]
-    - [750, 4779.93]
+    - [781, 4779.93]
   - - [4096, 512, 1, 8320]
-    - [663, 9327.96]
+    - [694, 9327.96]
   - - [2048, 512, 1, 7680]
-    - [766, 8793.96]
+    - [797, 8793.96]
   - - [4096, 1024, 1, 6656]
-    - [658, 9667.03]
+    - [689, 9667.03]
   - - [1024, 512, 1, 3584]
-    - [761, 7900.57]
+    - [792, 7900.57]
   - - [1024, 1024, 1, 32]
-    - [746, 2974.78]
+    - [777, 2974.78]
   - - [512, 512, 1, 2816]
-    - [742, 6155.85]
+    - [773, 6155.85]
   - - [2048, 512, 1, 1664]
-    - [766, 8496.55]
+    - [797, 8496.55]
   - - [1024, 1024, 1, 14336]
-    - [652, 8624.74]
+    - [683, 8624.74]
   - - [2048, 200, 1, 2048]
-    - [761, 6029.86]
+    - [792, 6029.86]
   - - [1024, 1024, 1, 3584]
-    - [752, 8702.62]
+    - [783, 8702.62]
   - - [512, 200, 1, 1280]
-    - [666, 2350.75]
+    - [697, 2350.75]
   - - [4096, 256, 1, 6656]
-    - [766, 8788.41]
+    - [797, 8788.41]
   - - [4096, 256, 1, 4160]
-    - [743, 8728.44]
+    - [774, 8728.44]
   - - [128, 256, 1, 1024]
-    - [725, 859.589]
+    - [756, 859.589]
   - - [512, 200, 1, 3200]
-    - [666, 3376.85]
+    - [697, 3376.85]
   - - [2048, 512, 1, 9216]
-    - [749, 8806.4]
+    - [780, 8806.4]
   - - [2048, 1024, 1, 256]
-    - [745, 7713.76]
+    - [776, 7713.76]
   - - [1024, 256, 1, 2304]
-    - [761, 6015.83]
+    - [792, 6015.83]
   - - [1024, 200, 1, 8192]
-    - [761, 5022.02]
+    - [792, 5022.02]
   - - [2048, 256, 1, 3072]
-    - [678, 7515.09]
+    - [709, 7515.09]
   - - [2048, 256, 1, 8320]
-    - [750, 8063.68]
+    - [781, 8063.68]
   - - [4096, 512, 1, 1024]
-    - [660, 8824.41]
+    - [691, 8824.41]
   - - [1024, 512, 1, 3200]
-    - [750, 7866.39]
+    - [781, 7866.39]
   - - [1024, 512, 1, 896]
-    - [742, 7161.11]
+    - [773, 7161.11]
   - - [2048, 512, 1, 1280]
-    - [756, 8384.52]
+    - [787, 8384.52]
   - - [4096, 200, 1, 64]
-    - [665, 3260.6]
+    - [696, 3260.6]
   - - [1024, 256, 1, 6144]
-    - [771, 6143.72]
+    - [802, 6143.72]
   - - [1024, 200, 1, 2560]
-    - [750, 4762.89]
+    - [781, 4762.89]
   - - [1024, 1024, 1, 5120]
-    - [679, 8454.23]
+    - [710, 8454.23]
   - - [2048, 512, 1, 6656]
-    - [756, 8799.05]
+    - [787, 8799.05]
   - - [4096, 1024, 1, 1536]
-    - [658, 9503.37]
+    - [689, 9503.37]
   - - [1024, 1024, 1, 128]
-    - [681, 5825.52]
+    - [712, 5825.52]
   - - [512, 1024, 1, 1792]
-    - [750, 7701.12]
+    - [781, 7701.12]
   - - [2048, 1024, 1, 32]
-    - [661, 3938.41]
+    - [692, 3938.41]
   - - [4096, 256, 1, 2816]
-    - [745, 8652.2]
+    - [776, 8652.2]
   - - [1024, 1024, 1, 15360]
-    - [652, 8719.7]
+    - [683, 8719.7]
   - - [1024, 256, 1, 5632]
-    - [750, 6344.18]
+    - [781, 6344.18]
   - - [1024, 1024, 1, 4096]
-    - [753, 8187.86]
+    - [784, 8187.86]
   - - [2048, 200, 1, 4160]
-    - [761, 6222.48]
+    - [792, 6222.48]
   - - [512, 256, 1, 768]
-    - [692, 2771.67]
+    - [723, 2771.67]
   - - [4096, 512, 1, 640]
-    - [663, 8590.58]
+    - [694, 8590.58]
   - - [2048, 512, 1, 8192]
-    - [705, 8494.9]
+    - [736, 8494.9]
   - - [1024, 512, 1, 768]
-    - [750, 7049.35]
+    - [781, 7049.35]
   - - [4096, 200, 1, 8320]
-    - [745, 6908.7]
+    - [776, 6908.7]
   - - [2048, 512, 1, 896]
-    - [752, 8224.23]
+    - [783, 8224.23]
   - - [4096, 200, 1, 7168]
-    - [763, 6878.59]
+    - [794, 6878.59]
   - - [2048, 512, 1, 13312]
-    - [751, 8803.04]
+    - [782, 8803.04]
   - - [64, 512, 1, 1024]
-    - [655, 844.024]
+    - [686, 844.024]
   - - [2048, 200, 1, 3840]
-    - [750, 6192.48]
+    - [781, 6192.48]
   - - [1024, 1024, 1, 768]
-    - [743, 8098.51]
+    - [774, 8098.51]
   - - [4096, 512, 1, 16384]
-    - [663, 9345.73]
+    - [694, 9345.73]
   - - [4096, 256, 1, 2304]
-    - [743, 8596.45]
+    - [774, 8596.45]
   - - [1, 256, 1, 4096]
-    - [748, 19.9293]
+    - [779, 19.9293]
   - - [1024, 1024, 1, 11264]
-    - [753, 8491.48]
+    - [784, 8491.48]
   - - [2048, 200, 1, 16640]
-    - [747, 6510.64]
+    - [778, 6510.64]
   - - [1024, 256, 1, 3072]
-    - [761, 6179.55]
+    - [792, 6179.55]
   - - [4096, 1024, 1, 512]
-    - [658, 9032.25]
+    - [689, 9032.25]
   - - [2048, 256, 1, 2816]
-    - [750, 7793.57]
+    - [781, 7793.57]
   - - [32, 512, 1, 512]
-    - [662, 318.816]
+    - [693, 318.816]
   - - [256, 512, 1, 2048]
-    - [713, 3369.02]
+    - [744, 3369.02]
   - - [1024, 512, 1, 384]
-    - [761, 6198.58]
+    - [792, 6198.58]
   - - [2048, 200, 1, 7680]
-    - [750, 6307.7]
+    - [781, 6307.7]
   - - [1024, 512, 1, 4608]
-    - [761, 7953.48]
+    - [792, 7953.48]
   - - [4096, 200, 1, 32]
-    - [710, 2199.29]
+    - [741, 2199.29]
   - - [4096, 200, 1, 3328]
-    - [745, 6813.12]
+    - [776, 6813.12]
   - - [1024, 200, 1, 1152]
-    - [750, 4375.65]
+    - [781, 4375.65]
   - - [1024, 1024, 1, 1408]
-    - [752, 8457.91]
+    - [783, 8457.91]
   - - [2048, 200, 1, 15360]
-    - [726, 6333.1]
+    - [757, 6333.1]
   - - [512, 1024, 1, 2048]
-    - [736, 6280.76]
+    - [767, 6280.76]
   - - [1024, 512, 1, 1024]
-    - [761, 7064.19]
+    - [792, 7064.19]
   - - [1024, 200, 1, 10240]
-    - [750, 5030.69]
+    - [781, 5030.69]
   - - [4096, 256, 1, 5632]
-    - [763, 8765.22]
+    - [794, 8765.22]
   - - [512, 512, 1, 3072]
-    - [773, 5942.44]
+    - [804, 5942.44]
   - - [2048, 256, 1, 1408]
-    - [750, 7545.05]
+    - [781, 7545.05]
   - - [2048, 256, 1, 6144]
-    - [761, 7963.97]
+    - [792, 7963.97]
   - - [4096, 256, 1, 3328]
-    - [756, 8682.58]
+    - [787, 8682.58]
   - - [1024, 200, 1, 1664]
-    - [750, 4595.4]
+    - [781, 4595.4]
   - - [2048, 1024, 1, 1152]
-    - [658, 8942.65]
+    - [689, 8942.65]
   - - [2048, 512, 1, 6144]
-    - [751, 8729.71]
+    - [782, 8729.71]
   - - [2048, 512, 1, 3200]
-    - [752, 8696.56]
+    - [783, 8696.56]
   - - [4096, 1024, 1, 2080]
-    - [691, 9538.45]
+    - [722, 9538.45]
   - - [4096, 1024, 1, 768]
-    - [658, 9260.75]
+    - [689, 9260.75]
   - - [4096, 1024, 1, 2560]
-    - [658, 9567.27]
+    - [689, 9567.27]
   - - [64, 200, 1, 2048]
-    - [690, 583.161]
+    - [721, 583.161]
   - - [2048, 200, 1, 4608]
-    - [761, 6243.28]
+    - [792, 6243.28]
   - - [1024, 1024, 1, 6144]
-    - [753, 8320.25]
+    - [784, 8320.25]
   - - [4096, 256, 1, 1664]
-    - [756, 8503.17]
+    - [787, 8503.17]
   - - [2048, 200, 1, 384]
-    - [761, 4940.0]
+    - [792, 4940.0]
   - - [1, 200, 1, 2048]
-    - [707, 11.3281]
+    - [738, 11.3281]
   - - [4096, 256, 1, 1792]
-    - [766, 8504.12]
+    - [797, 8504.12]
   - - [2048, 1024, 1, 64]
-    - [680, 5309.35]
+    - [711, 5309.35]
   - - [4096, 1024, 1, 16384]
-    - [647, 9428.61]
+    - [678, 9428.61]
   - - [1024, 512, 1, 16640]
-    - [761, 8122.55]
+    - [792, 8122.55]
   - - [2048, 512, 1, 10240]
-    - [751, 8766.21]
+    - [782, 8766.21]
   - - [4096, 512, 1, 6656]
-    - [658, 9351.75]
+    - [689, 9351.75]
   - - [2048, 256, 1, 16640]
-    - [750, 8135.27]
+    - [781, 8135.27]
   - - [2048, 512, 1, 2816]
-    - [752, 8660.32]
+    - [783, 8660.32]
   - - [1024, 200, 1, 32]
-    - [670, 780.291]
+    - [701, 780.291]
   - - [1, 512, 1, 4096]
-    - [695, 34.8671]
+    - [726, 34.8671]
   - - [256, 256, 1, 1024]
-    - [702, 1490.08]
+    - [733, 1490.08]
   - - [2048, 1024, 1, 128]
-    - [675, 6605.3]
+    - [706, 6605.3]
   - - [2048, 1024, 1, 2080]
-    - [658, 9159.51]
+    - [689, 9159.51]
   - - [2048, 1024, 1, 16640]
-    - [658, 9371.65]
+    - [689, 9371.65]
   - - [1024, 200, 1, 384]
-    - [761, 3378.24]
+    - [792, 3378.24]
   - - [4096, 256, 1, 384]
-    - [706, 7369.3]
+    - [737, 7369.3]
   - - [4096, 256, 1, 13312]
-    - [760, 8776.48]
+    - [791, 8776.48]
   - - [2048, 256, 1, 128]
-    - [755, 4280.0]
+    - [786, 4280.0]
   - - [512, 256, 1, 2304]
-    - [667, 3584.98]
+    - [698, 3584.98]
   - - [2048, 1024, 1, 3072]
-    - [660, 9156.52]
+    - [691, 9156.52]
   - - [1024, 1024, 1, 640]
-    - [756, 7928.84]
+    - [787, 7928.84]
   - - [256, 512, 1, 1024]
-    - [761, 2843.7]
+    - [792, 2843.7]
   - - [4096, 1024, 1, 1408]
-    - [658, 9437.56]
+    - [689, 9437.56]
   - - [4096, 200, 1, 5632]
-    - [763, 6873.96]
+    - [794, 6873.96]
   - - [4096, 1024, 1, 2048]
-    - [658, 9437.1]
+    - [689, 9437.1]
   - - [2048, 1024, 1, 2560]
-    - [663, 9195.62]
+    - [694, 9195.62]
   - - [4096, 1024, 1, 128]
-    - [745, 7407.26]
+    - [776, 7407.26]
   - - [1024, 200, 1, 3328]
-    - [761, 4857.39]
+    - [792, 4857.39]
   - - [2048, 200, 1, 1152]
-    - [750, 5760.1]
+    - [781, 5760.1]
   - - [1024, 200, 1, 9216]
-    - [649, 5053.21]
+    - [680, 5053.21]
   - - [4096, 256, 1, 512]
-    - [743, 7617.45]
+    - [774, 7617.45]
   - - [4096, 1024, 1, 14336]
-    - [658, 9665.12]
+    - [689, 9665.12]
   - - [1024, 1024, 1, 384]
-    - [681, 7478.8]
+    - [712, 7478.8]
   - - [2048, 200, 1, 512]
-    - [750, 5150.28]
+    - [781, 5150.28]
   - - [2048, 256, 1, 9216]
-    - [729, 7717.71]
+    - [760, 7717.71]
   - - [2048, 256, 1, 1792]
-    - [750, 7655.94]
+    - [781, 7655.94]
   - - [4096, 512, 1, 9216]
-    - [660, 9331.22]
+    - [691, 9331.22]
   - - [4096, 200, 1, 15360]
-    - [650, 6958.14]
+    - [681, 6958.14]
   - - [1024, 512, 1, 2048]
-    - [749, 7067.91]
+    - [780, 7067.91]
   - - [64, 256, 1, 2048]
-    - [674, 723.256]
+    - [705, 723.256]
   - - [4096, 200, 1, 1792]
-    - [752, 6699.65]
+    - [783, 6699.65]
   - - [1, 200, 1, 4096]
-    - [684, 15.6387]
+    - [715, 15.6387]
   - - [2048, 1024, 1, 2048]
-    - [663, 9071.93]
+    - [694, 9071.93]
   - - [1024, 200, 1, 2080]
-    - [742, 4679.19]
+    - [773, 4679.19]
   - - [2048, 200, 1, 1536]
-    - [761, 5939.92]
+    - [792, 5939.92]
   - - [1024, 1024, 1, 3072]
-    - [723, 8333.15]
+    - [754, 8333.15]
   - - [512, 200, 1, 1792]
-    - [648, 2679.73]
+    - [679, 2679.73]
   - - [1024, 256, 1, 11264]
-    - [651, 6470.98]
+    - [682, 6470.98]
   - - [2048, 512, 1, 12288]
-    - [698, 8729.24]
+    - [729, 8729.24]
   - - [1024, 256, 1, 1792]
-    - [761, 5931.44]
+    - [792, 5931.44]
   - - [1024, 200, 1, 7168]
-    - [761, 4970.33]
+    - [792, 4970.33]
   - - [32, 256, 1, 1024]
-    - [672, 237.334]
+    - [703, 237.334]
   - - [512, 256, 1, 3072]
-    - [715, 3813.1]
+    - [746, 3813.1]
   - - [1024, 1024, 1, 2080]
-    - [752, 8600.41]
+    - [783, 8600.41]
   - - [2048, 200, 1, 2304]
-    - [761, 6093.32]
+    - [792, 6093.32]
   - - [4096, 512, 1, 1536]
-    - [658, 9075.0]
+    - [689, 9075.0]
   - - [2048, 256, 1, 7168]
-    - [761, 7895.26]
+    - [792, 7895.26]
   - - [2048, 512, 1, 1792]
-    - [763, 8531.92]
+    - [794, 8531.92]
   - - [1024, 200, 1, 2048]
-    - [750, 4685.43]
+    - [781, 4685.43]
   - - [1024, 1024, 1, 4608]
-    - [756, 8735.71]
+    - [787, 8735.71]
   - - [4096, 256, 1, 8192]
-    - [752, 8782.55]
+    - [783, 8782.55]
   - - [512, 1024, 1, 1280]
-    - [742, 7483.25]
+    - [773, 7483.25]
   - - [2048, 1024, 1, 16384]
-    - [652, 8878.96]
+    - [683, 8878.96]
   - - [512, 512, 1, 1280]
-    - [750, 5745.72]
+    - [781, 5745.72]
   - - [1024, 200, 1, 1280]
-    - [742, 4446.23]
+    - [773, 4446.23]
   - - [2048, 256, 1, 3200]
-    - [750, 7842.85]
+    - [781, 7842.85]
   - - [2048, 512, 1, 15360]
-    - [698, 8757.24]
+    - [729, 8757.24]
   - - [1024, 512, 1, 3328]
-    - [750, 7854.04]
+    - [781, 7854.04]
   - - [1024, 512, 1, 4160]
-    - [750, 7934.61]
+    - [781, 7934.61]
   - - [4096, 200, 1, 6656]
-    - [752, 6883.3]
+    - [783, 6883.3]
   - - [4096, 1024, 1, 1024]
-    - [658, 9229.44]
+    - [689, 9229.44]
   - - [2048, 200, 1, 3328]
-    - [761, 6182.74]
+    - [792, 6182.74]
   - - [1024, 1024, 1, 256]
-    - [681, 6932.83]
+    - [712, 6932.83]
   - - [512, 200, 1, 512]
-    - [702, 1910.77]
+    - [733, 1910.77]
   - - [2048, 256, 1, 64]
-    - [673, 2912.81]
+    - [704, 2912.81]
   - - [1024, 256, 1, 2560]
-    - [750, 6123.17]
+    - [781, 6123.17]
   - - [2048, 512, 1, 11264]
-    - [762, 8728.94]
+    - [793, 8728.94]
   - - [32, 200, 1, 1024]
-    - [757, 187.56]
+    - [788, 187.56]
   - - [32, 512, 1, 2048]
-    - [701, 694.521]
+    - [732, 694.521]
   - - [2048, 256, 1, 2304]
-    - [750, 7759.35]
+    - [781, 7759.35]
   - - [2048, 256, 1, 12288]
-    - [729, 7726.35]
+    - [760, 7726.35]
   - - [4096, 200, 1, 8192]
-    - [752, 6870.94]
+    - [783, 6870.94]
   - - [1024, 512, 1, 7168]
-    - [698, 7479.2]
+    - [729, 7479.2]
   - - [1024, 512, 1, 1792]
-    - [750, 7626.11]
+    - [781, 7626.11]
   - - [4096, 1024, 1, 1664]
-    - [658, 9503.54]
+    - [689, 9503.54]
   - - [4096, 200, 1, 2816]
-    - [745, 6775.44]
+    - [776, 6775.44]
   - - [1024, 1024, 1, 896]
-    - [752, 8229.99]
+    - [783, 8229.99]
   - - [1024, 200, 1, 8320]
-    - [713, 5173.58]
+    - [744, 5173.58]
   - - [1024, 1024, 1, 12288]
-    - [753, 8463.21]
+    - [784, 8463.21]
   - - [1024, 256, 1, 8320]
-    - [742, 6404.37]
+    - [773, 6404.37]
   - - [1024, 200, 1, 1024]
-    - [750, 4297.54]
+    - [781, 4297.54]
   - - [1024, 200, 1, 16640]
-    - [712, 5499.51]
+    - [743, 5499.51]
   - - [4096, 256, 1, 5120]
-    - [766, 8729.15]
+    - [797, 8729.15]
   - - [1024, 256, 1, 3200]
-    - [761, 6124.96]
+    - [792, 6124.96]
   - - [512, 512, 1, 2560]
-    - [761, 6109.79]
+    - [792, 6109.79]
   - - [4096, 256, 1, 2048]
-    - [766, 8511.05]
+    - [797, 8511.05]
   - - [1024, 256, 1, 640]
-    - [750, 5102.66]
+    - [781, 5102.66]
   - - [2048, 256, 1, 5120]
-    - [678, 7667.93]
+    - [709, 7667.93]
   - - [2048, 256, 1, 7680]
-    - [761, 8054.45]
+    - [792, 8054.45]
   - - [4096, 512, 1, 384]
-    - [756, 8190.77]
+    - [787, 8190.77]
   - - [2048, 200, 1, 3584]
-    - [750, 6166.12]
+    - [781, 6166.12]
   - - [1024, 512, 1, 1536]
-    - [750, 7517.9]
+    - [781, 7517.9]
   - - [4096, 512, 1, 3328]
-    - [658, 9259.45]
+    - [689, 9259.45]
   - - [4096, 1024, 1, 256]
-    - [658, 8341.79]
+    - [689, 8341.79]
   - - [2048, 200, 1, 64]
-    - [721, 2307.71]
+    - [752, 2307.71]
   - - [2048, 200, 1, 4096]
-    - [761, 6212.04]
+    - [792, 6212.04]
   - - [1024, 1024, 1, 1536]
-    - [752, 8484.15]
+    - [783, 8484.15]
   - - [2048, 1024, 1, 7168]
-    - [660, 9315.24]
+    - [691, 9315.24]
   - - [1024, 256, 1, 3584]
-    - [750, 6207.32]
+    - [781, 6207.32]
   - - [4096, 256, 1, 32]
-    - [754, 2892.72]
+    - [785, 2892.72]
   - - [4096, 256, 1, 1280]
-    - [763, 8392.9]
+    - [794, 8392.9]
   - - [512, 512, 1, 3200]
-    - [761, 6219.41]
+    - [792, 6219.41]
   - - [2048, 1024, 1, 1536]
-    - [660, 9052.55]
+    - [691, 9052.55]
   - - [2048, 256, 1, 1024]
-    - [750, 7192.9]
+    - [781, 7192.9]
   - - [128, 200, 1, 512]
-    - [740, 502.677]
+    - [771, 502.677]
   - - [4096, 512, 1, 7168]
-    - [663, 9329.11]
+    - [694, 9329.11]
   - - [1024, 512, 1, 1152]
-    - [750, 7358.53]
+    - [781, 7358.53]
   - - [64, 1024, 1, 2048]
-    - [668, 2102.51]
+    - [699, 2102.51]
   - - [2048, 512, 1, 3328]
-    - [752, 8694.69]
+    - [783, 8694.69]
   - - [4096, 1024, 1, 896]
-    - [658, 9343.02]
+    - [689, 9343.02]
   - - [1, 1024, 1, 2048]
-    - [708, 40.9324]
+    - [739, 40.9324]
   - - [4096, 200, 1, 3584]
-    - [756, 6810.3]
+    - [787, 6810.3]
   - - [4096, 1024, 1, 4096]
-    - [658, 9347.56]
+    - [689, 9347.56]
   - - [1024, 256, 1, 14336]
-    - [651, 6625.8]
+    - [682, 6625.8]
   - - [2048, 200, 1, 256]
-    - [750, 4413.3]
+    - [781, 4413.3]
   - - [4096, 256, 1, 16384]
-    - [652, 8752.13]
+    - [683, 8752.13]
   - - [4096, 256, 1, 1920]
-    - [743, 8533.78]
+    - [774, 8533.78]
   - - [32, 1024, 1, 512]
-    - [741, 647.369]
+    - [772, 647.369]
   - - [1024, 256, 1, 7680]
-    - [761, 6387.36]
+    - [792, 6387.36]
   - - [2048, 256, 1, 1664]
-    - [761, 7631.44]
+    - [792, 7631.44]
   - - [512, 200, 1, 1536]
-    - [666, 2576.88]
+    - [697, 2576.88]
   - - [2048, 1024, 1, 6144]
-    - [647, 9033.77]
+    - [678, 9033.77]
   - - [512, 256, 1, 2816]
-    - [713, 3977.46]
+    - [744, 3977.46]
   - - [4096, 512, 1, 4160]
-    - [660, 9289.02]
+    - [691, 9289.02]
   - - [4096, 512, 1, 2080]
-    - [739, 9150.28]
+    - [770, 9150.28]
   - - [2048, 256, 1, 15360]
-    - [724, 7963.97]
+    - [755, 7963.97]
   - - [4096, 200, 1, 5120]
-    - [763, 6861.62]
+    - [794, 6861.62]
   - - [1024, 512, 1, 8192]
-    - [749, 7473.25]
+    - [780, 7473.25]
   - - [4096, 200, 1, 896]
-    - [766, 6443.25]
+    - [797, 6443.25]
   - - [2048, 512, 1, 8320]
-    - [756, 8810.24]
+    - [787, 8810.24]
   - - [1024, 1024, 1, 10240]
-    - [764, 8436.7]
+    - [795, 8436.7]
   - - [1024, 200, 1, 768]
-    - [750, 4087.58]
+    - [781, 4087.58]
   - - [2048, 200, 1, 640]
-    - [761, 5416.3]
+    - [792, 5416.3]
   - - [512, 200, 1, 2048]
-    - [715, 2702.62]
+    - [746, 2702.62]
   - - [1024, 1024, 1, 9216]
-    - [753, 8499.08]
+    - [784, 8499.08]
   - - [4096, 200, 1, 1408]
-    - [763, 6613.82]
+    - [794, 6613.82]
   - - [1024, 256, 1, 13312]
-    - [651, 6643.54]
+    - [682, 6643.54]
   - - [1024, 256, 1, 128]
-    - [682, 2706.1]
+    - [713, 2706.1]
   - - [2048, 200, 1, 5632]
-    - [761, 6270.12]
+    - [792, 6270.12]
   - - [64, 1024, 1, 512]
-    - [740, 1310.82]
+    - [771, 1310.82]
   - - [1024, 512, 1, 2560]
-    - [761, 7731.54]
+    - [792, 7731.54]
   - - [4096, 200, 1, 1280]
-    - [743, 6566.83]
+    - [774, 6566.83]
   - - [1024, 200, 1, 4096]
-    - [761, 4911.46]
+    - [792, 4911.46]
   - - [1024, 1024, 1, 2560]
-    - [752, 8630.35]
+    - [783, 8630.35]
   - - [2048, 512, 1, 64]
-    - [756, 4152.88]
+    - [787, 4152.88]
   - - [2048, 200, 1, 8192]
-    - [750, 6234.21]
+    - [781, 6234.21]
   - - [2048, 512, 1, 3072]
-    - [760, 8614.85]
+    - [791, 8614.85]
   - - [4096, 1024, 1, 5120]
-    - [658, 9573.75]
+    - [689, 9573.75]
   - - [4096, 256, 1, 640]
-    - [745, 7913.88]
+    - [776, 7913.88]
   - - [1024, 256, 1, 1280]
-    - [750, 5706.64]
+    - [781, 5706.64]
   - - [2048, 1024, 1, 1920]
-    - [660, 9141.34]
+    - [691, 9141.34]
   - - [2048, 256, 1, 4096]
-    - [750, 7937.28]
+    - [781, 7937.28]
   - - [2048, 1024, 1, 15360]
-    - [663, 9351.96]
+    - [694, 9351.96]
   - - [4096, 200, 1, 16384]
-    - [652, 6975.21]
+    - [683, 6975.21]
   - - [1, 1024, 1, 4096]
-    - [770, 60.7815]
+    - [801, 60.7815]
   - - [4096, 1024, 1, 2816]
-    - [658, 9583.98]
+    - [689, 9583.98]
   - - [4096, 200, 1, 1664]
-    - [745, 6658.7]
+    - [776, 6658.7]
   - - [4096, 512, 1, 256]
-    - [676, 7731.54]
+    - [707, 7731.54]
   - - [1024, 200, 1, 896]
-    - [750, 4193.45]
+    - [781, 4193.45]
   - - [2048, 200, 1, 6656]
-    - [761, 6291.17]
+    - [792, 6291.17]
   - - [2048, 1024, 1, 5120]
-    - [660, 9270.57]
+    - [691, 9270.57]
   - - [512, 1024, 1, 768]
-    - [750, 7099.06]
+    - [781, 7099.06]
   - - [2048, 512, 1, 14336]
-    - [730, 8559.13]
+    - [761, 8559.13]
   - - [2048, 200, 1, 8320]
-    - [750, 6314.72]
+    - [781, 6314.72]
   - - [4096, 256, 1, 3840]
-    - [766, 8718.56]
+    - [797, 8718.56]
   - - [2048, 1024, 1, 4096]
-    - [647, 8973.38]
+    - [678, 8973.38]
   - - [1024, 1024, 1, 3200]
-    - [756, 8701.98]
+    - [787, 8701.98]
   - - [1024, 256, 1, 4608]
-    - [750, 6268.05]
+    - [781, 6268.05]
   - - [4096, 512, 1, 4608]
-    - [658, 9316.47]
+    - [689, 9316.47]
   - - [2048, 512, 1, 2048]
-    - [749, 8462.76]
+    - [780, 8462.76]
   - - [4096, 512, 1, 1664]
-    - [658, 9074.53]
+    - [689, 9074.53]
   - - [4096, 256, 1, 4608]
-    - [745, 8718.05]
+    - [776, 8718.05]
   - - [1024, 512, 1, 32]
-    - [738, 1807.99]
+    - [769, 1807.99]
   - - [1024, 512, 1, 3840]
-    - [750, 7936.34]
+    - [781, 7936.34]
   - - [2048, 512, 1, 1920]
-    - [766, 8548.27]
+    - [797, 8548.27]
   - - [2048, 1024, 1, 896]
-    - [658, 8843.51]
+    - [689, 8843.51]
   - - [4096, 200, 1, 6144]
-    - [766, 6864.76]
+    - [797, 6864.76]
   - - [1024, 512, 1, 13312]
-    - [719, 7763.19]
+    - [750, 7763.19]
   - - [4096, 1024, 1, 4160]
-    - [658, 9650.72]
+    - [689, 9650.72]
   - - [2048, 200, 1, 2816]
-    - [750, 6119.76]
+    - [781, 6119.76]
   - - [1024, 1024, 1, 3840]
-    - [745, 8709.5]
+    - [776, 8709.5]
   - - [128, 1024, 1, 1024]
-    - [768, 2577.25]
+    - [799, 2577.25]
   - - [2048, 1024, 1, 11264]
-    - [663, 9339.06]
+    - [694, 9339.06]
   - - [2048, 1024, 1, 384]
-    - [752, 8210.81]
+    - [783, 8210.81]
   - - [1024, 256, 1, 2048]
-    - [773, 5755.58]
+    - [804, 5755.58]
   - - [2048, 1024, 1, 3840]
-    - [660, 9288.96]
+    - [691, 9288.96]
   - - [4096, 256, 1, 8320]
-    - [766, 8812.38]
+    - [797, 8812.38]
   - - [2048, 256, 1, 3840]
-    - [742, 7857.05]
+    - [773, 7857.05]
   - - [64, 256, 1, 512]
-    - [740, 336.182]
+    - [771, 336.182]
   - - [4096, 512, 1, 1280]
-    - [660, 8993.52]
+    - [691, 8993.52]
   - - [512, 256, 1, 1280]
-    - [692, 2996.03]
+    - [723, 2996.03]
   - - [1024, 512, 1, 7680]
-    - [750, 8041.59]
+    - [781, 8041.59]
   - - [4096, 1024, 1, 1152]
-    - [658, 9368.48]
+    - [689, 9368.48]
   - - [256, 200, 1, 512]
-    - [692, 993.07]
+    - [723, 993.07]
   - - [256, 1024, 1, 2048]
-    - [769, 4759.59]
+    - [800, 4759.59]
   - - [2048, 200, 1, 10240]
-    - [761, 6329.03]
+    - [792, 6329.03]
   - - [2048, 512, 1, 5120]
-    - [762, 8732.56]
+    - [793, 8732.56]
   - - [2048, 1024, 1, 1408]
-    - [660, 9006.9]
+    - [691, 9006.9]
   - - [512, 1024, 1, 512]
-    - [750, 6528.2]
+    - [781, 6528.2]
   - - [1024, 200, 1, 11264]
-    - [717, 5194.82]
+    - [748, 5194.82]
   - - [512, 1024, 1, 1024]
-    - [703, 6337.1]
+    - [734, 6337.1]
   - - [2048, 512, 1, 32]
-    - [669, 2777.78]
+    - [700, 2777.78]
   - - [4096, 256, 1, 2560]
-    - [752, 8621.49]
+    - [783, 8621.49]
   - - [4096, 256, 1, 64]
-    - [686, 4194.4]
+    - [717, 4194.4]
   - - [32, 1024, 1, 1024]
-    - [687, 778.264]
+    - [718, 778.264]
   - - [2048, 200, 1, 768]
-    - [761, 5507.33]
+    - [792, 5507.33]
   - - [512, 512, 1, 2048]
-    - [709, 5338.91]
+    - [740, 5338.91]
   - - [2048, 512, 1, 2560]
-    - [763, 8643.69]
+    - [794, 8643.69]
   - - [512, 256, 1, 512]
-    - [742, 2542.1]
+    - [773, 2542.1]
   - - [1024, 200, 1, 7680]
-    - [717, 5047.8]
+    - [748, 5047.8]
   - - [4096, 512, 1, 896]
-    - [658, 8856.85]
+    - [689, 8856.85]
   - - [4096, 1024, 1, 3072]
-    - [658, 9492.17]
+    - [689, 9492.17]
   - - [4096, 200, 1, 13312]
-    - [650, 6900.73]
+    - [681, 6900.73]
   - - [2048, 512, 1, 7168]
-    - [751, 8788.1]
+    - [782, 8788.1]
   - - [2048, 1024, 1, 2816]
-    - [663, 9229.88]
+    - [694, 9229.88]
   - - [2048, 512, 1, 128]
-    - [681, 5630.04]
+    - [712, 5630.04]
   - - [1024, 256, 1, 8192]
-    - [773, 6203.83]
+    - [804, 6203.83]
   - - [4096, 1024, 1, 1792]
-    - [658, 9510.42]
+    - [689, 9510.42]
   - - [1024, 200, 1, 6656]
-    - [742, 5002.85]
+    - [773, 5002.85]
   - - [1024, 1024, 1, 1024]
-    - [679, 8095.26]
+    - [710, 8095.26]
   - - [4096, 200, 1, 2304]
-    - [763, 6754.45]
+    - [794, 6754.45]
   - - [4096, 512, 1, 1152]
-    - [658, 8974.54]
+    - [689, 8974.54]
   - - [512, 200, 1, 1024]
-    - [740, 2233.01]
+    - [771, 2233.01]
   - - [1024, 256, 1, 3840]
-    - [761, 6244.72]
+    - [792, 6244.72]
   - - [512, 512, 1, 768]
-    - [750, 5331.84]
+    - [781, 5331.84]
   - - [2048, 512, 1, 4096]
-    - [760, 8621.76]
+    - [791, 8621.76]
   - - [2048, 256, 1, 2560]
-    - [750, 7770.93]
+    - [781, 7770.93]
   - - [2048, 256, 1, 4160]
-    - [761, 7923.08]
+    - [792, 7923.08]
   - - [1024, 256, 1, 64]
-    - [657, 1705.1]
+    - [688, 1705.1]
   - - [4096, 512, 1, 7680]
-    - [658, 9364.57]
+    - [689, 9364.57]
   - - [1024, 512, 1, 1664]
-    - [761, 7594.24]
+    - [792, 7594.24]
   - - [2048, 512, 1, 2080]
-    - [752, 8570.67]
+    - [783, 8570.67]
   - - [2048, 512, 1, 3840]
-    - [763, 8729.14]
+    - [794, 8729.14]
   - - [4096, 1024, 1, 384]
-    - [658, 8764.86]
+    - [689, 8764.86]
   - - [4096, 200, 1, 3072]
-    - [752, 6772.39]
+    - [783, 6772.39]
   - - [1024, 512, 1, 14336]
-    - [720, 7680.97]
+    - [751, 7680.97]
   - - [1024, 200, 1, 1920]
-    - [742, 4637.08]
+    - [773, 4637.08]
   - - [1024, 1024, 1, 1664]
-    - [756, 8506.49]
+    - [787, 8506.49]
   - - [512, 1024, 1, 2304]
-    - [750, 7775.33]
+    - [781, 7775.33]
   - - [2048, 1024, 1, 1792]
-    - [658, 9123.46]
+    - [689, 9123.46]
   - - [32, 200, 1, 512]
-    - [758, 125.744]
+    - [789, 125.744]
   - - [4096, 256, 1, 11264]
-    - [763, 8822.31]
+    - [794, 8822.31]
   - - [4096, 256, 1, 1408]
-    - [763, 8419.32]
+    - [794, 8419.32]
   - - [1024, 256, 1, 7168]
-    - [750, 6377.54]
+    - [781, 6377.54]
   - - [2048, 256, 1, 1152]
-    - [761, 7401.81]
+    - [792, 7401.81]
   - - [256, 256, 1, 512]
-    - [740, 1314.93]
+    - [771, 1314.93]
   - - [1024, 512, 1, 1280]
-    - [750, 7410.53]
+    - [781, 7410.53]
   - - [512, 512, 1, 1792]
-    - [742, 5931.44]
+    - [773, 5931.44]
   - - [2048, 200, 1, 12288]
-    - [724, 6242.25]
+    - [755, 6242.25]
   - - [2048, 200, 1, 1664]
-    - [761, 5953.75]
+    - [792, 5953.75]
   - - [4096, 200, 1, 4608]
-    - [756, 6853.54]
+    - [787, 6853.54]
   - - [512, 1024, 1, 2560]
-    - [750, 7778.13]
+    - [781, 7778.13]
   - - [4096, 200, 1, 384]
-    - [743, 5765.73]
+    - [774, 5765.73]
   - - [128, 512, 1, 512]
-    - [740, 1302.68]
+    - [771, 1302.68]
   - - [1024, 200, 1, 256]
-    - [744, 2861.93]
+    - [775, 2861.93]
   - - [256, 1024, 1, 1024]
-    - [685, 4522.26]
+    - [716, 4522.26]
   - - [2048, 200, 1, 128]
-    - [750, 3310.0]
+    - [781, 3310.0]
   - - [2048, 200, 1, 11264]
-    - [731, 6168.2]
+    - [762, 6168.2]
   - - [1024, 512, 1, 1920]
-    - [761, 7649.29]
+    - [792, 7649.29]
   - - [4096, 256, 1, 1536]
-    - [756, 8427.33]
+    - [787, 8427.33]
   - - [4096, 1024, 1, 3584]
-    - [658, 9618.0]
+    - [689, 9618.0]
   - - [2048, 256, 1, 256]
-    - [750, 5464.99]
+    - [781, 5464.99]
   - - [2048, 1024, 1, 768]
-    - [658, 8726.87]
+    - [689, 8726.87]
   - - [4096, 256, 1, 10240]
-    - [752, 8790.89]
+    - [783, 8790.89]
   - - [2048, 256, 1, 10240]
-    - [732, 7665.31]
+    - [763, 7665.31]
   - - [4096, 200, 1, 14336]
-    - [766, 6916.18]
+    - [797, 6916.18]
   - - [1024, 512, 1, 5120]
-    - [704, 7420.36]
+    - [735, 7420.36]
   - - [1024, 512, 1, 8320]
-    - [761, 8061.31]
+    - [792, 8061.31]
   - - [256, 200, 1, 2048]
-    - [716, 1916.36]
+    - [747, 1916.36]
   - - [1024, 200, 1, 640]
-    - [744, 3873.39]
+    - [775, 3873.39]
   - - [1024, 512, 1, 10240]
-    - [749, 7526.9]
+    - [780, 7526.9]
   - - [1024, 200, 1, 4160]
-    - [761, 4928.19]
+    - [792, 4928.19]
   - - [1024, 200, 1, 5632]
-    - [742, 4978.66]
+    - [773, 4978.66]
   - - [1024, 1024, 1, 2048]
-    - [697, 7937.28]
+    - [728, 7937.28]
   - - [1024, 256, 1, 6656]
-    - [761, 6373.68]
+    - [792, 6373.68]
   - - [2048, 1024, 1, 8320]
-    - [658, 9333.15]
+    - [689, 9333.15]
   - - [1024, 256, 1, 10240]
-    - [750, 6407.29]
+    - [781, 6407.29]
   - - [2048, 256, 1, 2080]
-    - [750, 7714.58]
+    - [781, 7714.58]
   - - [4096, 256, 1, 128]
-    - [664, 5765.47]
+    - [695, 5765.47]
   - - [1024, 256, 1, 768]
-    - [755, 5210.42]
+    - [786, 5210.42]
   - - [2048, 256, 1, 896]
-    - [761, 7267.46]
+    - [792, 7267.46]
   - - [64, 512, 1, 2048]
-    - [727, 1296.64]
+    - [758, 1296.64]
   - - [4096, 512, 1, 2048]
-    - [660, 9121.25]
+    - [691, 9121.25]
   - - [512, 256, 1, 2048]
-    - [713, 3283.31]
+    - [744, 3283.31]
   - - [4096, 256, 1, 16640]
-    - [745, 8839.88]
+    - [776, 8839.88]
   - - [4096, 512, 1, 2560]
-    - [663, 9222.15]
+    - [694, 9222.15]
   - - [1024, 512, 1, 15360]
-    - [714, 7865.66]
+    - [745, 7865.66]
   - - [4096, 1024, 1, 2304]
-    - [658, 9558.26]
+    - [689, 9558.26]
   - - [4096, 200, 1, 1152]
-    - [763, 6531.93]
+    - [794, 6531.93]
   - - [2048, 200, 1, 6144]
-    - [761, 6277.75]
+    - [792, 6277.75]
   - - [1024, 1024, 1, 7680]
-    - [756, 8799.34]
+    - [787, 8799.34]
   - - [2048, 200, 1, 1920]
-    - [761, 6031.02]
+    - [792, 6031.02]
   - - [32, 1024, 1, 2048]
-    - [735, 1174.98]
+    - [766, 1174.98]
   - - [1024, 200, 1, 3584]
-    - [742, 4880.44]
+    - [773, 4880.44]
   - - [4096, 256, 1, 2080]
-    - [749, 8557.22]
+    - [780, 8557.22]
   - - [1024, 1024, 1, 16384]
-    - [650, 8618.65]
+    - [681, 8618.65]
   - - [1024, 256, 1, 1408]
-    - [761, 5803.54]
+    - [792, 5803.54]
   - - [1024, 256, 1, 4096]
-    - [771, 6037.78]
+    - [802, 6037.78]
   - - [2048, 200, 1, 14336]
-    - [761, 6364.48]
+    - [792, 6364.48]
   - - [4096, 512, 1, 5120]
-    - [660, 9302.05]
+    - [691, 9302.05]
   - - [1024, 512, 1, 6144]
-    - [696, 7469.09]
+    - [727, 7469.09]
   - - [1024, 512, 1, 2304]
-    - [761, 7759.35]
+    - [792, 7759.35]
   - - [4096, 200, 1, 4160]
-    - [745, 6843.22]
+    - [776, 6843.22]
   - - [4096, 200, 1, 1536]
-    - [756, 6628.27]
+    - [787, 6628.27]
   - - [4096, 1024, 1, 6144]
-    - [658, 9593.08]
+    - [689, 9593.08]
   - - [256, 64, 1, 1225]
-    - [790, 1194.77]
+    - [821, 1194.77]
   - - [2048, 320, 1, 64]
-    - [792, 3449.36]
+    - [823, 3449.36]
   - - [1024, 128, 1, 289]
-    - [796, 2869.78]
+    - [827, 2869.78]
   - - [384, 64, 1, 1225]
-    - [781, 1511.43]
+    - [812, 1511.43]
   - - [2048, 384, 1, 64]
-    - [794, 3836.35]
+    - [825, 3836.35]
   - - [64, 80, 1, 5329]
-    - [793, 888.267]
+    - [824, 888.267]
   - - [1024, 384, 1, 289]
-    - [787, 4291.62]
+    - [818, 4291.62]
   - - [2048, 448, 1, 64]
-    - [786, 3783.62]
+    - [817, 3783.62]
   - - [768, 192, 1, 289]
-    - [791, 2690.43]
+    - [822, 2690.43]
   - - [288, 64, 1, 1225]
-    - [780, 1142.77]
+    - [811, 1142.77]
   - - [384, 96, 1, 1225]
-    - [798, 1844.81]
+    - [829, 1844.81]
   - - [1024, 3392, 1, 4096]
-    - [824, 8503.02]
+    - [855, 8503.02]
   - - [1024, 3301, 1, 4096]
-    - [826, 8414.1]
+    - [857, 8414.1]
   - - [1024, 3443, 1, 4096]
-    - [813, 8536.59]
+    - [844, 8536.59]
   - - [132, 134, 480, 64]
-    - [851, 4149.27]
+    - [882, 4149.27]
   - - [162, 162, 400, 64]
-    - [839, 5539.73]
+    - [870, 5539.73]
   - - [4096, 3548, 1, 1024]
-    - [805, 9773.01]
+    - [836, 9773.01]
   - - [4096, 2977, 1, 1024]
-    - [806, 9574.43]
+    - [837, 9574.43]
   - - [132, 135, 480, 64]
-    - [851, 4167.51]
+    - [882, 4167.51]
   - - [1024, 2985, 1, 4096]
-    - [809, 9133.99]
+    - [840, 9133.99]
   - - [33708, 3681, 1, 1024]
-    - [806, 10033.8]
+    - [837, 10033.8]
   - - [4096, 3443, 1, 1024]
-    - [806, 9513.78]
+    - [837, 9513.78]
   - - [11, 11, 5456, 64]
-    - [848, 627.346]
+    - [879, 627.346]
   - - [1024, 3400, 1, 4096]
-    - [827, 8420.02]
+    - [858, 8420.02]
   - - [4096, 3995, 1, 1024]
-    - [805, 9693.87]
+    - [836, 9693.87]
   - - [4096, 3190, 1, 1024]
-    - [805, 9474.84]
+    - [836, 9474.84]
   - - [4096, 3594, 1, 1024]
-    - [806, 9315.83]
+    - [837, 9315.83]
   - - [159, 162, 400, 64]
-    - [838, 5429.98]
+    - [869, 5429.98]
   - - [1024, 3565, 1, 4096]
-    - [821, 8532.8]
+    - [852, 8532.8]
   - - [4096, 3422, 1, 1024]
-    - [806, 9459.24]
+    - [837, 9459.24]
   - - [1024, 3214, 1, 4096]
-    - [826, 8064.92]
+    - [857, 8064.92]
   - - [33708, 3584, 1, 1024]
-    - [807, 10129.0]
+    - [838, 10129.0]
   - - [33708, 3640, 1, 1024]
-    - [804, 9919.22]
+    - [835, 9919.22]
   - - [4096, 3263, 1, 1024]
-    - [804, 9699.35]
+    - [835, 9699.35]
   - - [4096, 3296, 1, 1024]
-    - [804, 9780.8]
+    - [835, 9780.8]
   - - [1024, 3557, 1, 4096]
-    - [825, 8526.89]
+    - [856, 8526.89]
   - - [4096, 3463, 1, 1024]
-    - [804, 9578.13]
+    - [835, 9578.13]
   - - [4096, 3528, 1, 1024]
-    - [804, 9739.92]
+    - [835, 9739.92]
   - - [14, 14, 4368, 64]
-    - [836, 991.276]
+    - [867, 991.276]
   - - [4096, 3226, 1, 1024]
-    - [804, 9587.19]
+    - [835, 9587.19]
   - - [4096, 3439, 1, 1024]
-    - [807, 9499.72]
+    - [838, 9499.72]
   - - [1024, 3523, 1, 4096]
-    - [827, 8393.58]
+    - [858, 8393.58]
   - - [1024, 3098, 1, 4096]
-    - [833, 7882.87]
+    - [864, 7882.87]
   - - [4096, 3121, 1, 1024]
-    - [804, 9296.23]
+    - [835, 9296.23]
   - - [33708, 3894, 1, 1024]
-    - [805, 9952.27]
+    - [836, 9952.27]
   - - [1024, 3548, 1, 4096]
-    - [811, 8432.45]
+    - [842, 8432.45]
   - - [1024, 3451, 1, 4096]
-    - [824, 8456.44]
+    - [855, 8456.44]
   - - [4096, 3353, 1, 1024]
-    - [806, 9289.08]
+    - [837, 9289.08]
   - - [4096, 3402, 1, 1024]
-    - [806, 9406.44]
+    - [837, 9406.44]
   - - [4096, 3939, 1, 1024]
-    - [804, 9549.59]
+    - [835, 9549.59]
   - - [133, 133, 480, 64]
-    - [851, 4124.31]
+    - [882, 4124.31]
   - - [1024, 3559, 1, 4096]
-    - [826, 8587.04]
+    - [857, 8587.04]
   - - [1024, 2977, 1, 4096]
-    - [809, 9084.59]
+    - [840, 9084.59]
   - - [1024, 3478, 1, 4096]
-    - [820, 8342.85]
+    - [851, 8342.85]
   - - [134, 134, 480, 64]
-    - [853, 4204.43]
+    - [884, 4204.43]
   - - [1024, 3368, 1, 4096]
-    - [826, 8277.43]
+    - [857, 8277.43]
   - - [4096, 4012, 1, 1024]
-    - [806, 9726.57]
+    - [837, 9726.57]
   - - [4096, 3486, 1, 1024]
-    - [804, 9639.71]
+    - [835, 9639.71]
   - - [1024, 3479, 1, 4096]
-    - [814, 8420.37]
+    - [845, 8420.37]
   - - [1024, 3505, 1, 4096]
-    - [826, 8310.66]
+    - [857, 8310.66]
   - - [4096, 3381, 1, 1024]
-    - [807, 9357.75]
+    - [838, 9357.75]
   - - [4096, 3430, 1, 1024]
-    - [804, 9482.36]
+    - [835, 9482.36]
   - - [1024, 3554, 1, 4096]
-    - [826, 8592.38]
+    - [857, 8592.38]
   - - [4096, 3271, 1, 1024]
-    - [804, 9715.41]
+    - [835, 9715.41]
   - - [1024, 3063, 1, 4096]
-    - [808, 9388.56]
+    - [839, 9388.56]
   - - [1024, 3209, 1, 4096]
-    - [826, 8212.74]
+    - [857, 8212.74]
   - - [4096, 3503, 1, 1024]
-    - [806, 9680.59]
+    - [837, 9680.59]
   - - [4096, 3344, 1, 1024]
-    - [804, 9268.55]
+    - [835, 9268.55]
   - - [1024, 3147, 1, 4096]
-    - [827, 8037.2]
+    - [858, 8037.2]
   - - [1024, 3322, 1, 4096]
-    - [825, 8356.32]
+    - [856, 8356.32]
   - - [1024, 3341, 1, 4096]
-    - [826, 8316.33]
+    - [857, 8316.33]
   - - [1024, 3516, 1, 4096]
-    - [808, 8397.12]
+    - [839, 8397.12]
   - - [102, 101, 624, 64]
-    - [839, 4709.59]
+    - [870, 4709.59]
   - - [1024, 3454, 1, 4096]
-    - [825, 8425.6]
+    - [856, 8425.6]
   - - [4096, 3969, 1, 1024]
-    - [806, 9640.15]
+    - [837, 9640.15]
   - - [4096, 3466, 1, 1024]
-    - [806, 9576.83]
+    - [837, 9576.83]
   - - [1024, 3999, 1, 1024]
-    - [809, 9207.15]
+    - [840, 9207.15]
   - - [1024, 4032, 1, 1024]
-    - [810, 9294.56]
+    - [841, 9294.56]
   - - [1024, 3403, 1, 4096]
-    - [824, 8357.97]
+    - [855, 8357.97]
   - - [4096, 3361, 1, 1024]
-    - [806, 9308.78]
+    - [837, 9308.78]
   - - [1024, 3527, 1, 4096]
-    - [825, 8512.19]
+    - [856, 8512.19]
   - - [1024, 3822, 1, 4096]
-    - [809, 8991.13]
+    - [840, 8991.13]
   - - [4096, 3315, 1, 1024]
-    - [804, 9834.96]
+    - [835, 9834.96]
   - - [232, 232, 272, 64]
-    - [838, 6481.62]
+    - [869, 6481.62]
   - - [1024, 3336, 1, 4096]
-    - [827, 8295.61]
+    - [858, 8295.61]
   - - [228, 232, 272, 64]
-    - [839, 6327.85]
+    - [870, 6327.85]
   - - [4096, 3547, 1, 1024]
-    - [804, 9781.56]
+    - [835, 9781.56]
   - - [4096, 3340, 1, 1024]
-    - [806, 9269.72]
+    - [837, 9269.72]
   - - [1024, 3906, 1, 1024]
-    - [810, 9018.38]
+    - [841, 9018.38]
   - - [1024, 3295, 1, 4096]
-    - [824, 8194.83]
+    - [855, 8194.83]
   - - [4096, 3294, 1, 1024]
-    - [807, 9762.16]
+    - [838, 9762.16]
   - - [33708, 3968, 1, 1024]
-    - [807, 10147.8]
+    - [838, 10147.8]
   - - [1024, 3473, 1, 4096]
-    - [813, 8318.68]
+    - [844, 8318.68]
   - - [1024, 3072, 1, 4096]
-    - [810, 9370.13]
+    - [841, 9370.13]
   - - [4096, 3189, 1, 1024]
-    - [804, 9470.26]
+    - [835, 9470.26]
   - - [4096, 3494, 1, 1024]
-    - [804, 9661.32]
+    - [835, 9661.32]
   - - [1024, 3522, 1, 4096]
-    - [827, 8459.23]
+    - [858, 8459.23]
   - - [33708, 3944, 1, 1024]
-    - [807, 10060.2]
+    - [838, 10060.2]
   - - [135, 135, 480, 64]
-    - [852, 4257.03]
+    - [883, 4257.03]
   - - [4096, 3421, 1, 1024]
-    - [804, 9456.98]
+    - [835, 9456.98]
   - - [32, 32, 1984, 64]
-    - [849, 3436.24]
+    - [880, 3436.24]
   - - [4096, 3311, 1, 1024]
-    - [804, 9810.88]
+    - [835, 9810.88]
   - - [1024, 3990, 1, 1024]
-    - [811, 9197.74]
+    - [842, 9197.74]
   - - [1024, 3290, 1, 4096]
-    - [824, 8229.63]
+    - [855, 8229.63]
   - - [4096, 3565, 1, 1024]
-    - [805, 9824.48]
+    - [836, 9824.48]
   - - [1024, 3484, 1, 4096]
-    - [814, 8575.38]
+    - [845, 8575.38]
   - - [4096, 3384, 1, 1024]
-    - [804, 9366.54]
+    - [835, 9366.54]
   - - [1024, 3422, 1, 4096]
-    - [824, 8484.12]
+    - [855, 8484.12]
   - - [4096, 3681, 1, 1024]
-    - [805, 9520.16]
+    - [836, 9520.16]
   - - [1024, 3584, 1, 1024]
-    - [831, 8583.37]
+    - [862, 8583.37]
   - - [4096, 4050, 1, 1024]
-    - [806, 9807.35]
+    - [837, 9807.35]
   - - [1024, 3996, 1, 4096]
-    - [807, 9181.7]
+    - [838, 9181.7]
   - - [4096, 3169, 1, 1024]
-    - [805, 9411.4]
+    - [836, 9411.4]
   - - [4096, 3538, 1, 1024]
-    - [805, 9765.99]
+    - [836, 9765.99]
   - - [1024, 3495, 1, 4096]
-    - [811, 8295.95]
+    - [842, 8295.95]
   - - [4096, 3401, 1, 1024]
-    - [804, 9402.68]
+    - [835, 9402.68]
   - - [1024, 3560, 1, 4096]
-    - [825, 8513.45]
+    - [856, 8513.45]
   - - [133, 135, 480, 64]
-    - [852, 4199.08]
+    - [883, 4199.08]
   - - [1024, 3263, 1, 4096]
-    - [826, 8172.23]
+    - [857, 8172.23]
   - - [1024, 3870, 1, 4096]
-    - [806, 8996.27]
+    - [837, 8996.27]
   - - [4096, 3555, 1, 1024]
-    - [807, 9811.88]
+    - [838, 9811.88]
   - - [4096, 3412, 1, 1024]
-    - [804, 9432.09]
+    - [835, 9432.09]
   - - [101, 101, 624, 64]
-    - [838, 4667.69]
+    - [869, 4667.69]
   - - [1024, 3296, 1, 4096]
-    - [825, 8350.61]
+    - [856, 8350.61]
   - - [1024, 3379, 1, 4096]
-    - [827, 8432.94]
+    - [858, 8432.94]
   - - [4096, 3302, 1, 1024]
-    - [804, 9796.39]
+    - [835, 9796.39]
   - - [1024, 3490, 1, 4096]
-    - [824, 8538.44]
+    - [855, 8538.44]
   - - [1024, 3428, 1, 4096]
-    - [825, 8531.67]
+    - [856, 8531.67]
   - - [1024, 3976, 1, 4096]
-    - [806, 9327.87]
+    - [837, 9327.87]
   - - [4096, 3485, 1, 1024]
-    - [804, 9628.82]
+    - [835, 9628.82]
   - - [4096, 3534, 1, 1024]
-    - [804, 9755.97]
+    - [835, 9755.97]
   - - [1024, 3064, 1, 4096]
-    - [810, 9196.98]
+    - [841, 9196.98]
   - - [4096, 3216, 1, 1024]
-    - [806, 9563.44]
+    - [837, 9563.44]
   - - [1024, 3450, 1, 4096]
-    - [834, 8519.29]
+    - [865, 8519.29]
   - - [1024, 3533, 1, 4096]
-    - [825, 8495.77]
+    - [856, 8495.77]
   - - [1024, 4030, 1, 1024]
-    - [810, 9304.68]
+    - [841, 9304.68]
   - - [1024, 3311, 1, 4096]
-    - [825, 8278.6]
+    - [856, 8278.6]
   - - [1024, 3468, 1, 4096]
-    - [816, 8564.55]
+    - [847, 8564.55]
   - - [23, 23, 2720, 64]
-    - [840, 2311.55]
+    - [871, 2311.55]
   - - [4096, 3359, 1, 1024]
-    - [806, 9309.15]
+    - [837, 9309.15]
   - - [4096, 3392, 1, 1024]
-    - [806, 9388.19]
+    - [837, 9388.19]
   - - [1024, 3925, 1, 1024]
-    - [808, 9006.72]
+    - [839, 9006.72]
   - - [4096, 3233, 1, 1024]
-    - [804, 9603.64]
+    - [835, 9603.64]
   - - [4096, 3956, 1, 1024]
-    - [805, 9581.94]
+    - [836, 9581.94]
   - - [1024, 3463, 1, 4096]
-    - [826, 8293.97]
+    - [857, 8293.97]
   - - [1024, 3126, 1, 4096]
-    - [825, 7978.13]
+    - [856, 7978.13]
   - - [1024, 3363, 1, 4096]
-    - [818, 8267.47]
+    - [849, 8267.47]
   - - [4096, 3465, 1, 1024]
-    - [804, 9590.74]
+    - [835, 9590.74]
   - - [33708, 3996, 1, 1024]
-    - [805, 9899.99]
+    - [836, 9899.99]
   - - [1024, 3231, 1, 4096]
-    - [826, 8231.68]
+    - [857, 8231.68]
   - - [33708, 3978, 1, 1024]
-    - [805, 9853.64]
+    - [836, 9853.64]
   - - [4096, 3476, 1, 1024]
-    - [804, 9616.62]
+    - [835, 9616.62]
   - - [85, 85, 752, 64]
-    - [836, 4240.65]
+    - [867, 4240.65]
   - - [4096, 3339, 1, 1024]
-    - [806, 9249.81]
+    - [837, 9249.81]
   - - [4096, 3452, 1, 1024]
-    - [804, 9534.13]
+    - [835, 9534.13]
   - - [1024, 3396, 1, 4096]
-    - [825, 8451.23]
+    - [856, 8451.23]
   - - [4096, 3293, 1, 1024]
-    - [806, 9775.22]
+    - [837, 9775.22]
   - - [54, 54, 1184, 64]
-    - [838, 4153.54]
+    - [869, 4153.54]
   - - [1024, 3432, 1, 4096]
-    - [819, 8345.53]
+    - [850, 8345.53]
   - - [4096, 3493, 1, 1024]
-    - [807, 9649.9]
+    - [838, 9649.9]
   - - [4096, 3350, 1, 1024]
-    - [806, 9273.91]
+    - [837, 9273.91]
   - - [1024, 3079, 1, 4096]
-    - [834, 7775.66]
+    - [865, 7775.66]
   - - [1024, 3101, 1, 4096]
-    - [834, 7847.85]
+    - [865, 7847.85]
   - - [33708, 3939, 1, 1024]
-    - [807, 10054.4]
+    - [838, 10054.4]
   - - [4096, 3256, 1, 1024]
-    - [806, 9681.83]
+    - [837, 9681.83]
   - - [1024, 3439, 1, 4096]
-    - [825, 8531.11]
+    - [856, 8531.11]
   - - [1024, 3510, 1, 4096]
-    - [824, 8422.31]
+    - [855, 8422.31]
   - - [4096, 3900, 1, 1024]
-    - [805, 9468.61]
+    - [836, 9468.61]
   - - [1024, 3470, 1, 4096]
-    - [826, 8507.77]
+    - [857, 8507.77]
   - - [4096, 3456, 1, 1024]
-    - [806, 9577.46]
+    - [837, 9577.46]
   - - [4096, 3014, 1, 1024]
-    - [805, 9666.15]
+    - [836, 9666.15]
   - - [4096, 3367, 1, 1024]
-    - [807, 9328.36]
+    - [838, 9328.36]
   - - [4096, 3432, 1, 1024]
-    - [804, 9480.88]
+    - [835, 9480.88]
   - - [33708, 4026, 1, 1024]
-    - [807, 9972.83]
+    - [838, 9972.83]
   - - [4096, 3273, 1, 1024]
-    - [804, 9716.95]
+    - [835, 9716.95]
   - - [4096, 3130, 1, 1024]
-    - [804, 9311.4]
+    - [835, 9311.4]
   - - [1024, 3496, 1, 4096]
-    - [815, 8434.65]
+    - [846, 8434.65]
   - - [1024, 3995, 1, 4096]
-    - [800, 9157.73]
+    - [831, 9157.73]
   - - [1024, 3939, 1, 4096]
-    - [808, 9059.86]
+    - [839, 9059.86]
   - - [1024, 3121, 1, 4096]
-    - [832, 7963.43]
+    - [863, 7963.43]
   - - [1024, 3232, 1, 4096]
-    - [826, 8061.09]
+    - [857, 8061.09]
   - - [4096, 3147, 1, 1024]
-    - [806, 9364.63]
+    - [837, 9364.63]
   - - [4096, 3516, 1, 1024]
-    - [804, 9708.84]
+    - [835, 9708.84]
   - - [1024, 3969, 1, 1024]
-    - [810, 9168.68]
+    - [841, 9168.68]
   - - [1024, 3364, 1, 4096]
-    - [814, 8363.65]
+    - [845, 8363.65]
   - - [4096, 3411, 1, 1024]
-    - [807, 9442.77]
+    - [838, 9442.77]
   - - [147, 147, 432, 64]
-    - [851, 4843.21]
+    - [882, 4843.21]
   - - [4096, 3301, 1, 1024]
-    - [806, 9783.46]
+    - [837, 9783.46]
   - - [112, 111, 576, 64]
-    - [838, 5627.47]
+    - [869, 5627.47]
   - - [1024, 3513, 1, 4096]
-    - [825, 8725.41]
+    - [856, 8725.41]
   - - [1024, 3469, 1, 4096]
-    - [805, 8183.11]
+    - [836, 8183.11]
   - - [1024, 3095, 1, 4096]
-    - [826, 7887.87]
+    - [857, 7887.87]
   - - [4096, 3533, 1, 1024]
-    - [805, 9755.27]
+    - [836, 9755.27]
   - - [4096, 3390, 1, 1024]
-    - [804, 9377.21]
+    - [835, 9377.21]
   - - [4096, 3582, 1, 1024]
-    - [804, 9874.96]
+    - [835, 9874.96]
   - - [1024, 3956, 1, 1024]
-    - [810, 9058.82]
+    - [841, 9058.82]
   - - [4096, 3585, 1, 1024]
-    - [806, 9289.75]
+    - [837, 9289.75]
   - - [4096, 3231, 1, 1024]
-    - [805, 9597.15]
+    - [836, 9597.15]
   - - [1024, 3205, 1, 4096]
-    - [824, 8073.25]
+    - [855, 8073.25]
   - - [4096, 3496, 1, 1024]
-    - [805, 9668.38]
+    - [836, 9668.38]
   - - [1024, 3143, 1, 4096]
-    - [824, 8031.68]
+    - [855, 8031.68]
   - - [1024, 3318, 1, 4096]
-    - [821, 8261.43]
+    - [852, 8261.43]
   - - [1024, 3353, 1, 4096]
-    - [825, 8414.92]
+    - [856, 8414.92]
   - - [1024, 3464, 1, 4096]
-    - [824, 8310.03]
+    - [855, 8310.03]
   - - [4096, 2736, 1, 1024]
-    - [806, 9563.12]
+    - [837, 9563.12]
   - - [1024, 3402, 1, 4096]
-    - [821, 8413.84]
+    - [852, 8413.84]
   - - [4096, 3138, 1, 1024]
-    - [806, 9342.09]
+    - [837, 9342.09]
   - - [1024, 3860, 1, 4096]
-    - [809, 9008.57]
+    - [840, 9008.57]
   - - [148, 148, 432, 64]
-    - [851, 4915.7]
+    - [882, 4915.7]
   - - [1024, 3539, 1, 4096]
-    - [821, 8449.36]
+    - [852, 8449.36]
   - - [4096, 3211, 1, 1024]
-    - [806, 9551.28]
+    - [837, 9551.28]
   - - [1024, 3332, 1, 4096]
-    - [814, 8295.11]
+    - [845, 8295.11]
   - - [1024, 3466, 1, 4096]
-    - [825, 8339.25]
+    - [856, 8339.25]
   - - [4096, 3475, 1, 1024]
-    - [804, 9612.33]
+    - [835, 9612.33]
   - - [4096, 3524, 1, 1024]
-    - [807, 9722.74]
+    - [838, 9722.74]
   - - [4096, 2985, 1, 1024]
-    - [807, 9591.33]
+    - [838, 9591.33]
   - - [4096, 3222, 1, 1024]
-    - [804, 9577.48]
+    - [835, 9577.48]
   - - [4096, 3451, 1, 1024]
-    - [806, 9541.42]
+    - [837, 9541.42]
   - - [1024, 3181, 1, 4096]
-    - [824, 8118.89]
+    - [855, 8118.89]
   - - [1024, 3640, 1, 4096]
-    - [809, 8617.11]
+    - [840, 8617.11]
   - - [1024, 3375, 1, 4096]
-    - [813, 8419.75]
+    - [844, 8419.75]
   - - [1024, 3550, 1, 4096]
-    - [826, 8512.83]
+    - [857, 8512.83]
   - - [1024, 4020, 1, 1024]
-    - [810, 9266.9]
+    - [841, 9266.9]
   - - [1024, 3840, 1, 4096]
-    - [809, 8983.49]
+    - [840, 8983.49]
   - - [4096, 3349, 1, 1024]
-    - [804, 9279.96]
+    - [835, 9279.96]
   - - [4096, 3398, 1, 1024]
-    - [805, 9402.32]
+    - [836, 9402.32]
   - - [33708, 3976, 1, 1024]
-    - [806, 9849.54]
+    - [837, 9849.54]
   - - [1024, 2917, 1, 4096]
-    - [811, 8936.87]
+    - [842, 8936.87]
   - - [33708, 3910, 1, 1024]
-    - [804, 9983.35]
+    - [835, 9983.35]
   - - [4096, 3860, 1, 1024]
-    - [805, 9377.58]
+    - [836, 9377.58]
   - - [4096, 3304, 1, 1024]
-    - [807, 9798.44]
+    - [838, 9798.44]
   - - [1024, 3286, 1, 4096]
-    - [812, 8167.41]
+    - [843, 8167.41]
   - - [1024, 3460, 1, 4096]
-    - [822, 8539.56]
+    - [853, 8539.56]
   - - [1024, 4026, 1, 4096]
-    - [808, 9305.68]
+    - [839, 9305.68]
   - - [4096, 3471, 1, 1024]
-    - [806, 9596.71]
+    - [837, 9596.71]
   - - [193, 193, 320, 64]
-    - [854, 4758.46]
+    - [885, 4758.46]
   - - [1024, 3894, 1, 1024]
-    - [808, 8979.6]
+    - [839, 8979.6]
   - - [65, 65, 992, 64]
-    - [850, 2565.49]
+    - [881, 2565.49]
   - - [1024, 3506, 1, 4096]
-    - [822, 8593.22]
+    - [853, 8593.22]
   - - [35, 35, 1808, 64]
-    - [844, 2129.72]
+    - [875, 2129.72]
   - - [1024, 4000, 1, 1024]
-    - [808, 9204.6]
+    - [839, 9204.6]
   - - [1024, 3900, 1, 4096]
-    - [804, 9050.36]
+    - [835, 9050.36]
   - - [1024, 3445, 1, 4096]
-    - [827, 8551.65]
+    - [858, 8551.65]
   - - [4096, 3442, 1, 1024]
-    - [805, 9505.0]
+    - [836, 9505.0]
   - - [1024, 3358, 1, 4096]
-    - [826, 8437.16]
+    - [857, 8437.16]
   - - [13, 13, 4672, 64]
-    - [837, 860.665]
+    - [868, 860.665]
   - - [1024, 3211, 1, 4096]
-    - [830, 8085.25]
+    - [861, 8085.25]
   - - [4096, 3515, 1, 1024]
-    - [806, 9715.29]
+    - [837, 9715.29]
   - - [1024, 3564, 1, 4096]
-    - [812, 8760.37]
+    - [843, 8760.37]
   - - [4096, 3057, 1, 1024]
-    - [806, 9804.05]
+    - [837, 9804.05]
   - - [1024, 3343, 1, 4096]
-    - [824, 8363.8]
+    - [855, 8363.8]
   - - [4096, 3262, 1, 1024]
-    - [805, 9686.49]
+    - [836, 9686.49]
   - - [1024, 3518, 1, 4096]
-    - [824, 8455.05]
+    - [855, 8455.05]
   - - [77, 77, 816, 64]
-    - [843, 3505.94]
+    - [874, 3505.94]
   - - [33708, 3876, 1, 1024]
-    - [805, 9895.95]
+    - [836, 9895.95]
   - - [4096, 3462, 1, 1024]
-    - [806, 9570.31]
+    - [837, 9570.31]
   - - [1024, 3265, 1, 4096]
-    - [824, 8322.75]
+    - [855, 8322.75]
   - - [4096, 3389, 1, 1024]
-    - [805, 9382.86]
+    - [836, 9382.86]
   - - [4096, 3438, 1, 1024]
-    - [806, 9503.47]
+    - [837, 9503.47]
   - - [1024, 3955, 1, 1024]
-    - [808, 9064.45]
+    - [839, 9064.45]
   - - [1024, 3545, 1, 4096]
-    - [827, 8652.41]
+    - [858, 8652.41]
   - - [1024, 3144, 1, 4096]
-    - [827, 8060.55]
+    - [858, 8060.55]
   - - [1024, 3417, 1, 4096]
-    - [825, 8505.91]
+    - [856, 8505.91]
   - - [4096, 3543, 1, 1024]
-    - [804, 9775.67]
+    - [835, 9775.67]
   - - [4096, 3352, 1, 1024]
-    - [806, 9282.87]
+    - [837, 9282.87]
   - - [33708, 3975, 1, 1024]
-    - [807, 9849.49]
+    - [838, 9849.49]
   - - [148, 147, 432, 64]
-    - [851, 4876.15]
+    - [882, 4876.15]
   - - [4096, 3137, 1, 1024]
-    - [804, 9330.63]
+    - [835, 9330.63]
   - - [4096, 3506, 1, 1024]
-    - [807, 9682.76]
+    - [838, 9682.76]
   - - [1024, 3975, 1, 1024]
-    - [810, 9164.77]
+    - [841, 9164.77]
   - - [1024, 3859, 1, 4096]
-    - [808, 8983.84]
+    - [839, 8983.84]
   - - [4096, 3369, 1, 1024]
-    - [806, 9330.45]
+    - [837, 9330.45]
   - - [1024, 3434, 1, 4096]
-    - [824, 8486.98]
+    - [855, 8486.98]
   - - [1024, 3292, 1, 4096]
-    - [824, 8478.96]
+    - [855, 8478.96]
   - - [4096, 3523, 1, 1024]
-    - [804, 9734.83]
+    - [835, 9734.83]
   - - [4096, 3380, 1, 1024]
-    - [806, 9354.49]
+    - [837, 9354.49]
   - - [1024, 3408, 1, 4096]
-    - [827, 8441.03]
+    - [858, 8441.03]
   - - [4096, 3221, 1, 1024]
-    - [806, 9575.59]
+    - [837, 9575.59]
   - - [4096, 3270, 1, 1024]
-    - [806, 9717.95]
+    - [837, 9717.95]
   - - [143, 143, 432, 64]
-    - [852, 4643.45]
+    - [883, 4643.45]
   - - [111, 111, 576, 64]
-    - [844, 5475.04]
+    - [875, 5475.04]
   - - [1024, 3303, 1, 4096]
-    - [826, 8413.07]
+    - [857, 8413.07]
   - - [4096, 3502, 1, 1024]
-    - [806, 9679.87]
+    - [837, 9679.87]
   - - [1024, 3222, 1, 4096]
-    - [826, 8141.88]
+    - [857, 8141.88]
   - - [4096, 2505, 1, 1024]
-    - [804, 9594.95]
+    - [835, 9594.95]
   - - [4096, 3397, 1, 1024]
-    - [804, 9392.61]
+    - [835, 9392.61]
   - - [4096, 3562, 1, 1024]
-    - [804, 9827.58]
+    - [835, 9827.58]
   - - [4096, 3095, 1, 1024]
-    - [806, 9222.45]
+    - [837, 9222.45]
   - - [1024, 3226, 1, 4096]
-    - [822, 8027.03]
+    - [853, 8027.03]
   - - [177, 177, 352, 64]
-    - [839, 6406.96]
+    - [870, 6406.96]
   - - [4096, 3360, 1, 1024]
-    - [805, 9298.15]
+    - [836, 9298.15]
   - - [1024, 3942, 1, 1024]
-    - [810, 9061.59]
+    - [841, 9061.59]
   - - [1024, 3298, 1, 4096]
-    - [827, 8254.36]
+    - [858, 8254.36]
   - - [1024, 3381, 1, 4096]
-    - [826, 8508.81]
+    - [857, 8508.81]
   - - [4096, 3314, 1, 1024]
-    - [806, 9837.56]
+    - [837, 9837.56]
   - - [1024, 3492, 1, 4096]
-    - [814, 8583.39]
+    - [845, 8583.39]
   - - [1024, 3430, 1, 4096]
-    - [814, 8492.71]
+    - [845, 8492.71]
   - - [4096, 3977, 1, 1024]
-    - [806, 9656.45]
+    - [837, 9656.45]
   - - [4096, 3546, 1, 1024]
-    - [804, 9780.35]
+    - [835, 9780.35]
   - - [4096, 3640, 1, 1024]
-    - [804, 9415.51]
+    - [835, 9415.51]
   - - [4096, 3441, 1, 1024]
-    - [805, 9499.24]
+    - [836, 9499.24]
   - - [33708, 4059, 1, 1024]
-    - [807, 10051.9]
+    - [838, 10051.9]
   - - [1024, 3978, 1, 1024]
-    - [808, 9158.8]
+    - [839, 9158.8]
   - - [1024, 3376, 1, 4096]
-    - [826, 8415.44]
+    - [857, 8415.44]
   - - [1024, 3482, 1, 4096]
-    - [827, 8396.62]
+    - [858, 8396.62]
   - - [1024, 3563, 1, 4096]
-    - [810, 8424.18]
+    - [841, 8424.18]
   - - [4096, 4020, 1, 1024]
-    - [807, 9745.96]
+    - [838, 9745.96]
   - - [1024, 3271, 1, 4096]
-    - [825, 8289.68]
+    - [856, 8289.68]
   - - [1024, 3291, 1, 4096]
-    - [825, 8222.71]
+    - [856, 8222.71]
   - - [1024, 3431, 1, 4096]
-    - [820, 8464.4]
+    - [851, 8464.4]
   - - [1024, 3481, 1, 4096]
-    - [826, 8386.5]
+    - [857, 8386.5]
   - - [84, 85, 752, 64]
-    - [841, 4194.85]
+    - [872, 4194.85]
   - - [4096, 3461, 1, 1024]
-    - [804, 9579.67]
+    - [835, 9579.67]
   - - [1024, 3574, 1, 4096]
-    - [827, 8579.8]
+    - [858, 8579.8]
   - - [1024, 4059, 1, 1024]
-    - [808, 9330.54]
+    - [839, 9330.54]
   - - [84, 84, 752, 64]
-    - [848, 4141.46]
+    - [879, 4141.46]
   - - [1024, 3421, 1, 4096]
-    - [827, 8528.42]
+    - [858, 8528.42]
   - - [4096, 3224, 1, 1024]
-    - [806, 9589.95]
+    - [837, 9589.95]
   - - [4096, 3437, 1, 1024]
-    - [806, 9498.2]
+    - [837, 9498.2]
   - - [45, 45, 1424, 64]
-    - [838, 3314.58]
+    - [869, 3314.58]
   - - [4096, 3840, 1, 1024]
-    - [804, 9931.37]
+    - [835, 9931.37]
   - - [4096, 3168, 1, 1024]
-    - [806, 9412.16]
+    - [837, 9412.16]
   - - [33708, 3990, 1, 1024]
-    - [804, 9884.39]
+    - [835, 9884.39]
   - - [1024, 3349, 1, 4096]
-    - [826, 8421.4]
+    - [857, 8421.4]
   - - [4096, 3335, 1, 1024]
-    - [804, 9241.65]
+    - [835, 9241.65]
   - - [4096, 3400, 1, 1024]
-    - [806, 9407.35]
+    - [837, 9407.35]
   - - [160, 159, 400, 64]
-    - [853, 5708.94]
+    - [884, 5708.94]
   - - [1024, 3398, 1, 4096]
-    - [826, 8624.03]
+    - [857, 8624.03]
   - - [1024, 3780, 1, 4096]
-    - [806, 8756.78]
+    - [837, 8756.78]
   - - [29, 29, 2176, 64]
-    - [849, 2963.69]
+    - [880, 2963.69]
   - - [4096, 3098, 1, 1024]
-    - [804, 9229.82]
+    - [835, 9229.82]
   - - [1024, 4012, 1, 4096]
-    - [810, 9422.03]
+    - [841, 9422.03]
   - - [4096, 3505, 1, 1024]
-    - [806, 9687.65]
+    - [837, 9687.65]
   - - [4096, 3554, 1, 1024]
-    - [806, 9812.22]
+    - [837, 9812.22]
   - - [4096, 3063, 1, 1024]
-    - [806, 9825.1]
+    - [837, 9825.1]
   - - [1024, 3503, 1, 4096]
-    - [824, 8404.74]
+    - [855, 8404.74]
   - - [1024, 3166, 1, 4096]
-    - [827, 8084.93]
+    - [858, 8084.93]
   - - [1024, 3425, 1, 4096]
-    - [827, 8537.58]
+    - [858, 8537.58]
   - - [1024, 3344, 1, 4096]
-    - [818, 8351.16]
+    - [849, 8351.16]
   - - [4096, 3484, 1, 1024]
-    - [806, 9635.7]
+    - [837, 9635.7]
   - - [1024, 3681, 1, 1024]
-    - [809, 8457.18]
+    - [840, 8457.18]
   - - [1024, 4050, 1, 1024]
-    - [810, 9326.21]
+    - [841, 9326.21]
   - - [4096, 3379, 1, 1024]
-    - [804, 9356.16]
+    - [835, 9356.16]
   - - [4096, 3428, 1, 1024]
-    - [805, 9472.33]
+    - [836, 9472.33]
   - - [12, 12, 5040, 64]
-    - [843, 741.617]
+    - [874, 741.617]
   - - [27, 27, 2336, 64]
-    - [849, 2757.9]
+    - [880, 2757.9]
   - - [1024, 3304, 1, 4096]
-    - [827, 8317.82]
+    - [858, 8317.82]
   - - [1024, 3387, 1, 4096]
-    - [825, 8460.15]
+    - [856, 8460.15]
   - - [4096, 3126, 1, 1024]
-    - [807, 9308.48]
+    - [838, 9308.48]
   - - [1024, 3498, 1, 4096]
-    - [824, 8485.55]
+    - [855, 8485.55]
   - - [1024, 3436, 1, 4096]
-    - [826, 8397.71]
+    - [857, 8397.71]
   - - [4096, 3501, 1, 1024]
-    - [804, 9681.19]
+    - [835, 9681.19]
   - - [4096, 3358, 1, 1024]
-    - [806, 9304.9]
+    - [837, 9304.9]
   - - [4096, 3232, 1, 1024]
-    - [804, 9607.2]
+    - [835, 9607.2]
   - - [1024, 3585, 1, 4096]
-    - [808, 8510.74]
+    - [839, 8510.74]
   - - [4096, 3143, 1, 1024]
-    - [807, 9355.91]
+    - [838, 9355.91]
   - - [4096, 3464, 1, 1024]
-    - [806, 9585.95]
+    - [837, 9585.95]
   - - [1024, 3366, 1, 4096]
-    - [814, 8275.23]
+    - [845, 8275.23]
   - - [4096, 3375, 1, 1024]
-    - [804, 9342.13]
+    - [835, 9342.13]
   - - [4096, 2917, 1, 1024]
-    - [804, 9372.84]
+    - [835, 9372.84]
   - - [4096, 4026, 1, 1024]
-    - [806, 9759.15]
+    - [837, 9759.15]
   - - [49, 49, 1296, 64]
-    - [845, 3710.02]
+    - [876, 3710.02]
   - - [1024, 3277, 1, 4096]
-    - [825, 8217.1]
+    - [856, 8217.1]
   - - [1024, 3103, 1, 4096]
-    - [826, 7872.67]
+    - [857, 7872.67]
   - - [33708, 3995, 1, 1024]
-    - [806, 9893.08]
+    - [837, 9893.08]
   - - [1024, 3297, 1, 4096]
-    - [825, 8185.82]
+    - [856, 8185.82]
   - - [4096, 3545, 1, 1024]
-    - [806, 9789.43]
+    - [837, 9789.43]
   - - [1024, 3399, 1, 4096]
-    - [825, 8377.18]
+    - [856, 8377.18]
   - - [33708, 3796, 1, 1024]
-    - [805, 10008.0]
+    - [836, 10008.0]
   - - [4096, 3292, 1, 1024]
-    - [806, 9767.28]
+    - [837, 9767.28]
   - - [71, 71, 896, 64]
-    - [840, 3006.25]
+    - [871, 3006.25]
   - - [33708, 3859, 1, 1024]
-    - [807, 9860.37]
+    - [838, 9860.37]
   - - [4096, 3566, 1, 1024]
-    - [806, 9834.47]
+    - [837, 9834.47]
   - - [4096, 3894, 1, 1024]
-    - [804, 9456.67]
+    - [835, 9456.67]
   - - [4096, 3492, 1, 1024]
-    - [804, 9653.24]
+    - [835, 9653.24]
   - - [1024, 3977, 1, 1024]
-    - [810, 9161.33]
+    - [841, 9161.33]
   - - [1024, 3272, 1, 4096]
-    - [827, 8257.09]
+    - [858, 8257.09]
   - - [135, 134, 480, 64]
-    - [851, 4238.39]
+    - [882, 4238.39]
   - - [1024, 3355, 1, 4096]
-    - [825, 8374.64]
+    - [856, 8374.64]
   - - [4096, 3419, 1, 1024]
-    - [807, 9455.44]
+    - [838, 9455.44]
   - - [1024, 3404, 1, 4096]
-    - [826, 8580.28]
+    - [857, 8580.28]
   - - [4096, 3999, 1, 1024]
-    - [806, 9701.78]
+    - [837, 9701.78]
   - - [4096, 3166, 1, 1024]
-    - [804, 9410.48]
+    - [835, 9410.48]
   - - [33708, 3840, 1, 1024]
-    - [807, 10132.9]
+    - [838, 10132.9]
   - - [4096, 4032, 1, 1024]
-    - [807, 9762.86]
+    - [838, 9762.86]
   - - [1024, 3573, 1, 4096]
-    - [825, 8603.4]
+    - [856, 8603.4]
   - - [4096, 3366, 1, 1024]
-    - [807, 9322.63]
+    - [838, 9322.63]
   - - [1024, 3541, 1, 4096]
-    - [827, 8405.9]
+    - [858, 8405.9]
   - - [4096, 3207, 1, 1024]
-    - [804, 9544.25]
+    - [835, 9544.25]
   - - [4096, 3272, 1, 1024]
-    - [806, 9716.73]
+    - [837, 9716.73]
   - - [1024, 3334, 1, 4096]
-    - [824, 8241.39]
+    - [855, 8241.39]
   - - [228, 228, 272, 64]
-    - [839, 6232.45]
+    - [870, 6232.45]
   - - [4096, 3183, 1, 1024]
-    - [806, 9452.44]
+    - [837, 9452.44]
   - - [4096, 3536, 1, 1024]
-    - [805, 9759.44]
+    - [836, 9759.44]
   - - [1024, 4005, 1, 1024]
-    - [809, 9225.83]
+    - [840, 9225.83]
   - - [1024, 3245, 1, 4096]
-    - [826, 8074.31]
+    - [857, 8074.31]
   - - [4096, 3447, 1, 1024]
-    - [805, 9525.84]
+    - [836, 9525.84]
   - - [1024, 3183, 1, 4096]
-    - [825, 8121.62]
+    - [856, 8121.62]
   - - [1024, 3361, 1, 4096]
-    - [827, 8285.86]
+    - [858, 8285.86]
   - - [33708, 3870, 1, 1024]
-    - [805, 9879.35]
+    - [836, 9879.35]
   - - [1024, 3321, 1, 4096]
-    - [826, 8408.67]
+    - [857, 8408.67]
   - - [1024, 3968, 1, 1024]
-    - [808, 9202.05]
+    - [839, 9202.05]
   - - [1024, 3486, 1, 4096]
-    - [822, 8258.89]
+    - [853, 8258.89]
   - - [4096, 4005, 1, 1024]
-    - [806, 9723.98]
+    - [837, 9723.98]
   - - [4096, 3410, 1, 1024]
-    - [807, 9440.5]
+    - [838, 9440.5]
   - - [1024, 3944, 1, 1024]
-    - [810, 9040.82]
+    - [841, 9040.82]
   - - [4096, 3300, 1, 1024]
-    - [805, 9789.9]
+    - [836, 9789.9]
   - - [4096, 3579, 1, 1024]
-    - [807, 9859.44]
+    - [838, 9859.44]
   - - [4096, 3483, 1, 1024]
-    - [807, 9624.31]
+    - [838, 9624.31]
   - - [4096, 3532, 1, 1024]
-    - [806, 9742.76]
+    - [837, 9742.76]
   - - [1024, 3140, 1, 4096]
-    - [826, 7899.65]
+    - [857, 7899.65]
   - - [1024, 3372, 1, 4096]
-    - [824, 8237.07]
+    - [855, 8237.07]
   - - [1024, 3224, 1, 4096]
-    - [827, 8159.13]
+    - [858, 8159.13]
   - - [4096, 3230, 1, 1024]
-    - [806, 9601.25]
+    - [837, 9601.25]
   - - [4096, 3427, 1, 1024]
-    - [806, 9466.57]
+    - [837, 9466.57]
   - - [1024, 3796, 1, 1024]
-    - [810, 8739.78]
+    - [841, 8739.78]
   - - [143, 148, 432, 64]
-    - [851, 4762.0]
+    - [882, 4762.0]
   - - [1024, 3616, 1, 4096]
-    - [809, 8445.89]
+    - [840, 8445.89]
   - - [1024, 3315, 1, 4096]
-    - [826, 8403.21]
+    - [857, 8403.21]
   - - [1024, 3476, 1, 4096]
-    - [824, 8523.68]
+    - [855, 8523.68]
   - - [1024, 3509, 1, 4096]
-    - [824, 8345.05]
+    - [855, 8345.05]
   - - [4096, 3357, 1, 1024]
-    - [806, 9300.16]
+    - [837, 9300.16]
   - - [4096, 3406, 1, 1024]
-    - [806, 9427.44]
+    - [837, 9427.44]
   - - [1024, 3558, 1, 4096]
-    - [825, 8525.78]
+    - [856, 8525.78]
   - - [4096, 3593, 1, 1024]
-    - [806, 9302.2]
+    - [837, 9302.2]
   - - [4096, 3247, 1, 1024]
-    - [806, 9648.5]
+    - [837, 9648.5]
   - - [4096, 3088, 1, 1024]
-    - [806, 9204.21]
+    - [837, 9204.21]
   - - [1024, 3213, 1, 4096]
-    - [824, 8054.31]
+    - [855, 8054.31]
   - - [4096, 3511, 1, 1024]
-    - [804, 9702.7]
+    - [835, 9702.7]
   - - [122, 122, 528, 64]
-    - [845, 6293.39]
+    - [876, 6293.39]
   - - [1024, 3365, 1, 4096]
-    - [821, 8413.62]
+    - [852, 8413.62]
   - - [1024, 3504, 1, 4096]
-    - [823, 8414.46]
+    - [854, 8414.46]
   - - [1024, 3442, 1, 4096]
-    - [826, 8684.0]
+    - [857, 8684.0]
   - - [4096, 3474, 1, 1024]
-    - [804, 9611.6]
+    - [835, 9611.6]
   - - [4096, 2984, 1, 1024]
-    - [805, 9592.82]
+    - [836, 9592.82]
   - - [1024, 3876, 1, 4096]
-    - [808, 9085.95]
+    - [839, 9085.95]
   - - [4096, 3337, 1, 1024]
-    - [806, 9246.22]
+    - [837, 9246.22]
   - - [4096, 3450, 1, 1024]
-    - [806, 9534.63]
+    - [837, 9534.63]
   - - [1024, 3547, 1, 4096]
-    - [826, 8386.73]
+    - [857, 8386.73]
   - - [4096, 3291, 1, 1024]
-    - [805, 9759.34]
+    - [836, 9759.34]
   - - [1024, 3340, 1, 4096]
-    - [825, 8237.97]
+    - [856, 8237.97]
   - - [4096, 3491, 1, 1024]
-    - [806, 9656.59]
+    - [837, 9656.59]
   - - [4096, 3348, 1, 1024]
-    - [806, 9279.15]
+    - [837, 9279.15]
   - - [78, 78, 816, 64]
-    - [846, 3591.09]
+    - [877, 3591.09]
   - - [4096, 3968, 1, 1024]
-    - [807, 9642.19]
+    - [838, 9642.19]
   - - [4096, 3906, 1, 1024]
-    - [807, 9485.37]
+    - [838, 9485.37]
   - - [1024, 3477, 1, 4096]
-    - [814, 8389.2]
+    - [845, 8389.2]
   - - [1024, 3397, 1, 4096]
-    - [824, 8556.88]
+    - [855, 8556.88]
   - - [4096, 3165, 1, 1024]
-    - [805, 9415.52]
+    - [836, 9415.52]
   - - [4096, 3470, 1, 1024]
-    - [804, 9598.5]
+    - [835, 9598.5]
   - - [1024, 3526, 1, 4096]
-    - [824, 8442.15]
+    - [855, 8442.15]
   - - [112, 112, 576, 64]
-    - [839, 5672.6]
+    - [870, 5672.6]
   - - [4096, 3365, 1, 1024]
-    - [804, 9321.83]
+    - [835, 9321.83]
   - - [4096, 3319, 1, 1024]
-    - [804, 9838.48]
+    - [835, 9838.48]
   - - [1024, 3401, 1, 4096]
-    - [826, 8460.86]
+    - [857, 8460.86]
   - - [1024, 3294, 1, 4096]
-    - [825, 8324.63]
+    - [856, 8324.63]
   - - [159, 159, 400, 64]
-    - [841, 5488.51]
+    - [872, 5488.51]
   - - [1024, 3472, 1, 4096]
-    - [819, 8289.77]
+    - [850, 8289.77]
   - - [4096, 3328, 1, 1024]
-    - [805, 9904.35]
+    - [836, 9904.35]
   - - [1024, 3861, 1, 1024]
-    - [810, 8917.63]
+    - [841, 8917.63]
   - - [1024, 3910, 1, 1024]
-    - [808, 9010.16]
+    - [839, 9010.16]
   - - [1024, 3410, 1, 4096]
-    - [826, 8519.63]
+    - [857, 8519.63]
   - - [1024, 3395, 1, 4096]
-    - [824, 8424.35]
+    - [855, 8424.35]
   - - [4096, 3282, 1, 1024]
-    - [804, 9743.67]
+    - [835, 9743.67]
   - - [1024, 3751, 1, 1024]
-    - [811, 8680.39]
+    - [842, 8680.39]
   - - [4096, 3145, 1, 1024]
-    - [806, 9353.37]
+    - [837, 9353.37]
   - - [4096, 3514, 1, 1024]
-    - [806, 9713.04]
+    - [837, 9713.04]
   - - [4096, 3944, 1, 1024]
-    - [806, 9563.92]
+    - [837, 9563.92]
   - - [1024, 3515, 1, 4096]
-    - [825, 8428.13]
+    - [856, 8428.13]
   - - [4096, 3409, 1, 1024]
-    - [805, 9428.77]
+    - [836, 9428.77]
   - - [4096, 3564, 1, 1024]
-    - [804, 9823.79]
+    - [835, 9823.79]
   - - [4096, 3299, 1, 1024]
-    - [806, 9793.03]
+    - [837, 9793.03]
   - - [1024, 3057, 1, 4096]
-    - [802, 9237.85]
+    - [833, 9237.85]
   - - [4096, 3531, 1, 1024]
-    - [804, 9745.64]
+    - [835, 9745.64]
   - - [4096, 3388, 1, 1024]
-    - [806, 9374.65]
+    - [837, 9374.65]
   - - [1024, 3189, 1, 4096]
-    - [826, 8084.6]
+    - [857, 8084.6]
   - - [1024, 3300, 1, 4096]
-    - [826, 8185.13]
+    - [857, 8185.13]
   - - [1024, 3720, 1, 4096]
-    - [805, 8755.11]
+    - [836, 8755.11]
   - - [1024, 3383, 1, 4096]
-    - [819, 8463.47]
+    - [850, 8463.47]
   - - [1024, 3494, 1, 4096]
-    - [826, 8676.57]
+    - [857, 8676.57]
   - - [77, 78, 816, 64]
-    - [842, 3548.26]
+    - [873, 3548.26]
   - - [1024, 3448, 1, 4096]
-    - [824, 8665.78]
+    - [855, 8665.78]
   - - [4096, 3542, 1, 1024]
-    - [804, 9771.88]
+    - [835, 9771.88]
   - - [1024, 3488, 1, 4096]
-    - [824, 8488.39]
+    - [855, 8488.39]
   - - [4096, 3405, 1, 1024]
-    - [806, 9426.16]
+    - [837, 9426.16]
   - - [1024, 3262, 1, 4096]
-    - [826, 8206.97]
+    - [857, 8206.97]
   - - [33708, 4005, 1, 1024]
-    - [807, 9928.16]
+    - [838, 9928.16]
   - - [1024, 3594, 1, 4096]
-    - [811, 8458.57]
+    - [842, 8458.57]
   - - [4096, 3103, 1, 1024]
-    - [807, 9243.14]
+    - [838, 9243.14]
   - - [4096, 3136, 1, 1024]
-    - [806, 9340.9]
+    - [837, 9340.9]
   - - [1024, 3378, 1, 4096]
-    - [827, 8432.45]
+    - [858, 8432.45]
   - - [10, 10, 5952, 64]
-    - [847, 523.353]
+    - [878, 523.353]
   - - [7, 7, 8192, 64]
-    - [847, 260.543]
+    - [878, 260.543]
   - - [4096, 3559, 1, 1024]
-    - [806, 9813.1]
+    - [837, 9813.1]
   - - [4096, 3368, 1, 1024]
-    - [807, 9328.66]
+    - [838, 9328.66]
   - - [4096, 3209, 1, 1024]
-    - [804, 9538.83]
+    - [835, 9538.83]
   - - [4096, 3322, 1, 1024]
-    - [806, 9839.58]
+    - [837, 9839.58]
   - - [1024, 3483, 1, 4096]
-    - [812, 8348.35]
+    - [843, 8348.35]
   - - [4096, 3473, 1, 1024]
-    - [805, 9605.79]
+    - [836, 9605.79]
   - - [4096, 3522, 1, 1024]
-    - [807, 9730.02]
+    - [838, 9730.02]
   - - [1024, 3532, 1, 4096]
-    - [825, 8474.32]
+    - [856, 8474.32]
   - - [4096, 3449, 1, 1024]
-    - [806, 9528.35]
+    - [837, 9528.35]
   - - [1024, 3351, 1, 4096]
-    - [827, 8311.23]
+    - [858, 8311.23]
   - - [1024, 3462, 1, 4096]
-    - [824, 8297.64]
+    - [855, 8297.64]
   - - [4096, 3396, 1, 1024]
-    - [806, 9400.25]
+    - [837, 9400.25]
   - - [132, 132, 480, 64]
-    - [852, 4089.84]
+    - [883, 4089.84]
   - - [111, 112, 576, 64]
-    - [838, 5529.7]
+    - [869, 5529.7]
   - - [1024, 3416, 1, 4096]
-    - [825, 8556.64]
+    - [856, 8556.64]
   - - [4096, 3469, 1, 1024]
-    - [807, 9598.77]
+    - [838, 9598.77]
   - - [1024, 3582, 1, 4096]
-    - [808, 8461.47]
+    - [839, 8461.47]
   - - [1024, 3230, 1, 4096]
-    - [825, 8188.94]
+    - [856, 8188.94]
   - - [1024, 3489, 1, 4096]
-    - [826, 8457.85]
+    - [857, 8457.85]
   - - [1024, 3427, 1, 4096]
-    - [826, 8566.59]
+    - [857, 8566.59]
   - - [1024, 3346, 1, 4096]
-    - [825, 8352.17]
+    - [856, 8352.17]
   - - [33708, 3977, 1, 1024]
-    - [807, 9868.5]
+    - [838, 9868.5]
   - - [4096, 3796, 1, 1024]
-    - [806, 9797.76]
+    - [837, 9797.76]
   - - [4096, 3176, 1, 1024]
-    - [806, 9435.39]
+    - [837, 9435.39]
   - - [4096, 3990, 1, 1024]
-    - [804, 9672.33]
+    - [835, 9672.33]
   - - [1024, 3257, 1, 4096]
-    - [827, 8225.17]
+    - [858, 8225.17]
   - - [4096, 3343, 1, 1024]
-    - [828, 9273.62]
+    - [859, 9273.62]
   - - [4096, 3440, 1, 1024]
-    - [804, 9501.48]
+    - [835, 9501.48]
   - - [33708, 4030, 1, 1024]
-    - [805, 9983.36]
+    - [836, 9983.36]
   - - [1024, 3190, 1, 4096]
-    - [826, 8192.11]
+    - [857, 8192.11]
   - - [1024, 3389, 1, 4096]
-    - [827, 8439.42]
+    - [858, 8439.42]
   - - [1024, 3500, 1, 4096]
-    - [825, 8556.12]
+    - [856, 8556.12]
   - - [1024, 3471, 1, 4096]
-    - [814, 8491.17]
+    - [845, 8491.17]
   - - [1024, 3438, 1, 4096]
-    - [827, 8567.95]
+    - [858, 8567.95]
   - - [4096, 3513, 1, 1024]
-    - [804, 9710.27]
+    - [835, 9710.27]
   - - [1024, 3562, 1, 4096]
-    - [819, 8608.94]
+    - [850, 8608.94]
   - - [4096, 3616, 1, 1024]
-    - [806, 9357.59]
+    - [837, 9357.59]
   - - [4096, 3955, 1, 1024]
-    - [805, 9589.71]
+    - [836, 9589.71]
   - - [1024, 3441, 1, 4096]
-    - [815, 8359.27]
+    - [846, 8359.27]
   - - [1024, 3236, 1, 4096]
-    - [829, 8022.6]
+    - [860, 8022.6]
   - - [1024, 3524, 1, 4096]
-    - [824, 8477.24]
+    - [855, 8477.24]
   - - [4096, 3460, 1, 1024]
-    - [804, 9581.96]
+    - [835, 9581.96]
   - - [16, 16, 3840, 64]
-    - [836, 1270.59]
+    - [867, 1270.59]
   - - [92, 93, 688, 64]
-    - [840, 4962.4]
+    - [871, 4962.4]
   - - [1024, 3384, 1, 4096]
-    - [815, 8409.39]
+    - [846, 8409.39]
   - - [4096, 3387, 1, 1024]
-    - [806, 9379.8]
+    - [837, 9379.8]
   - - [4096, 3436, 1, 1024]
-    - [804, 9491.93]
+    - [835, 9491.93]
   - - [4096, 3277, 1, 1024]
-    - [804, 9717.27]
+    - [835, 9717.27]
   - - [1024, 3457, 1, 4096]
-    - [824, 8279.22]
+    - [855, 8279.22]
   - - [1024, 3999, 1, 4096]
-    - [799, 9231.47]
+    - [830, 9231.47]
   - - [1024, 4032, 1, 4096]
-    - [808, 9443.62]
+    - [839, 9443.62]
   - - [4096, 3541, 1, 1024]
-    - [804, 9773.24]
+    - [835, 9773.24]
   - - [4096, 3334, 1, 1024]
-    - [804, 9242.79]
+    - [835, 9242.79]
   - - [1024, 3393, 1, 4096]
-    - [826, 8376.17]
+    - [857, 8376.17]
   - - [17, 17, 3632, 64]
-    - [848, 1425.77]
+    - [879, 1425.77]
   - - [1024, 3411, 1, 4096]
-    - [814, 8490.97]
+    - [845, 8490.97]
   - - [1024, 3822, 1, 1024]
-    - [811, 8773.44]
+    - [842, 8773.44]
   - - [1024, 3593, 1, 4096]
-    - [811, 8571.25]
+    - [842, 8571.25]
   - - [33708, 3822, 1, 1024]
-    - [805, 10056.8]
+    - [836, 10056.8]
   - - [4096, 3504, 1, 1024]
-    - [807, 9680.29]
+    - [838, 9680.29]
   - - [1024, 3163, 1, 4096]
-    - [826, 8014.43]
+    - [857, 8014.43]
   - - [1024, 3357, 1, 4096]
-    - [827, 8376.04]
+    - [858, 8376.04]
   - - [1024, 3906, 1, 4096]
-    - [808, 9108.22]
+    - [839, 9108.22]
   - - [4096, 3415, 1, 1024]
-    - [804, 9443.87]
+    - [835, 9443.87]
   - - [1024, 3406, 1, 4096]
-    - [827, 8451.64]
+    - [858, 8451.64]
   - - [4096, 3321, 1, 1024]
-    - [806, 9836.62]
+    - [837, 9836.62]
   - - [4096, 3584, 1, 1024]
-    - [807, 9915.93]
+    - [838, 9915.93]
   - - [1024, 2736, 1, 4096]
-    - [810, 8532.93]
+    - [841, 8532.93]
   - - [1024, 3110, 1, 4096]
-    - [827, 7889.29]
+    - [858, 7889.29]
   - - [33708, 3999, 1, 1024]
-    - [807, 9903.33]
+    - [838, 9903.33]
   - - [1024, 3093, 1, 4096]
-    - [825, 7919.35]
+    - [856, 7919.35]
   - - [4096, 3378, 1, 1024]
-    - [807, 9362.3]
+    - [838, 9362.3]
   - - [1024, 3543, 1, 4096]
-    - [821, 8438.16]
+    - [852, 8438.16]
   - - [33708, 3925, 1, 1024]
-    - [806, 10021.6]
+    - [837, 10021.6]
   - - [1024, 3352, 1, 4096]
-    - [827, 8333.82]
+    - [858, 8333.82]
   - - [4096, 3780, 1, 1024]
-    - [804, 9755.02]
+    - [835, 9755.02]
   - - [1024, 3990, 1, 4096]
-    - [801, 9251.02]
+    - [832, 9251.02]
   - - [4096, 3500, 1, 1024]
-    - [804, 9673.83]
+    - [835, 9673.83]
   - - [4096, 3996, 1, 1024]
-    - [805, 9694.5]
+    - [836, 9694.5]
   - - [1024, 3247, 1, 4096]
-    - [830, 8171.58]
+    - [861, 8171.58]
   - - [4096, 3395, 1, 1024]
-    - [806, 9392.04]
+    - [837, 9392.04]
   - - [1024, 3169, 1, 4096]
-    - [825, 7990.24]
+    - [856, 7990.24]
   - - [1024, 3088, 1, 4096]
-    - [825, 7890.36]
+    - [856, 7890.36]
   - - [1024, 3584, 1, 4096]
-    - [827, 8604.2]
+    - [858, 8604.2]
   - - [4096, 3093, 1, 1024]
-    - [806, 9224.88]
+    - [837, 9224.88]
   - - [1024, 3538, 1, 4096]
-    - [808, 8395.74]
+    - [839, 8395.74]
   - - [1024, 3996, 1, 1024]
-    - [809, 9208.33]
+    - [840, 9208.33]
   - - [1024, 3581, 1, 4096]
-    - [821, 8523.24]
+    - [852, 8523.24]
   - - [4096, 3374, 1, 1024]
-    - [806, 9342.81]
+    - [837, 9342.81]
   - - [33708, 3751, 1, 1024]
-    - [806, 9881.99]
+    - [837, 9881.99]
   - - [59, 59, 1088, 64]
-    - [844, 4515.54]
+    - [875, 4515.54]
   - - [4096, 3215, 1, 1024]
-    - [806, 9557.75]
+    - [837, 9557.75]
   - - [4096, 3312, 1, 1024]
-    - [804, 9834.4]
+    - [835, 9834.4]
   - - [4096, 3581, 1, 1024]
-    - [806, 9856.66]
+    - [837, 9856.66]
   - - [4096, 3479, 1, 1024]
-    - [806, 9620.35]
+    - [837, 9620.35]
   - - [4096, 3544, 1, 1024]
-    - [804, 9778.94]
+    - [835, 9778.94]
   - - [1024, 3870, 1, 1024]
-    - [809, 8935.26]
+    - [840, 8935.26]
   - - [1024, 3374, 1, 4096]
-    - [826, 8412.85]
+    - [857, 8412.85]
   - - [1024, 2967, 1, 4096]
-    - [809, 8982.97]
+    - [840, 8982.97]
   - - [41, 41, 1552, 64]
-    - [838, 2805.38]
+    - [869, 2805.38]
   - - [4096, 3455, 1, 1024]
-    - [804, 9538.89]
+    - [835, 9538.89]
   - - [4096, 3942, 1, 1024]
-    - [805, 9554.65]
+    - [836, 9554.65]
   - - [1024, 3528, 1, 4096]
-    - [824, 8438.47]
+    - [855, 8438.47]
   - - [4096, 3186, 1, 1024]
-    - [805, 9468.32]
+    - [836, 9468.32]
   - - [1024, 3976, 1, 1024]
-    - [809, 9167.08]
+    - [840, 9167.08]
   - - [1024, 3511, 1, 4096]
-    - [811, 8335.06]
+    - [842, 8335.06]
   - - [4096, 3573, 1, 1024]
-    - [804, 9855.33]
+    - [835, 9855.33]
   - - [4096, 3561, 1, 1024]
-    - [804, 9831.03]
+    - [835, 9831.03]
   - - [4096, 3418, 1, 1024]
-    - [805, 9450.68]
+    - [836, 9450.68]
   - - [33708, 3906, 1, 1024]
-    - [807, 9973.67]
+    - [838, 9973.67]
   - - [4096, 3259, 1, 1024]
-    - [804, 9685.26]
+    - [835, 9685.26]
   - - [4096, 3308, 1, 1024]
-    - [806, 9792.03]
+    - [837, 9792.03]
   - - [1024, 3419, 1, 4096]
-    - [826, 8514.53]
+    - [857, 8514.53]
   - - [1024, 3215, 1, 4096]
-    - [825, 8137.53]
+    - [856, 8137.53]
   - - [1024, 4030, 1, 4096]
-    - [807, 9290.76]
+    - [838, 9290.76]
   - - [4096, 3459, 1, 1024]
-    - [804, 9567.57]
+    - [835, 9567.57]
   - - [1024, 3572, 1, 4096]
-    - [824, 8501.43]
+    - [855, 8501.43]
   - - [1024, 3137, 1, 4096]
-    - [826, 7930.15]
+    - [857, 7930.15]
   - - [1024, 3312, 1, 4096]
-    - [827, 8378.6]
+    - [858, 8378.6]
   - - [1024, 3925, 1, 4096]
-    - [809, 9255.86]
+    - [840, 9255.86]
   - - [1024, 3453, 1, 4096]
-    - [826, 8630.76]
+    - [857, 8630.76]
   - - [4096, 3435, 1, 1024]
-    - [805, 9495.18]
+    - [836, 9495.18]
   - - [1024, 3176, 1, 4096]
-    - [826, 8087.23]
+    - [857, 8087.23]
   - - [1024, 3444, 1, 4096]
-    - [818, 8528.58]
+    - [849, 8528.58]
   - - [4096, 3975, 1, 1024]
-    - [807, 9645.34]
+    - [838, 9645.34]
   - - [4096, 3182, 1, 1024]
-    - [806, 9448.4]
+    - [837, 9448.4]
   - - [1024, 3475, 1, 4096]
-    - [825, 8404.87]
+    - [856, 8404.87]
   - - [9, 9, 6544, 64]
-    - [840, 425.854]
+    - [871, 425.854]
   - - [33708, 3955, 1, 1024]
-    - [807, 10088.4]
+    - [838, 10088.4]
   - - [4096, 3446, 1, 1024]
-    - [806, 9520.06]
+    - [837, 9520.06]
   - - [1024, 3138, 1, 4096]
-    - [825, 8053.44]
+    - [856, 8053.44]
   - - [1024, 3549, 1, 4096]
-    - [811, 8426.42]
+    - [842, 8426.42]
   - - [4096, 3287, 1, 1024]
-    - [807, 9751.34]
+    - [838, 9751.34]
   - - [1024, 3342, 1, 4096]
-    - [824, 8320.01]
+    - [855, 8320.01]
   - - [102, 102, 624, 64]
-    - [839, 4747.52]
+    - [870, 4747.52]
   - - [4096, 3519, 1, 1024]
-    - [806, 9716.1]
+    - [837, 9716.1]
   - - [4096, 3552, 1, 1024]
-    - [804, 9806.69]
+    - [835, 9806.69]
   - - [4096, 3859, 1, 1024]
-    - [804, 9369.94]
+    - [835, 9369.94]
   - - [33708, 3969, 1, 1024]
-    - [804, 9830.39]
+    - [835, 9830.39]
   - - [1024, 3369, 1, 4096]
-    - [825, 8379.26]
+    - [856, 8379.26]
   - - [4096, 3482, 1, 1024]
-    - [804, 9631.7]
+    - [835, 9631.7]
   - - [1024, 3306, 1, 4096]
-    - [827, 8320.06]
+    - [858, 8320.06]
   - - [1024, 3474, 1, 4096]
-    - [826, 8498.9]
+    - [857, 8498.9]
   - - [99, 99, 624, 64]
-    - [838, 4492.9]
+    - [869, 4492.9]
   - - [4096, 3377, 1, 1024]
-    - [804, 9369.92]
+    - [835, 9369.92]
   - - [4096, 3426, 1, 1024]
-    - [804, 9467.3]
+    - [835, 9467.3]
   - - [4096, 2935, 1, 1024]
-    - [805, 9423.74]
+    - [836, 9423.74]
   - - [4096, 3267, 1, 1024]
-    - [804, 9698.04]
+    - [835, 9698.04]
   - - [1024, 3299, 1, 4096]
-    - [825, 8264.76]
+    - [856, 8264.76]
   - - [1024, 3456, 1, 4096]
-    - [824, 8678.39]
+    - [855, 8678.39]
   - - [1024, 3280, 1, 4096]
-    - [825, 8220.69]
+    - [856, 8220.69]
   - - [1024, 3555, 1, 4096]
-    - [824, 8656.27]
+    - [855, 8656.27]
   - - [4096, 3499, 1, 1024]
-    - [806, 9663.93]
+    - [837, 9663.93]
   - - [4096, 3356, 1, 1024]
-    - [806, 9296.9]
+    - [837, 9296.9]
   - - [100, 102, 624, 64]
-    - [839, 4671.51]
+    - [870, 4671.51]
   - - [1024, 3412, 1, 4096]
-    - [827, 8538.05]
+    - [858, 8538.05]
   - - [1024, 2984, 1, 4096]
-    - [810, 9193.17]
+    - [841, 9193.17]
   - - [4096, 3141, 1, 1024]
-    - [806, 9349.43]
+    - [837, 9349.43]
   - - [4096, 3510, 1, 1024]
-    - [804, 9701.98]
+    - [835, 9701.98]
   - - [1024, 3995, 1, 1024]
-    - [808, 9243.4]
+    - [839, 9243.4]
   - - [1024, 3517, 1, 4096]
-    - [826, 8569.31]
+    - [857, 8569.31]
   - - [1024, 3455, 1, 4096]
-    - [826, 8560.67]
+    - [857, 8560.67]
   - - [1024, 3939, 1, 1024]
-    - [809, 9030.94]
+    - [840, 9030.94]
   - - [38, 38, 1680, 64]
-    - [838, 2459.84]
+    - [869, 2459.84]
   - - [1024, 3447, 1, 4096]
-    - [824, 8610.02]
+    - [855, 8610.02]
   - - [1024, 3969, 1, 4096]
-    - [811, 9097.33]
+    - [842, 9097.33]
   - - [4096, 3527, 1, 1024]
-    - [806, 9743.83]
+    - [837, 9743.83]
   - - [4096, 3336, 1, 1024]
-    - [806, 9248.33]
+    - [837, 9248.33]
   - - [1024, 3191, 1, 4096]
-    - [824, 8104.96]
+    - [855, 8104.96]
   - - [1024, 3302, 1, 4096]
-    - [825, 8245.09]
+    - [856, 8245.09]
   - - [1024, 3337, 1, 4096]
-    - [827, 8254.25]
+    - [858, 8254.25]
   - - [4096, 3290, 1, 1024]
-    - [806, 9759.13]
+    - [837, 9759.13]
   - - [1024, 3512, 1, 4096]
-    - [815, 8641.06]
+    - [846, 8641.06]
   - - [1024, 3433, 1, 4096]
-    - [825, 8444.7]
+    - [856, 8444.7]
   - - [4096, 3876, 1, 1024]
-    - [805, 9420.38]
+    - [836, 9420.38]
   - - [4096, 3490, 1, 1024]
-    - [806, 9641.11]
+    - [837, 9641.11]
   - - [4096, 3064, 1, 1024]
-    - [806, 9820.49]
+    - [837, 9820.49]
   - - [1024, 3508, 1, 4096]
-    - [821, 8442.24]
+    - [852, 8442.24]
   - - [1024, 3956, 1, 4096]
-    - [806, 9128.19]
+    - [837, 9128.19]
   - - [4096, 3417, 1, 1024]
-    - [806, 9448.41]
+    - [837, 9448.41]
   - - [1024, 3248, 1, 4096]
-    - [825, 8006.16]
+    - [856, 8006.16]
   - - [1024, 2499, 1, 4096]
-    - [825, 8155.19]
+    - [856, 8155.19]
   - - [1024, 3186, 1, 4096]
-    - [825, 8093.04]
+    - [856, 8093.04]
   - - [1024, 3180, 1, 4096]
-    - [827, 8097.02]
+    - [858, 8097.02]
   - - [4096, 3364, 1, 1024]
-    - [806, 9318.08]
+    - [837, 9318.08]
   - - [4096, 3976, 1, 1024]
-    - [806, 9654.47]
+    - [837, 9654.47]
   - - [4096, 3205, 1, 1024]
-    - [807, 9538.84]
+    - [838, 9538.84]
   - - [4096, 3318, 1, 1024]
-    - [804, 9838.29]
+    - [835, 9838.29]
   - - [1024, 3377, 1, 4096]
-    - [827, 8445.64]
+    - [858, 8445.64]
   - - [1024, 3485, 1, 4096]
-    - [824, 8368.83]
+    - [855, 8368.83]
   - - [4096, 3181, 1, 1024]
-    - [807, 9458.29]
+    - [838, 9458.29]
   - - [4096, 3550, 1, 1024]
-    - [804, 9783.14]
+    - [835, 9783.14]
   - - [1024, 3534, 1, 4096]
-    - [813, 8684.99]
+    - [844, 8684.99]
   - - [1024, 3860, 1, 1024]
-    - [808, 8923.18]
+    - [839, 8923.18]
   - - [160, 160, 400, 64]
-    - [851, 5797.69]
+    - [882, 5797.69]
   - - [4096, 3445, 1, 1024]
-    - [806, 9511.28]
+    - [837, 9511.28]
   - - [1024, 3391, 1, 4096]
-    - [827, 8541.77]
+    - [858, 8541.77]
   - - [1024, 3221, 1, 4096]
-    - [825, 8055.5]
+    - [856, 8055.5]
   - - [4096, 3079, 1, 1024]
-    - [804, 9181.04]
+    - [835, 9181.04]
   - - [4096, 3144, 1, 1024]
-    - [806, 9351.45]
+    - [837, 9351.45]
   - - [1024, 3270, 1, 4096]
-    - [826, 8367.63]
+    - [857, 8367.63]
   - - [1024, 3561, 1, 4096]
-    - [826, 8426.29]
+    - [857, 8426.29]
   - - [1024, 3480, 1, 4096]
-    - [813, 8465.0]
+    - [844, 8465.0]
   - - [4096, 3408, 1, 1024]
-    - [806, 9420.04]
+    - [837, 9420.04]
   - - [1024, 3418, 1, 4096]
-    - [827, 8481.02]
+    - [858, 8481.02]
   - - [4096, 3298, 1, 1024]
-    - [807, 9788.4]
+    - [838, 9788.4]
   - - [1024, 3640, 1, 1024]
-    - [810, 8435.44]
+    - [841, 8435.44]
   - - [1024, 3449, 1, 4096]
-    - [825, 8590.87]
+    - [856, 8590.87]
   - - [1024, 4020, 1, 4096]
-    - [803, 9168.13]
+    - [834, 9168.13]
   - - [4096, 3481, 1, 1024]
-    - [804, 9627.91]
+    - [835, 9627.91]
   - - [4096, 3530, 1, 1024]
-    - [806, 9734.68]
+    - [837, 9734.68]
   - - [1024, 3216, 1, 4096]
-    - [827, 8014.32]
+    - [858, 8014.32]
   - - [1024, 3840, 1, 1024]
-    - [810, 8908.37]
+    - [841, 8908.37]
   - - [1024, 3491, 1, 4096]
-    - [813, 8410.59]
+    - [844, 8410.59]
   - - [1024, 3154, 1, 4096]
-    - [826, 8095.69]
+    - [857, 8095.69]
   - - [4096, 3425, 1, 1024]
-    - [806, 9474.53]
+    - [837, 9474.53]
   - - [1024, 3348, 1, 4096]
-    - [824, 8202.9]
+    - [855, 8202.9]
   - - [1024, 3415, 1, 4096]
-    - [825, 8597.68]
+    - [856, 8597.68]
   - - [1024, 4026, 1, 1024]
-    - [808, 9279.09]
+    - [839, 9279.09]
   - - [1024, 3367, 1, 4096]
-    - [827, 8335.54]
+    - [858, 8335.54]
   - - [1024, 3259, 1, 4096]
-    - [827, 8285.3]
+    - [858, 8285.3]
   - - [1024, 3894, 1, 4096]
-    - [810, 9040.44]
+    - [841, 9040.44]
   - - [4096, 3355, 1, 1024]
-    - [805, 9291.67]
+    - [836, 9291.67]
   - - [4096, 3404, 1, 1024]
-    - [806, 9410.47]
+    - [837, 9410.47]
   - - [1024, 3308, 1, 4096]
-    - [827, 8336.3]
+    - [858, 8336.3]
   - - [4096, 3245, 1, 1024]
-    - [805, 9641.47]
+    - [836, 9641.47]
   - - [1024, 3502, 1, 4096]
-    - [826, 8375.9]
+    - [857, 8375.9]
   - - [33708, 4032, 1, 1024]
-    - [805, 9988.2]
+    - [836, 9988.2]
   - - [8, 8, 7280, 64]
-    - [842, 339.878]
+    - [873, 339.878]
   - - [1024, 3424, 1, 4096]
-    - [813, 8489.48]
+    - [844, 8489.48]
   - - [4096, 3509, 1, 1024]
-    - [805, 9702.29]
+    - [836, 9702.29]
   - - [4096, 3558, 1, 1024]
-    - [806, 9815.51]
+    - [837, 9815.51]
   - - [1024, 3900, 1, 1024]
-    - [809, 9014.05]
+    - [840, 9014.05]
   - - [1024, 2505, 1, 4096]
-    - [823, 8263.75]
+    - [854, 8263.75]
   - - [4096, 3472, 1, 1024]
-    - [804, 9609.61]
+    - [835, 9609.61]
   - - [1024, 3386, 1, 4096]
-    - [824, 8417.55]
+    - [855, 8417.55]
   - - [4096, 3383, 1, 1024]
-    - [806, 9364.77]
+    - [837, 9364.77]
   - - [4096, 3448, 1, 1024]
-    - [807, 9521.07]
+    - [838, 9521.07]
   - - [4096, 4030, 1, 1024]
-    - [807, 9771.56]
+    - [838, 9771.56]
   - - [4096, 3289, 1, 1024]
-    - [804, 9757.27]
+    - [835, 9757.27]
   - - [1024, 3459, 1, 4096]
-    - [826, 8422.12]
+    - [857, 8422.12]
   - - [1024, 2918, 1, 4096]
-    - [811, 9022.71]
+    - [842, 9022.71]
   - - [4096, 3489, 1, 1024]
-    - [804, 9641.9]
+    - [835, 9641.9]
   - - [4096, 3346, 1, 1024]
-    - [806, 9271.65]
+    - [837, 9271.65]
   - - [4096, 3572, 1, 1024]
-    - [806, 9829.82]
+    - [837, 9829.82]
   - - [1024, 3955, 1, 4096]
-    - [807, 9221.66]
+    - [838, 9221.66]
   - - [4096, 3236, 1, 1024]
-    - [804, 9620.72]
+    - [835, 9620.72]
   - - [4096, 3163, 1, 1024]
-    - [804, 9397.3]
+    - [835, 9397.3]
   - - [4096, 3468, 1, 1024]
-    - [804, 9601.58]
+    - [835, 9601.58]
   - - [1024, 3165, 1, 4096]
-    - [826, 7941.58]
+    - [857, 7941.58]
   - - [1024, 3276, 1, 4096]
-    - [826, 8244.96]
+    - [857, 8244.96]
   - - [1024, 3359, 1, 4096]
-    - [824, 8273.93]
+    - [855, 8273.93]
   - - [4096, 3363, 1, 1024]
-    - [806, 9315.8]
+    - [837, 9315.8]
   - - [1024, 3385, 1, 4096]
-    - [818, 8286.2]
+    - [849, 8286.2]
   - - [1024, 3207, 1, 4096]
-    - [827, 8144.02]
+    - [858, 8144.02]
   - - [1024, 3458, 1, 4096]
-    - [826, 8472.41]
+    - [857, 8472.41]
   - - [21, 21, 2976, 64]
-    - [842, 2083.3]
+    - [873, 2083.3]
   - - [4096, 3110, 1, 1024]
-    - [804, 9260.3]
+    - [835, 9260.3]
   - - [4096, 3925, 1, 1024]
-    - [807, 9526.66]
+    - [838, 9526.66]
   - - [1024, 3975, 1, 4096]
-    - [802, 9133.84]
+    - [833, 9133.84]
   - - [4096, 3549, 1, 1024]
-    - [806, 9793.77]
+    - [837, 9793.77]
   - - [4096, 3342, 1, 1024]
-    - [805, 9264.48]
+    - [836, 9264.48]
   - - [1024, 3859, 1, 1024]
-    - [808, 8933.47]
+    - [839, 8933.47]
   - - [1024, 3497, 1, 4096]
-    - [825, 8526.13]
+    - [856, 8526.13]
   - - [4096, 3280, 1, 1024]
-    - [806, 9733.32]
+    - [837, 9733.32]
   - - [1024, 3435, 1, 4096]
-    - [825, 8489.85]
+    - [856, 8489.85]
   - - [1024, 3354, 1, 4096]
-    - [825, 8248.83]
+    - [856, 8248.83]
   - - [4096, 3191, 1, 1024]
-    - [805, 9475.12]
+    - [836, 9475.12]
   - - [4096, 3512, 1, 1024]
-    - [804, 9701.37]
+    - [835, 9701.37]
   - - [1024, 3055, 1, 4096]
-    - [811, 9264.91]
+    - [842, 9264.91]
   - - [4096, 2499, 1, 1024]
-    - [806, 9574.06]
+    - [837, 9574.06]
   - - [1024, 3233, 1, 4096]
-    - [824, 8101.74]
+    - [855, 8101.74]
   - - [4096, 3423, 1, 1024]
-    - [807, 9463.5]
+    - [838, 9463.5]
   - - [1024, 3319, 1, 4096]
-    - [827, 8413.76]
+    - [858, 8413.76]
   - - [4096, 3297, 1, 1024]
-    - [804, 9782.66]
+    - [835, 9782.66]
   - - [4096, 3154, 1, 1024]
-    - [806, 9381.2]
+    - [837, 9381.2]
   - - [1024, 3540, 1, 4096]
-    - [827, 8507.53]
+    - [858, 8507.53]
   - - [1024, 3289, 1, 4096]
-    - [827, 8233.8]
+    - [858, 8233.8]
   - - [4096, 3529, 1, 1024]
-    - [806, 9741.15]
+    - [837, 9741.15]
   - - [4096, 3386, 1, 1024]
-    - [806, 9372.57]
+    - [837, 9372.57]
   - - [4096, 3276, 1, 1024]
-    - [804, 9713.76]
+    - [835, 9713.76]
   - - [1024, 3244, 1, 4096]
-    - [827, 8146.83]
+    - [858, 8146.83]
   - - [1024, 3182, 1, 4096]
-    - [824, 8115.12]
+    - [855, 8115.12]
   - - [4096, 3540, 1, 1024]
-    - [804, 9768.42]
+    - [835, 9768.42]
   - - [1024, 3360, 1, 4096]
-    - [826, 8353.31]
+    - [857, 8353.31]
   - - [1024, 3942, 1, 4096]
-    - [805, 9143.78]
+    - [836, 9143.78]
   - - [4096, 3403, 1, 1024]
-    - [807, 9412.18]
+    - [838, 9412.18]
   - - [4096, 3101, 1, 1024]
-    - [807, 9239.28]
+    - [838, 9239.28]
   - - [4096, 2918, 1, 1024]
-    - [806, 9373.75]
+    - [837, 9373.75]
   - - [1024, 3465, 1, 4096]
-    - [827, 8288.16]
+    - [858, 8288.16]
   - - [33708, 3780, 1, 1024]
-    - [806, 9971.91]
+    - [837, 9971.91]
   - - [4096, 3557, 1, 1024]
-    - [804, 9814.82]
+    - [835, 9814.82]
   - - [4096, 3414, 1, 1024]
-    - [804, 9436.63]
+    - [835, 9436.63]
   - - [1024, 3948, 1, 1024]
-    - [808, 9073.8]
+    - [839, 9073.8]
   - - [4096, 3320, 1, 1024]
-    - [806, 9834.77]
+    - [837, 9834.77]
   - - [4096, 2765, 1, 1024]
-    - [806, 9667.06]
+    - [837, 9667.06]
   - - [1024, 3978, 1, 4096]
-    - [801, 9109.6]
+    - [832, 9109.6]
   - - [4096, 3487, 1, 1024]
-    - [804, 9644.0]
+    - [835, 9644.0]
   - - [4096, 3520, 1, 1024]
-    - [806, 9728.08]
+    - [837, 9728.08]
   - - [1024, 3139, 1, 4096]
-    - [826, 7940.19]
+    - [857, 7940.19]
   - - [1024, 3314, 1, 4096]
-    - [824, 8294.01]
+    - [855, 8294.01]
   - - [4096, 3431, 1, 1024]
-    - [806, 9482.12]
+    - [837, 9482.12]
   - - [123, 122, 528, 64]
-    - [839, 6325.98]
+    - [870, 6325.98]
   - - [1024, 3446, 1, 4096]
-    - [820, 8468.34]
+    - [851, 8468.34]
   - - [1024, 4059, 1, 4096]
-    - [807, 9370.8]
+    - [838, 9370.8]
   - - [99, 102, 624, 64]
-    - [839, 4624.8]
+    - [870, 4624.8]
   - - [4096, 3345, 1, 1024]
-    - [804, 9271.32]
+    - [835, 9271.32]
   - - [4096, 3394, 1, 1024]
-    - [804, 9398.19]
+    - [835, 9398.19]
   - - [1024, 3927, 1, 1024]
-    - [809, 9041.38]
+    - [840, 9041.38]
   - - [4096, 3235, 1, 1024]
-    - [804, 9619.93]
+    - [835, 9619.93]
   - - [1024, 3328, 1, 4096]
-    - [825, 8406.09]
+    - [856, 8406.09]
   - - [33708, 3956, 1, 1024]
-    - [805, 10100.4]
+    - [836, 10100.4]
   - - [4096, 3467, 1, 1024]
-    - [806, 9586.66]
+    - [837, 9586.66]
   - - [1024, 3287, 1, 4096]
-    - [826, 8273.83]
+    - [857, 8273.83]
   - - [4096, 3214, 1, 1024]
-    - [807, 9557.49]
+    - [838, 9557.49]
   - - [4096, 3910, 1, 1024]
-    - [804, 9490.25]
+    - [835, 9490.25]
   - - [1024, 3780, 1, 1024]
-    - [811, 8706.0]
+    - [842, 8706.0]
   - - [1024, 3371, 1, 4096]
-    - [827, 8248.46]
+    - [858, 8248.46]
   - - [4096, 3478, 1, 1024]
-    - [807, 9619.62]
+    - [838, 9619.62]
   - - [1024, 3546, 1, 4096]
-    - [825, 8456.83]
+    - [856, 8456.83]
   - - [1024, 4012, 1, 1024]
-    - [808, 9253.34]
+    - [839, 9253.34]
   - - [4096, 3341, 1, 1024]
-    - [806, 9260.24]
+    - [837, 9260.24]
   - - [4096, 3454, 1, 1024]
-    - [804, 9533.62]
+    - [835, 9533.62]
   - - [4096, 3295, 1, 1024]
-    - [807, 9772.86]
+    - [838, 9772.86]
   - - [4096, 3072, 1, 1024]
-    - [804, 9887.23]
+    - [835, 9887.23]
   - - [1024, 3282, 1, 4096]
-    - [812, 8112.85]
+    - [843, 8112.85]
   - - [33708, 3720, 1, 1024]
-    - [807, 9818.85]
+    - [838, 9818.85]
   - - [1024, 3681, 1, 4096]
-    - [809, 8639.28]
+    - [840, 8639.28]
   - - [1024, 4050, 1, 4096]
-    - [807, 9291.93]
+    - [838, 9291.93]
   - - [4096, 3495, 1, 1024]
-    - [806, 9660.52]
+    - [837, 9660.52]
   - - [4096, 3560, 1, 1024]
-    - [805, 9813.8]
+    - [836, 9813.8]
   - - [4096, 3751, 1, 1024]
-    - [804, 9684.95]
+    - [835, 9684.95]
   - - [1024, 3414, 1, 4096]
-    - [825, 8555.72]
+    - [856, 8555.72]
   - - [33708, 3860, 1, 1024]
-    - [804, 9856.68]
+    - [835, 9856.68]
   - - [1024, 3325, 1, 4096]
-    - [814, 8261.21]
+    - [845, 8261.21]
   - - [4096, 3458, 1, 1024]
-    - [804, 9570.86]
+    - [835, 9570.86]
   - - [4096, 2967, 1, 1024]
-    - [804, 9544.61]
+    - [835, 9544.61]
   - - [1024, 3519, 1, 4096]
-    - [827, 8413.1]
+    - [858, 8413.1]
   - - [4096, 3385, 1, 1024]
-    - [806, 9367.34]
+    - [837, 9367.34]
   - - [4096, 3434, 1, 1024]
-    - [804, 9488.41]
+    - [835, 9488.41]
   - - [1024, 3552, 1, 4096]
-    - [825, 8456.13]
+    - [856, 8456.13]
   - - [4096, 3822, 1, 1024]
-    - [805, 9849.84]
+    - [836, 9849.84]
   - - [1024, 3544, 1, 4096]
-    - [824, 8494.56]
+    - [855, 8494.56]
   - - [4096, 3539, 1, 1024]
-    - [806, 9763.09]
+    - [837, 9763.09]
   - - [4096, 3332, 1, 1024]
-    - [804, 9232.36]
+    - [835, 9232.36]
   - - [1024, 3145, 1, 4096]
-    - [824, 8098.36]
+    - [855, 8098.36]
   - - [1024, 3535, 1, 4096]
-    - [812, 8592.8]
+    - [843, 8592.8]
   - - [1024, 3320, 1, 4096]
-    - [825, 8419.55]
+    - [856, 8419.55]
   - - [33708, 4012, 1, 1024]
-    - [807, 9940.2]
+    - [838, 9940.2]
   - - [4096, 3286, 1, 1024]
-    - [806, 9747.82]
+    - [837, 9747.82]
   - - [1024, 3514, 1, 4096]
-    - [825, 8653.69]
+    - [856, 8653.69]
   - - [93, 93, 688, 64]
-    - [846, 5005.79]
+    - [877, 5005.79]
   - - [1024, 2765, 1, 4096]
-    - [811, 8636.72]
+    - [842, 8636.72]
   - - [1024, 3452, 1, 4096]
-    - [824, 8445.87]
+    - [855, 8445.87]
   - - [4096, 3518, 1, 1024]
-    - [804, 9722.56]
+    - [835, 9722.56]
   - - [1024, 3529, 1, 4096]
-    - [824, 8444.32]
+    - [855, 8444.32]
   - - [4096, 3413, 1, 1024]
-    - [804, 9436.35]
+    - [835, 9436.35]
   - - [33708, 4050, 1, 1024]
-    - [806, 10026.7]
+    - [837, 10026.7]
   - - [1024, 3525, 1, 4096]
-    - [817, 8488.99]
+    - [848, 8488.99]
   - - [4096, 3303, 1, 1024]
-    - [804, 9791.05]
+    - [835, 9791.05]
   - - [1024, 3382, 1, 4096]
-    - [825, 8483.63]
+    - [856, 8483.63]
   - - [1024, 3390, 1, 4096]
-    - [824, 8552.81]
+    - [855, 8552.81]
   - - [1024, 3977, 1, 4096]
-    - [806, 9053.53]
+    - [837, 9053.53]
   - - [1024, 3184, 1, 4096]
-    - [824, 8008.81]
+    - [855, 8008.81]
   - - [4096, 3535, 1, 1024]
-    - [806, 9760.79]
+    - [837, 9760.79]
   - - [4096, 3376, 1, 1024]
-    - [807, 9341.93]
+    - [838, 9341.93]
   - - [4096, 3978, 1, 1024]
-    - [807, 9642.8]
+    - [838, 9642.8]
   - - [1024, 3136, 1, 4096]
-    - [826, 8085.12]
+    - [857, 8085.12]
   - - [1024, 3293, 1, 4096]
-    - [824, 8300.49]
+    - [855, 8300.49]
   - - [4096, 3266, 1, 1024]
-    - [805, 9691.78]
+    - [836, 9691.78]
   - - [1024, 3487, 1, 4096]
-    - [824, 8383.62]
+    - [855, 8383.62]
   - - [1024, 3409, 1, 4096]
-    - [826, 8493.25]
+    - [857, 8493.25]
   - - [4096, 3498, 1, 1024]
-    - [805, 9672.38]
+    - [836, 9672.38]
   - - [1024, 3520, 1, 4096]
-    - [827, 8488.26]
+    - [858, 8488.26]
   - - [1024, 3530, 1, 4096]
-    - [808, 8409.87]
+    - [839, 8409.87]
   - - [4096, 3393, 1, 1024]
-    - [806, 9395.43]
+    - [837, 9395.43]
   - - [4096, 3140, 1, 1024]
-    - [806, 9338.5]
+    - [837, 9338.5]
   - - [1024, 3536, 1, 4096]
-    - [827, 8642.11]
+    - [858, 8642.11]
   - - [1024, 3288, 1, 4096]
-    - [827, 8229.34]
+    - [858, 8229.34]
   - - [1024, 4005, 1, 4096]
-    - [809, 9271.04]
+    - [840, 9271.04]
   - - [1024, 3579, 1, 4096]
-    - [813, 8844.5]
+    - [844, 8844.5]
   - - [4096, 3372, 1, 1024]
-    - [804, 9339.25]
+    - [835, 9339.25]
   - - [1024, 3440, 1, 4096]
-    - [824, 8466.69]
+    - [855, 8466.69]
   - - [4096, 3213, 1, 1024]
-    - [807, 9558.85]
+    - [838, 9558.85]
   - - [123, 123, 528, 64]
-    - [839, 6333.59]
+    - [870, 6333.59]
   - - [100, 100, 624, 64]
-    - [838, 4584.12]
+    - [869, 4584.12]
   - - [1024, 3968, 1, 4096]
-    - [805, 9237.6]
+    - [836, 9237.6]
   - - [4096, 3477, 1, 1024]
-    - [805, 9618.88]
+    - [836, 9618.88]
   - - [4096, 3526, 1, 1024]
-    - [804, 9735.94]
+    - [835, 9735.94]
   - - [1024, 3493, 1, 4096]
-    - [825, 8355.13]
+    - [856, 8355.13]
   - - [1024, 3944, 1, 4096]
-    - [800, 9065.39]
+    - [831, 9065.39]
   - - [4096, 3453, 1, 1024]
-    - [805, 9533.37]
+    - [836, 9533.37]
   - - [1024, 3350, 1, 4096]
-    - [827, 8448.64]
+    - [858, 8448.64]
   - - [4096, 3184, 1, 1024]
-    - [806, 9447.38]
+    - [837, 9447.38]
   - - [1024, 3423, 1, 4096]
-    - [825, 8465.38]
+    - [856, 8465.38]
   - - [4096, 3351, 1, 1024]
-    - [804, 9282.06]
+    - [835, 9282.06]
   - - [4096, 3416, 1, 1024]
-    - [804, 9446.64]
+    - [835, 9446.64]
   - - [1024, 3796, 1, 4096]
-    - [806, 8820.34]
+    - [837, 8820.34]
   - - [4096, 3257, 1, 1024]
-    - [804, 9671.64]
+    - [835, 9671.64]
   - - [4096, 3306, 1, 1024]
-    - [806, 9795.51]
+    - [837, 9795.51]
   - - [33708, 4020, 1, 1024]
-    - [806, 9961.85]
+    - [837, 9961.85]
   - - [19, 19, 3264, 64]
-    - [836, 1736.09]
+    - [867, 1736.09]
   - - [1024, 3426, 1, 4096]
-    - [824, 8518.61]
+    - [855, 8518.61]
   - - [4096, 3457, 1, 1024]
-    - [804, 9564.56]
+    - [835, 9564.56]
   - - [1024, 2935, 1, 4096]
-    - [809, 9067.79]
+    - [840, 9067.79]
   - - [1024, 3046, 1, 4096]
-    - [809, 9242.97]
+    - [840, 9242.97]
   - - [4096, 3433, 1, 1024]
-    - [806, 9495.65]
+    - [837, 9495.65]
   - - [1024, 3256, 1, 4096]
-    - [827, 8224.23]
+    - [858, 8224.23]
   - - [1024, 3531, 1, 4096]
-    - [824, 8524.19]
+    - [855, 8524.19]
   - - [4096, 3180, 1, 1024]
-    - [804, 9443.53]
+    - [835, 9443.53]
   - - [1024, 3388, 1, 4096]
-    - [826, 8352.82]
+    - [857, 8352.82]
   - - [4096, 3444, 1, 1024]
-    - [807, 9511.03]
+    - [838, 9511.03]
   - - [1024, 3501, 1, 4096]
-    - [814, 8461.12]
+    - [845, 8461.12]
   - - [1024, 3266, 1, 4096]
-    - [812, 8147.44]
+    - [843, 8147.44]
   - - [1024, 3267, 1, 4096]
-    - [827, 8391.49]
+    - [858, 8391.49]
   - - [1024, 3461, 1, 4096]
-    - [811, 8270.29]
+    - [842, 8270.29]
   - - [4096, 3870, 1, 1024]
-    - [806, 9399.69]
+    - [837, 9399.69]
   - - [4096, 3517, 1, 1024]
-    - [804, 9725.43]
+    - [835, 9725.43]
   - - [1024, 3566, 1, 4096]
-    - [827, 8669.76]
+    - [858, 8669.76]
   - - [4096, 3574, 1, 1024]
-    - [804, 9844.63]
+    - [835, 9844.63]
   - - [1024, 3876, 1, 1024]
-    - [809, 8961.74]
+    - [840, 8961.74]
   - - [25, 25, 2512, 64]
-    - [835, 2472.54]
+    - [866, 2472.54]
   - - [4096, 3720, 1, 1024]
-    - [804, 9612.49]
+    - [835, 9612.49]
   - - [4096, 3248, 1, 1024]
-    - [806, 9644.92]
+    - [837, 9644.92]
   - - [4096, 4059, 1, 1024]
-    - [804, 9826.42]
+    - [835, 9826.42]
   - - [1024, 3380, 1, 4096]
-    - [825, 8677.91]
+    - [856, 8677.91]
   - - [4096, 3480, 1, 1024]
-    - [806, 9626.16]
+    - [837, 9626.16]
   - - [1024, 3335, 1, 4096]
-    - [826, 8302.18]
+    - [857, 8302.18]
   - - [1024, 3345, 1, 4096]
-    - [826, 8323.13]
+    - [857, 8323.13]
   - - [4096, 3391, 1, 1024]
-    - [804, 9379.48]
+    - [835, 9379.48]
   - - [4096, 3424, 1, 1024]
-    - [806, 9466.77]
+    - [837, 9466.77]
   - - [1024, 3394, 1, 4096]
-    - [812, 8373.91]
+    - [843, 8373.91]
   - - [4096, 3265, 1, 1024]
-    - [806, 9700.89]
+    - [837, 9700.89]
   - - [1024, 3014, 1, 4096]
-    - [809, 9303.09]
+    - [840, 9303.09]
   - - [4096, 3497, 1, 1024]
-    - [804, 9668.6]
+    - [835, 9668.6]
   - - [4096, 3354, 1, 1024]
-    - [806, 9294.31]
+    - [837, 9294.31]
   - - [4096, 3055, 1, 1024]
-    - [805, 9780.88]
+    - [836, 9780.88]
   - - [1024, 3499, 1, 4096]
-    - [818, 8527.04]
+    - [849, 8527.04]
   - - [1024, 3162, 1, 4096]
-    - [826, 8059.02]
+    - [857, 8059.02]
   - - [4096, 3244, 1, 1024]
-    - [806, 9636.86]
+    - [837, 9636.86]
   - - [1024, 3437, 1, 4096]
-    - [825, 8583.41]
+    - [856, 8583.41]
   - - [1024, 3356, 1, 4096]
-    - [827, 8296.95]
+    - [858, 8296.95]
   - - [4096, 3139, 1, 1024]
-    - [806, 9338.7]
+    - [837, 9338.7]
   - - [4096, 3508, 1, 1024]
-    - [806, 9700.54]
+    - [837, 9700.54]
   - - [1024, 3235, 1, 4096]
-    - [824, 8314.59]
+    - [855, 8314.59]
   - - [1024, 3910, 1, 4096]
-    - [811, 9200.21]
+    - [842, 9200.21]
   - - [4096, 3371, 1, 1024]
-    - [804, 9336.97]
+    - [835, 9336.97]
   - - [1024, 3751, 1, 4096]
-    - [811, 8827.67]
+    - [842, 8827.67]
   - - [4096, 3325, 1, 1024]
-    - [804, 9845.68]
+    - [835, 9845.68]
   - - [1024, 3413, 1, 4096]
-    - [812, 8345.78]
+    - [843, 8345.78]
   - - [1024, 3542, 1, 4096]
-    - [824, 8521.71]
+    - [855, 8521.71]
   - - [18, 18, 3440, 64]
-    - [840, 1578.24]
+    - [871, 1578.24]
   - - [101, 102, 624, 64]
-    - [838, 4705.28]
+    - [869, 4705.28]
   - - [33708, 3900, 1, 1024]
-    - [804, 9951.05]
+    - [835, 9951.05]
   - - [4096, 3525, 1, 1024]
-    - [805, 9744.47]
+    - [836, 9744.47]
   - - [4096, 3382, 1, 1024]
-    - [805, 9359.03]
+    - [836, 9359.03]
   - - [102, 100, 624, 64]
-    - [839, 4671.51]
+    - [870, 4671.51]
   - - [15, 15, 4096, 64]
-    - [843, 1129.17]
+    - [874, 1129.17]
   - - [1024, 3339, 1, 4096]
-    - [813, 8326.37]
+    - [844, 8326.37]
   - - [4096, 3288, 1, 1024]
-    - [806, 9761.48]
+    - [837, 9761.48]
   - - [92, 92, 688, 64]
-    - [846, 4903.87]
+    - [877, 4903.87]
   - - [1024, 3141, 1, 4096]
-    - [824, 7975.64]
+    - [855, 7975.64]
   - - [1024, 3168, 1, 4096]
-    - [824, 8083.74]
+    - [855, 8083.74]
   - - [4096, 3488, 1, 1024]
-    - [806, 9646.77]
+    - [837, 9646.77]
   - - [4096, 3046, 1, 1024]
-    - [805, 9767.58]
+    - [836, 9767.58]
   - - [1024, 3362, 1, 4096]
-    - [827, 8458.15]
+    - [858, 8458.15]
   - - [33708, 3942, 1, 1024]
-    - [805, 10060.4]
+    - [836, 10060.4]
   - - [4096, 3399, 1, 1024]
-    - [806, 9406.57]
+    - [837, 9406.57]
   - - [1024, 3720, 1, 1024]
-    - [808, 8639.16]
+    - [839, 8639.16]
   - - [4096, 3563, 1, 1024]
-    - [804, 9836.55]
+    - [835, 9836.55]
   - - [1024, 3273, 1, 4096]
-    - [827, 8221.62]
+    - [858, 8221.62]
   - - [4096, 3162, 1, 1024]
-    - [806, 9400.19]
+    - [837, 9400.19]
   - - [1024, 3467, 1, 4096]
-    - [825, 8342.42]
+    - [856, 8342.42]
   - - [1024, 3130, 1, 4096]
-    - [826, 7933.88]
+    - [857, 7933.88]
   - - [1024, 3405, 1, 4096]
-    - [833, 8406.59]
+    - [864, 8406.59]
   - - [4096, 3362, 1, 1024]
-    - [804, 9312.04]
+    - [835, 9312.04]
   - - [1024, 3960, 1, 1024]
-    - [808, 9082.26]
+    - [839, 9082.26]
   - - [2048, 128, 1, 4096]
-    - [858, 5986.62]
+    - [889, 5986.62]
   - - [1024, 3712, 1, 36548]
-    - [856, 9456.25]
+    - [887, 9456.25]
   - - [1024, 128, 1, 1024]
-    - [859, 3631.53]
+    - [890, 3631.53]
   - - [3072, 128, 1, 4096]
-    - [855, 6145.6]
+    - [886, 6145.6]
   - - [1024, 3712, 1, 1024]
-    - [857, 8933.98]
+    - [888, 8933.98]
   - - [256, 256, 192, 64]
-    - [862, 8264.74]
+    - [893, 8264.74]
   - - [768, 4096, 1, 768]
-    - [875, 9642.18]
+    - [906, 9642.18]
   - - [768, 64, 1, 768]
-    - [872, 1850.53]
+    - [903, 1850.53]
   - - [768, 1280, 1, 768]
-    - [875, 8738.23]
+    - [906, 8738.23]
   - - [30522, 320, 1, 768]
-    - [876, 9733.69]
+    - [907, 9733.69]
   - - [128, 128, 96, 64]
-    - [865, 5470.93]
+    - [896, 5470.93]
   - - [2, 16, 1, 768]
-    - [868, 2.57742]
+    - [899, 2.57742]
   - - [30522, 1280, 1, 768]
-    - [874, 10128.0]
+    - [905, 10128.0]
   - - [30522, 640, 1, 768]
-    - [875, 9987.71]
+    - [906, 9987.71]
   - - [2, 8, 1, 768]
-    - [867, 1.06]
+    - [898, 1.06]
   - - [768, 4096, 1, 3072]
-    - [877, 9479.51]
+    - [908, 9479.51]
   - - [768, 32, 1, 768]
-    - [871, 880.434]
+    - [902, 880.434]
   - - [2, 64, 1, 768]
-    - [868, 10.09024]
+    - [899, 10.09024]
   - - [256, 256, 96, 64]
-    - [862, 7614.57]
+    - [893, 7614.57]
   - - [64, 64, 768, 64]
-    - [864, 5354.53]
+    - [895, 5354.53]
   - - [30522, 160, 1, 768]
-    - [873, 7740.21]
+    - [904, 7740.21]
   - - [768, 320, 1, 768]
-    - [866, 5423.77]
+    - [897, 5423.77]
   - - [128, 128, 384, 64]
-    - [863, 7180.08]
+    - [894, 7180.08]
   - - [768, 16, 1, 768]
-    - [869, 706.476]
+    - [900, 706.476]
   - - [3072, 4096, 1, 768]
-    - [878, 9961.84]
+    - [909, 9961.84]
   - - [2048, 512, 1, 100]
-    - [880, 5180.81]
+    - [911, 5180.81]
   - - [1024, 200, 1, 560]
-    - [881, 4061.29]
+    - [912, 4061.29]
   - - [256, 1280, 1, 1024]
-    - [888, 4337.54]
+    - [919, 4337.54]
   - - [256, 44505, 1, 1024]
-    - [924, 8597.79]
+    - [955, 8597.79]
   - - [10240, 8976, 1, 256]
-    - [927, 9471.53]
+    - [958, 9471.53]
   - - [256, 7168, 1, 1024]
-    - [918, 6718.66]
+    - [949, 6718.66]
   - - [8448, 8976, 1, 256]
-    - [910, 9601.41]
+    - [941, 9601.41]
   - - [18944, 8976, 1, 256]
-    - [919, 9666.36]
+    - [950, 9666.36]
   - - [256, 19200, 1, 1024]
-    - [895, 7489.04]
+    - [926, 7489.04]
   - - [5632, 8976, 1, 256]
-    - [907, 9358.49]
+    - [938, 9358.49]
   - - [256, 23552, 1, 1024]
-    - [922, 7980.99]
+    - [953, 7980.99]
   - - [256, 6656, 1, 1024]
-    - [922, 6287.32]
+    - [953, 6287.32]
   - - [256, 14336, 1, 1024]
-    - [917, 7049.36]
+    - [948, 7049.36]
   - - [256, 12544, 1, 1024]
-    - [895, 6728.57]
+    - [926, 6728.57]
   - - [2048, 684, 1, 768]
-    - [912, 8479.28]
+    - [943, 8479.28]
   - - [5376, 8976, 1, 256]
-    - [907, 9519.61]
+    - [938, 9519.61]
   - - [256, 5888, 1, 1024]
-    - [927, 6012.5]
+    - [958, 6012.5]
   - - [19968, 8976, 1, 256]
-    - [919, 9684.77]
+    - [950, 9684.77]
   - - [3840, 8976, 1, 256]
-    - [904, 9461.99]
+    - [935, 9461.99]
   - - [4608, 8976, 1, 256]
-    - [904, 9305.92]
+    - [935, 9305.92]
   - - [256, 684, 1, 1024]
-    - [930, 3513.16]
+    - [961, 3513.16]
   - - [256, 22016, 1, 1024]
-    - [895, 7643.89]
+    - [926, 7643.89]
   - - [256, 23296, 1, 1024]
-    - [924, 8048.22]
+    - [955, 8048.22]
   - - [4864, 8976, 1, 256]
-    - [902, 9545.72]
+    - [933, 9545.72]
   - - [256, 7424, 1, 1024]
-    - [920, 6770.75]
+    - [951, 6770.75]
   - - [18176, 8976, 1, 256]
-    - [927, 9729.57]
+    - [958, 9729.57]
   - - [256, 15104, 1, 1024]
-    - [916, 7289.18]
+    - [947, 7289.18]
   - - [8192, 8976, 1, 256]
-    - [919, 9395.59]
+    - [950, 9395.59]
   - - [256, 16128, 1, 1024]
-    - [919, 7461.38]
+    - [950, 7461.38]
   - - [13312, 8976, 1, 256]
-    - [927, 9551.07]
+    - [958, 9551.07]
   - - [256, 21504, 1, 1024]
-    - [924, 7636.03]
+    - [955, 7636.03]
   - - [6400, 8976, 1, 256]
-    - [911, 9561.06]
+    - [942, 9561.06]
   - - [256, 8960, 1, 1024]
-    - [886, 6292.46]
+    - [917, 6292.46]
   - - [1792, 8976, 1, 256]
-    - [901, 9372.28]
+    - [932, 9372.28]
   - - [13824, 8976, 1, 256]
-    - [919, 9585.37]
+    - [950, 9585.37]
   - - [11776, 8976, 1, 256]
-    - [919, 9560.44]
+    - [950, 9560.44]
   - - [256, 20992, 1, 1024]
-    - [917, 7490.75]
+    - [948, 7490.75]
   - - [20480, 8976, 1, 256]
-    - [927, 9610.8]
+    - [958, 9610.8]
   - - [5888, 8976, 1, 256]
-    - [898, 9565.3]
+    - [929, 9565.3]
   - - [256, 10496, 1, 1024]
-    - [889, 6632.06]
+    - [920, 6632.06]
   - - [21248, 8976, 1, 256]
-    - [919, 9755.87]
+    - [950, 9755.87]
   - - [5120, 8976, 1, 256]
-    - [927, 9244.69]
+    - [958, 9244.69]
   - - [7168, 8976, 1, 256]
-    - [919, 9388.52]
+    - [950, 9388.52]
   - - [2048, 1536, 1, 768]
-    - [908, 9446.14]
+    - [939, 9446.14]
   - - [256, 8192, 1, 1024]
-    - [913, 6948.99]
+    - [944, 6948.99]
   - - [4096, 8976, 1, 256]
-    - [918, 9116.04]
+    - [949, 9116.04]
   - - [3328, 8976, 1, 256]
-    - [911, 9434.65]
+    - [942, 9434.65]
   - - [1280, 8976, 1, 256]
-    - [909, 9129.9]
+    - [940, 9129.9]
   - - [2560, 8976, 1, 256]
-    - [906, 9199.58]
+    - [937, 9199.58]
   - - [3072, 8976, 1, 256]
-    - [921, 8963.7]
+    - [952, 8963.7]
   - - [256, 11776, 1, 1024]
-    - [899, 6869.9]
+    - [930, 6869.9]
   - - [18688, 8976, 1, 256]
-    - [927, 9726.31]
+    - [958, 9726.31]
   - - [15104, 8976, 1, 256]
-    - [927, 9715.81]
+    - [958, 9715.81]
   - - [23552, 8976, 1, 256]
-    - [919, 9648.52]
+    - [950, 9648.52]
   - - [6144, 8976, 1, 256]
-    - [927, 9339.9]
+    - [958, 9339.9]
   - - [12544, 8976, 1, 256]
-    - [927, 9654.55]
+    - [958, 9654.55]
   - - [256, 11264, 1, 1024]
-    - [900, 6815.08]
+    - [931, 6815.08]
   - - [2048, 114, 1, 512]
-    - [931, 4583.6]
+    - [962, 4583.6]
   - - [4352, 8976, 1, 256]
-    - [911, 9471.5]
+    - [942, 9471.5]
   - - [15360, 8976, 1, 256]
-    - [927, 9583.87]
+    - [958, 9583.87]
   - - [256, 31488, 1, 1024]
-    - [926, 8438.11]
+    - [957, 8438.11]
   - - [28672, 8976, 1, 256]
-    - [919, 9688.95]
+    - [950, 9688.95]
   - - [256, 18176, 1, 1024]
-    - [895, 7405.19]
+    - [926, 7405.19]
   - - [9728, 8976, 1, 256]
-    - [927, 9524.25]
+    - [958, 9524.25]
   - - [256, 2816, 1, 1024]
-    - [891, 5405.76]
+    - [922, 5405.76]
   - - [256, 18944, 1, 1024]
-    - [895, 7503.51]
+    - [926, 7503.51]
   - - [256, 3584, 1, 1024]
-    - [894, 6107.25]
+    - [925, 6107.25]
   - - [7936, 8976, 1, 256]
-    - [907, 9608.41]
+    - [938, 9608.41]
   - - [19712, 8976, 1, 256]
-    - [927, 9736.35]
+    - [958, 9736.35]
   - - [256, 14848, 1, 1024]
-    - [900, 7163.52]
+    - [931, 7163.52]
   - - [256, 8448, 1, 1024]
-    - [900, 6372.66]
+    - [931, 6372.66]
   - - [256, 6400, 1, 1024]
-    - [914, 6395.81]
+    - [945, 6395.81]
   - - [256, 6144, 1, 1024]
-    - [925, 6490.32]
+    - [956, 6490.32]
   - - [9472, 8976, 1, 256]
-    - [904, 9610.02]
+    - [935, 9610.02]
   - - [256, 9984, 1, 1024]
-    - [887, 6484.85]
+    - [918, 6484.85]
   - - [684, 8976, 1, 256]
-    - [896, 8128.63]
+    - [927, 8128.63]
   - - [20992, 8976, 1, 256]
-    - [919, 9689.75]
+    - [950, 9689.75]
   - - [2048, 684, 1, 512]
-    - [903, 7241.88]
+    - [934, 7241.88]
   - - [2048, 114, 1, 768]
-    - [929, 4872.56]
+    - [960, 4872.56]
   - - [8960, 8976, 1, 256]
-    - [902, 9603.45]
+    - [933, 9603.45]
   - - [2048, 1536, 1, 512]
-    - [905, 8830.21]
+    - [936, 8830.21]
   - - [256, 3328, 1, 1024]
-    - [893, 5612.65]
+    - [924, 5612.65]
   - - [33536, 8976, 1, 256]
-    - [919, 9797.81]
+    - [950, 9797.81]
   - - [2048, 8976, 1, 256]
-    - [919, 8975.56]
+    - [950, 8975.56]
   - - [10496, 8976, 1, 256]
-    - [910, 9654.53]
+    - [941, 9654.53]
   - - [256, 5376, 1, 1024]
-    - [928, 5626.44]
+    - [959, 5626.44]
   - - [256, 21248, 1, 1024]
-    - [897, 7525.55]
+    - [928, 7525.55]
   - - [256, 13312, 1, 1024]
-    - [895, 6767.21]
+    - [926, 6767.21]
   - - [16128, 8976, 1, 256]
-    - [919, 9715.67]
+    - [950, 9715.67]
   - - [2304, 8976, 1, 256]
-    - [892, 9433.93]
+    - [923, 9433.93]
   - - [256, 4864, 1, 1024]
-    - [882, 5743.65]
+    - [913, 5743.65]
   - - [17152, 8976, 1, 256]
-    - [927, 9709.04]
+    - [958, 9709.04]
   - - [15872, 8976, 1, 256]
-    - [927, 9657.67]
+    - [958, 9657.67]
   - - [9984, 8976, 1, 256]
-    - [904, 9639.84]
+    - [935, 9639.84]
   - - [256, 14592, 1, 1024]
-    - [916, 7224.02]
+    - [947, 7224.02]
   - - [256, 33536, 1, 1024]
-    - [923, 8147.41]
+    - [954, 8147.41]
   - - [11264, 8976, 1, 256]
-    - [919, 9510.06]
+    - [950, 9510.06]
   - - [31488, 8976, 1, 256]
-    - [927, 9799.41]
+    - [958, 9799.41]
   - - [256, 20480, 1, 1024]
-    - [900, 7498.3]
+    - [931, 7498.3]
   - - [44505, 8976, 1, 256]
-    - [911, 9804.88]
+    - [942, 9804.88]
   - - [13568, 8976, 1, 256]
-    - [919, 9680.34]
+    - [950, 9680.34]
   - - [256, 11520, 1, 1024]
-    - [899, 6805.36]
+    - [930, 6805.36]
   - - [256, 7936, 1, 1024]
-    - [915, 6971.87]
+    - [946, 6971.87]
   - - [2048, 256, 1, 768]
-    - [885, 7129.23]
+    - [916, 7129.23]
   - - [256, 4608, 1, 1024]
-    - [883, 5463.01]
+    - [914, 5463.01]
   - - [256, 2304, 1, 1024]
-    - [890, 4842.79]
+    - [921, 4842.79]
   - - [256, 2560, 1, 1024]
-    - [891, 5309.35]
+    - [922, 5309.35]
   - - [2816, 8976, 1, 256]
-    - [902, 9409.66]
+    - [933, 9409.66]
   - - [1728, 320, 1, 64]
-    - [938, 3205.67]
+    - [969, 3205.67]
   - - [1152, 128, 1, 784]
-    - [985, 3499.06]
+    - [1016, 3499.06]
   - - [576, 96, 1, 5329]
-    - [971, 3948.02]
+    - [1002, 3948.02]
   - - [864, 96, 1, 1225]
-    - [992, 3009.77]
+    - [1023, 3009.77]
   - - [256, 128, 1, 784]
-    - [982, 1536.59]
+    - [1013, 1536.59]
   - - [1440, 320, 1, 196]
-    - [935, 4824.72]
+    - [966, 4824.72]
   - - [192, 48, 1, 1225]
-    - [1013, 820.565]
+    - [1044, 820.565]
   - - [2592, 384, 1, 289]
-    - [953, 7353.11]
+    - [984, 7353.11]
   - - [192, 80, 36, 10368]
-    - [1003, 5360.14]
+    - [1034, 5360.14]
   - - [896, 192, 1, 289]
-    - [970, 3076.66]
+    - [1001, 3076.66]
   - - [768, 128, 1, 289]
-    - [995, 2351.91]
+    - [1026, 2351.91]
   - - [64, 256, 1, 3136]
-    - [1021, 1809.26]
+    - [1052, 1809.26]
   - - [1280, 384, 1, 64]
-    - [935, 3171.2]
+    - [966, 3171.2]
   - - [512, 144, 1, 196]
-    - [993, 1445.17]
+    - [1024, 1445.17]
   - - [1344, 192, 1, 289]
-    - [976, 4376.62]
+    - [1007, 4376.62]
   - - [288, 64, 1, 21609]
-    - [987, 3396.22]
+    - [1018, 3396.22]
   - - [400, 32, 1, 784]
-    - [1014, 922.453]
+    - [1045, 922.453]
   - - [288, 32, 1, 21609]
-    - [1025, 2816.11]
+    - [1056, 2816.11]
   - - [1280, 448, 1, 64]
-    - [938, 3253.66]
+    - [969, 3253.66]
   - - [3456, 256, 1, 169]
-    - [950, 5822.54]
+    - [981, 5822.54]
   - - [2304, 256, 1, 196]
-    - [948, 4932.08]
+    - [979, 4932.08]
   - - [384, 192, 1, 1225]
-    - [996, 2720.49]
+    - [1027, 2720.49]
   - - [832, 48, 1, 49]
-    - [991, 344.618]
+    - [1022, 344.618]
   - - [832, 192, 1, 49]
-    - [973, 1099.46]
+    - [1004, 1099.46]
   - - [1280, 192, 1, 64]
-    - [974, 2069.66]
+    - [1005, 2069.66]
   - - [192, 32, 1, 784]
-    - [1013, 459.727]
+    - [1044, 459.727]
   - - [288, 48, 1, 1225]
-    - [1020, 1176.1]
+    - [1051, 1176.1]
   - - [512, 112, 1, 196]
-    - [988, 1277.31]
+    - [1019, 1277.31]
   - - [224, 192, 36, 2592]
-    - [1005, 7369.66]
+    - [1036, 7369.66]
   - - [528, 32, 1, 196]
-    - [979, 440.474]
+    - [1010, 440.474]
   - - [192, 128, 36, 1568]
-    - [1004, 8245.86]
+    - [1035, 8245.86]
   - - [4032, 384, 1, 64]
-    - [949, 5898.34]
+    - [980, 5898.34]
   - - [576, 64, 1, 3136]
-    - [994, 2671.21]
+    - [1025, 2671.21]
   - - [2048, 32, 1, 1001]
-    - [996, 2323.1]
+    - [1027, 2323.1]
   - - [480, 64, 1, 196]
-    - [981, 752.74]
+    - [1012, 752.74]
   - - [512, 256, 1, 196]
-    - [983, 2528.65]
+    - [1014, 2528.65]
   - - [864, 96, 1, 289]
-    - [993, 1958.5]
+    - [1024, 1958.5]
   - - [896, 128, 1, 289]
-    - [996, 2725.83]
+    - [1027, 2725.83]
   - - [192, 64, 1, 784]
-    - [1011, 898.775]
+    - [1042, 898.775]
   - - [1200, 64, 1, 1225]
-    - [995, 2780.24]
+    - [1026, 2780.24]
   - - [1296, 288, 1, 196]
-    - [934, 3826.28]
+    - [965, 3826.28]
   - - [576, 96, 1, 5041]
-    - [975, 3795.68]
+    - [1006, 3795.68]
   - - [1024, 256, 1, 289]
-    - [964, 4488.23]
+    - [995, 4488.23]
   - - [1024, 2048, 1, 49]
-    - [954, 5077.2]
+    - [985, 5077.2]
   - - [192, 64, 36, 6272]
-    - [998, 7515.08]
+    - [1029, 7515.08]
   - - [4096, 512, 1, 4096]
-    - [960, 10276.1]
+    - [991, 10276.1]
   - - [192, 32, 1, 1225]
-    - [1014, 556.786]
+    - [1045, 556.786]
   - - [1024, 256, 1, 196]
-    - [974, 3892.54]
+    - [1005, 3892.54]
   - - [1120, 192, 1, 289]
-    - [963, 3752.91]
+    - [994, 3752.91]
   - - [400, 48, 1, 196]
-    - [988, 480.1]
+    - [1019, 480.1]
   - - [1728, 224, 1, 1225]
-    - [941, 5575.87]
+    - [972, 5575.87]
   - - [800, 96, 1, 784]
-    - [995, 2669.04]
+    - [1026, 2669.04]
   - - [1152, 384, 1, 64]
-    - [945, 3077.44]
+    - [976, 3077.44]
   - - [4608, 512, 1, 49]
-    - [952, 4676.7]
+    - [983, 4676.7]
   - - [1792, 256, 1, 289]
-    - [945, 5346.04]
+    - [976, 5346.04]
   - - [864, 128, 1, 784]
-    - [995, 3816.3]
+    - [1026, 3816.3]
   - - [1728, 384, 1, 169]
-    - [947, 5191.78]
+    - [978, 5191.78]
   - - [480, 16, 1, 196]
-    - [1016, 241.331]
+    - [1047, 241.331]
   - - [1568, 256, 1, 289]
-    - [935, 4723.51]
+    - [966, 4723.51]
   - - [1152, 448, 1, 64]
-    - [941, 3356.82]
+    - [972, 3356.82]
   - - [512, 64, 1, 196]
-    - [980, 802.916]
+    - [1011, 802.916]
   - - [1344, 224, 1, 289]
-    - [935, 3519.73]
+    - [966, 3519.73]
   - - [9216, 512, 1, 4096]
-    - [958, 9146.12]
+    - [989, 9146.12]
   - - [27, 32, 1, 22201]
-    - [1026, 264.456]
+    - [1057, 264.456]
   - - [1152, 192, 1, 784]
-    - [965, 4904.18]
+    - [996, 4904.18]
   - - [1536, 256, 1, 64]
-    - [933, 2578.57]
+    - [964, 2578.57]
   - - [800, 128, 1, 196]
-    - [995, 1991.21]
+    - [1026, 1991.21]
   - - [800, 64, 1, 196]
-    - [990, 1150.93]
+    - [1021, 1150.93]
   - - [864, 208, 1, 196]
-    - [967, 2684.82]
+    - [998, 2684.82]
   - - [1440, 320, 1, 49]
-    - [936, 2313.54]
+    - [967, 2313.54]
   - - [512, 128, 1, 784]
-    - [986, 2780.42]
+    - [1017, 2780.42]
   - - [720, 192, 1, 5041]
-    - [961, 5410.56]
+    - [992, 5410.56]
   - - [256, 64, 1, 784]
-    - [1018, 1163.6]
+    - [1049, 1163.6]
   - - [256, 48, 1, 1225]
-    - [1013, 1075.3]
+    - [1044, 1075.3]
   - - [576, 192, 1, 3136]
-    - [961, 4833.11]
+    - [992, 4833.11]
   - - [160, 64, 1, 5329]
-    - [1015, 1753.6]
+    - [1046, 1753.6]
   - - [3456, 384, 1, 289]
-    - [955, 7341.85]
+    - [986, 7341.85]
   - - [32, 32, 36, 43808]
-    - [1009, 1378.13]
+    - [1040, 1378.13]
   - - [1344, 512, 1, 64]
-    - [934, 3823.03]
+    - [965, 3823.03]
   - - [192, 16, 1, 784]
-    - [1014, 228.173]
+    - [1045, 228.173]
   - - [3456, 384, 1, 169]
-    - [951, 6675.12]
+    - [982, 6675.12]
   - - [1152, 256, 1, 196]
-    - [944, 3211.36]
+    - [975, 3211.36]
   - - [1728, 192, 1, 1225]
-    - [945, 4852.36]
+    - [976, 4852.36]
   - - [2048, 512, 1, 49]
-    - [957, 3471.74]
+    - [988, 3471.74]
   - - [576, 96, 1, 1225]
-    - [988, 2176.76]
+    - [1019, 2176.76]
   - - [512, 2048, 1, 49]
-    - [939, 3845.93]
+    - [970, 3845.93]
   - - [1728, 192, 1, 64]
-    - [934, 2369.93]
+    - [965, 2369.93]
   - - [832, 256, 1, 49]
-    - [964, 1433.7]
+    - [995, 1433.7]
   - - [512, 128, 1, 196]
-    - [989, 1459.77]
+    - [1020, 1459.77]
   - - [1200, 128, 1, 49]
-    - [984, 1069.19]
+    - [1015, 1069.19]
   - - [528, 256, 1, 196]
-    - [972, 2069.86]
+    - [1003, 2069.86]
   - - [256, 512, 1, 784]
-    - [995, 4538.99]
+    - [1026, 4538.99]
   - - [480, 192, 1, 196]
-    - [995, 1792.1]
+    - [1026, 1792.1]
   - - [96, 64, 36, 2592]
-    - [1002, 4845.51]
+    - [1033, 4845.51]
   - - [96, 96, 36, 2592]
-    - [1007, 5111.63]
+    - [1038, 5111.63]
   - - [1024, 192, 1, 289]
-    - [969, 3431.24]
+    - [1000, 3431.24]
   - - [1536, 384, 1, 64]
-    - [940, 3166.94]
+    - [971, 3166.94]
   - - [192, 96, 1, 784]
-    - [980, 881.24]
+    - [1011, 881.24]
   - - [2048, 192, 1, 64]
-    - [937, 2330.27]
+    - [968, 2330.27]
   - - [192, 64, 1, 1225]
-    - [1019, 1100.45]
+    - [1050, 1100.45]
   - - [512, 32, 1, 196]
-    - [1010, 477.967]
+    - [1041, 477.967]
   - - [128, 96, 36, 1568]
-    - [1006, 6649.19]
+    - [1037, 6649.19]
   - - [528, 128, 1, 196]
-    - [992, 1403.33]
+    - [1023, 1403.33]
   - - [128, 512, 1, 784]
-    - [982, 2237.91]
+    - [1013, 2237.91]
   - - [128, 128, 36, 3136]
-    - [999, 6538.87]
+    - [1030, 6538.87]
   - - [528, 160, 1, 196]
-    - [996, 1642.77]
+    - [1027, 1642.77]
   - - [448, 64, 1, 5329]
-    - [971, 3264.91]
+    - [1002, 3264.91]
   - - [1280, 320, 1, 64]
-    - [935, 2777.05]
+    - [966, 2777.05]
   - - [1792, 320, 1, 289]
-    - [947, 5205.0]
+    - [978, 5205.0]
   - - [2880, 320, 1, 64]
-    - [943, 4337.04]
+    - [974, 4337.04]
   - - [147, 64, 1, 12544]
-    - [1024, 2430.37]
+    - [1055, 2430.37]
   - - [4096, 512, 1, 1001]
-    - [959, 9619.09]
+    - [990, 9619.09]
   - - [1536, 32, 1, 1001]
-    - [996, 1757.28]
+    - [1027, 1757.28]
   - - [512, 160, 1, 196]
-    - [992, 1592.99]
+    - [1023, 1592.99]
   - - [768, 160, 1, 289]
-    - [993, 2757.27]
+    - [1024, 2757.27]
   - - [1728, 384, 1, 49]
-    - [945, 3102.59]
+    - [976, 3102.59]
   - - [64, 32, 36, 43808]
-    - [1000, 2626.53]
+    - [1031, 2626.53]
   - - [64, 64, 1, 3136]
-    - [1012, 610.606]
+    - [1043, 610.606]
   - - [256, 32, 1, 784]
-    - [1013, 612.937]
+    - [1044, 612.937]
   - - [480, 96, 1, 196]
-    - [988, 1055.2]
+    - [1019, 1055.2]
   - - [1024, 32, 1, 1001]
-    - [978, 1188.53]
+    - [1009, 1188.53]
   - - [832, 160, 1, 49]
-    - [993, 959.347]
+    - [1024, 959.347]
   - - [512, 1024, 1, 196]
-    - [936, 4978.8]
-  - - [96, 64, 36, 10368]
-    - [1030, 5001.05]
-  - - [384, 448, 36, 512]
-    - [1035, 8903.1]
+    - [967, 4978.8]
   - - [2048, 64, 1, 1001]
-    - [1028, 4385.23]
-  - - [224, 192, 36, 5184]
-    - [1034, 7487.91]
+    - [1059, 4385.23]
   - - [2048, 128, 1, 1001]
-    - [1027, 5764.73]
-  - - [96, 96, 36, 10368]
-    - [1036, 5275.31]
-  - - [192, 80, 36, 20736]
-    - [1032, 5409.5]
-  - - [96, 64, 36, 5184]
-    - [1030, 4911.93]
+    - [1058, 5764.73]
   - - [1536, 64, 1, 1001]
-    - [1029, 3162.13]
-  - - [96, 64, 36, 20736]
-    - [1031, 5034.43]
+    - [1060, 3162.13]
+  - - [32, 32, 64, 40000]
+    - [1094, 2449.5]
+  - - [224, 192, 36, 5184]
+    - [1089, 7500.22]
+  - - [32, 32, 49, 115200]
+    - [1095, 1878.38]
+  - - [384, 448, 49, 512]
+    - [1085, 8945.42]
+  - - [192, 80, 36, 20736]
+    - [1083, 5412.36]
+  - - [384, 448, 64, 256]
+    - [1086, 9230.43]
+  - - [96, 64, 64, 18432]
+    - [1070, 5008.5]
+  - - [224, 192, 64, 4608]
+    - [1089, 8684.63]
+  - - [96, 96, 49, 3136]
+    - [1093, 5183.73]
+  - - [224, 192, 64, 2304]
+    - [1085, 8722.86]
+  - - [64, 32, 49, 57600]
+    - [1075, 3565.36]
   - - [384, 448, 36, 256]
-    - [1033, 8815.97]
+    - [1084, 8843.51]
+  - - [96, 64, 36, 10368]
+    - [1077, 4997.56]
+  - - [96, 64, 36, 20736]
+    - [1079, 5034.87]
+  - - [192, 80, 49, 14400]
+    - [1075, 4892.32]
+  - - [96, 64, 49, 6272]
+    - [1096, 5617.14]
+  - - [64, 32, 49, 115200]
+    - [1074, 3572.67]
+  - - [384, 448, 49, 256]
+    - [1087, 8858.76]
+  - - [96, 96, 64, 2304]
+    - [1083, 5379.12]
+  - - [96, 96, 49, 6272]
+    - [1092, 5235.86]
+  - - [224, 192, 49, 6272]
+    - [1088, 7629.38]
+  - - [96, 96, 36, 10368]
+    - [1091, 5281.14]
+  - - [96, 64, 36, 5184]
+    - [1076, 4945.83]
+  - - [384, 448, 64, 512]
+    - [1084, 9294.96]
+  - - [224, 192, 49, 3136]
+    - [1088, 7513.5]
+  - - [384, 448, 36, 512]
+    - [1090, 8961.48]
+  - - [32, 32, 36, 175232]
+    - [1098, 1385.6]
+  - - [224, 192, 36, 10368]
+    - [1089, 7565.83]
+  - - [64, 32, 64, 40000]
+    - [1074, 4658.95]
+  - - [96, 64, 64, 4608]
+    - [1073, 5461.7]
+  - - [32, 32, 49, 57600]
+    - [1095, 1877.11]
+  - - [192, 80, 36, 41472]
+    - [1081, 5123.69]
+  - - [32, 32, 36, 87616]
+    - [1094, 1382.42]
+  - - [192, 80, 49, 28800]
+    - [1074, 4902.05]
+  - - [96, 64, 49, 28800]
+    - [1071, 4862.6]
+  - - [96, 64, 36, 41472]
+    - [1078, 5002.36]
+  - - [192, 80, 64, 9216]
+    - [1069, 5300.65]
   - - [96, 96, 36, 5184]
-    - [1037, 5236.12]
+    - [1091, 5246.34]
+  - - [32, 32, 64, 80000]
+    - [1099, 2457.21]
+  - - [96, 64, 64, 2304]
+    - [1097, 6225.84]
+  - - [96, 64, 49, 3136]
+    - [1096, 5489.12]
+  - - [64, 32, 36, 87616]
+    - [1074, 2636.39]
+  - - [64, 32, 64, 80000]
+    - [1074, 4677.74]
+  - - [96, 96, 64, 4608]
+    - [1080, 5119.73]
+  - - [64, 32, 36, 175232]
+    - [1075, 2639.93]
 - null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/arcturus_Cijk_Ailk_Bjlk_SB.yaml b/library/src/blas3/Tensile/Logic/asm_full/arcturus_Cijk_Ailk_Bjlk_SB.yaml
index 2b30dbc50..302e95c5e 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/arcturus_Cijk_Ailk_Bjlk_SB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/arcturus_Cijk_Ailk_Bjlk_SB.yaml
@@ -16658,8 +16658,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -16822,8 +16822,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -16982,8 +16982,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -17146,8 +17146,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -17306,8 +17306,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -17470,8 +17470,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -17630,8 +17630,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -17790,8 +17790,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -17950,8 +17950,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -18114,8 +18114,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -18274,8 +18274,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -18434,8 +18434,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -18594,8 +18594,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -18758,8 +18758,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -18925,8 +18925,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -19086,8 +19086,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -19247,8 +19247,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -19412,8 +19412,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -19573,8 +19573,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -19734,8 +19734,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -19895,8 +19895,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -20056,8 +20056,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -20221,8 +20221,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -20386,8 +20386,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -20547,8 +20547,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -20708,8 +20708,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -20869,8 +20869,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -21030,8 +21030,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -21191,8 +21191,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -21352,8 +21352,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -21513,8 +21513,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -21674,8 +21674,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -21835,8 +21835,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -21996,8 +21996,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -22157,8 +22157,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -22322,8 +22322,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -22487,8 +22487,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -22650,8 +22650,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -22817,8 +22817,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -22982,8 +22982,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -23145,8 +23145,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -23312,8 +23312,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -23475,8 +23475,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -23642,8 +23642,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -23807,8 +23807,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -23970,8 +23970,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -24137,8 +24137,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -24300,8 +24300,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -24467,8 +24467,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -24630,8 +24630,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -24797,8 +24797,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -24966,8 +24966,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -25133,8 +25133,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -25298,8 +25298,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -25347,11 +25347,11 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -25362,8 +25362,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -25371,31 +25371,28 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 8
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
     LSPA: 4
-    LSPB: 8
-    LVCA: 16
-    LVCB: 8
-    LVPA: 2
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 832
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 64
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -25409,10 +25406,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -25420,26 +25417,34 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -25449,6 +25454,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -25458,6 +25464,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -25472,35 +25479,43 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 166
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id007 
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -25511,40 +25526,37 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
     LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -25558,10 +25570,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -25569,26 +25581,34 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -25598,6 +25618,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -25607,6 +25628,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -25621,35 +25643,43 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 167
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id002 
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -25659,41 +25689,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 16
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
     LSPA: 4
-    LSPB: 8
-    LVCA: 16
-    LVCB: 8
-    LVPA: 2
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -25707,10 +25738,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -25718,19 +25749,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -25738,6 +25776,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -25747,6 +25786,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -25756,6 +25796,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -25770,79 +25811,88 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 168
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id003 
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id002
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 2
-    LVPB: 2
-    LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -25855,11 +25905,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -25869,17 +25919,24 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -25887,6 +25944,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -25896,6 +25954,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -25905,6 +25964,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -25919,35 +25979,74623 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 169
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 169
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 170
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 171
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x32_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1280
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 172
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x32_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 8
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 173
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x16_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR0_TT2_2_USFGRO0_VW2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 174
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x8x32_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 96
+    LSCB: 64
+    LSPA: 5
+    LSPB: 8
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 175
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 96
+    LSCB: 64
+    LSPA: 5
+    LSPB: 8
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 176
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
+    LVPA: 4
+    LVPB: 3
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 177
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 178
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 179
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 180
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 181
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 182
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 183
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 184
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT8x32x32_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 185
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT4_2_USFGRO1_VW1_WG4_16_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 186
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG4_16_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 187
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x32_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT2_2_USFGRO1_VW1_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 188
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_AMAS3_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 189
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 190
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS3_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 191
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS3_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 192
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 193
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 194
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 195
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
+    LVPA: 4
+    LVPB: 3
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 196
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
+    LVPA: 4
+    LVPB: 3
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 197
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
+    LVPA: 4
+    LVPB: 3
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 198
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 199
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 200
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 201
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 202
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 203
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 204
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 205
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 206
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_PGR1_PLR0_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 207
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 208
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 209
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 210
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 211
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 212
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 213
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS1_GRVW1_TT4_4_USFGRO1_VW1_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 214
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 8
+    NumLoadsB: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 8
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 215
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 216
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 217
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x16_SE_AMAS3_GRVW1_TT2_4_USFGRO1_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 218
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 219
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 220
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 221
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 222
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS1_GRVW1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 223
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 224
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 225
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 226
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 227
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 228
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 229
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 230
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 231
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 232
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 233
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 234
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 235
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 236
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_AMAS3_GRVW2_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 237
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x8_SE_AMAS3_GRVW4_TT4_2_USFGRO1_VW2_WG8_16_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 238
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 239
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 240
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 241
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 242
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 243
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW1_TT2_4_USFGRO1_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 244
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 245
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 246
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 8
+    NumLoadsB: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 8
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 247
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 248
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 249
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 250
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 251
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG8_16_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 252
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 253
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 254
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 255
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 256
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 257
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 258
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 259
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 260
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 261
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS1_GRVW1_TT2_4_USFGRO1_VW1_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 262
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_GRVW1_TT4_2_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 8
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 263
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x32_SE_AMAS3_GRVW1_TT4_2_USFGRO1_VW2_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 264
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 265
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 266
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 267
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 268
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS1_GRVW1_TT2_4_USFGRO1_VW1_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 269
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_GRVW4_TT4_2_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 270
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 271
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 272
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 64
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 16
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 4608
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 273
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x64x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 274
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 275
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW4_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 276
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 277
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_AMAS3_GRVW1_TT4_2_USFGRO1_VW2_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 278
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 279
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 280
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 281
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x16_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 282
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 283
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 284
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 285
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS1_GRVW1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 286
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 287
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 288
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 289
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 290
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 291
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 292
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 293
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 294
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 295
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 296
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW2_TT4_8_USFGRO0_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 297
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW2_TT8_4_USFGRO0_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 298
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x32_SE_AMAS3_GRVW2_TT8_4_USFGRO0_VW2_WG8_16_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 299
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW2_TT8_4_USFGRO0_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 300
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 301
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 302
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 303
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 304
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 305
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 306
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 307
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 308
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 309
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 310
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 311
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 312
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 313
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 314
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 315
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 316
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 317
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 318
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 319
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 320
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 321
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 322
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT6_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 323
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT6_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 96
+    LSCB: 64
+    LSPA: 5
+    LSPB: 8
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 324
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 96
+    LSCB: 64
+    LSPA: 5
+    LSPB: 8
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 325
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 2
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 326
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_6_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
+    LVPA: 4
+    LVPB: 3
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 327
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
+    LVPA: 4
+    LVPB: 3
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 328
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 329
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 330
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 331
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 332
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 333
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 334
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3072
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 335
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_DTL0_EPS0_FL0_GRVW4_PGR0_PLR0_TT4_8_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 336
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 337
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 338
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 339
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 340
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 341
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR0_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 342
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1536
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 343
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1536
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 344
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 345
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 346
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 347
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 348
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 349
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x16_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 350
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 351
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT8x32x32_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 352
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 353
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG4_16_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 354
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 355
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x16_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 356
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 357
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 358
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x32_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 2
+    LSPB: 4
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 768
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 359
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 2
+    LSPB: 4
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 768
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 360
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1536
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 361
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW2_PGR0_PLR1_TT4_4_USFGRO0_VW2_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 2
+    LSPB: 2
+    LVCA: 64
+    LVCB: 64
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 362
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 2
+    LSPB: 2
+    LVCA: 64
+    LVCB: 64
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 363
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 2
+    LSPB: 2
+    LVCA: 64
+    LVCB: 64
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 364
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 365
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 366
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 367
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 368
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: true
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 1
+    LSPB: 4
+    LVCA: 128
+    LVCB: 32
+    LVPA: 1
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1280
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: true
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 369
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x8_SE_DTL1_EPS0_FL0_GRVW1_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 1536
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 370
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL0_GRVW2_PGR0_PLR1_TT4_4_USFGRO0_VW2_WG8_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 371
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 1536
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 372
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL1_GRVW2_PGR0_PLR1_TT4_4_USFGRO0_VW2_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: false
+    DirectToLdsB: true
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 128
+    LSPA: 4
+    LSPB: 1
+    LVCA: 32
+    LVCB: 128
+    LVPA: 4
+    LVPB: 1
+    LdcEqualsLdd: true
+    LdsNumElements: 1280
+    LdsOffsetA: 0
+    LdsOffsetB: 256
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: true
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 8
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 373
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x128x8_SE_DTL1_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_8_USFGRO1_VW4_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 374
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 375
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 376
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 32
+    LVCB: 64
+    LVPA: 2
+    LVPB: 1
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 377
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT8_8_USFGRO0_VW2_WG8_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 16
+    LVCB: 32
+    LVPA: 2
+    LVPB: 1
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 378
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT8_8_USFGRO0_VW4_WG8_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 379
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 380
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 381
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 382
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 383
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 384
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 385
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 386
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 387
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 388
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3072
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 389
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 390
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 391
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: true
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 1
+    LSPB: 4
+    LVCA: 128
+    LVCB: 32
+    LVPA: 1
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1280
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: true
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 392
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x8_SE_DTL1_EPS0_FL0_GRVW1_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 393
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 394
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 832
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 395
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001 
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id007 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 396
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id002 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 397
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id003 
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id002
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 398
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id002
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 399
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id004 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 400
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id003
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id004
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 401
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id002
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 402
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id003
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id002
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 403
     SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005 
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id002
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 404
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id004
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 405
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id003
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id004
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 406
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id006 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 407
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id002
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 408
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id003
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id002
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 409
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id002
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 410
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id003
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id004
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 411
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id004
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 412
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id006
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 413
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id007
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 414
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id002
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 24
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 384
+    LdsNumElementsAlignedB: 384
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 384
+    LdsOffsetB_Blk: 1408
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 24
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 3
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 415
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x24_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id002
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 416
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009 
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 417
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010 
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 418
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 419
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 420
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 421
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 422
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id013 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id008
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 423
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x16_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015 
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id008
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 424
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 425
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 426
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id012 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 427
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id012
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 428
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id013
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014 
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 429
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 430
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 431
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id013
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id008
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 432
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 433
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 434
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id012
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 435
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 436
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id013
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id008
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 437
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 438
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 8
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 439
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x32_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 440
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 441
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 442
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 443
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id013
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id011
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 444
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id011
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 445
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id013
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id012
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 446
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x032x32_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 447
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 448
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id013
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id008
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 449
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 450
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 451
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id013
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id011
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 452
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id011
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 453
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x008x32_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 454
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 455
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 456
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id013
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id011
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 457
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id013
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id011
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 8
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 458
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x32_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 459
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 460
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x08_GRVW04_GSU01_SNLL0_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id016 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 461
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id017 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id016
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 462
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018 
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id016
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 128
+    LSCB: 64
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 463
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id019 
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id016
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 464
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id017
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id016
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 465
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id016
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 128
+    LSCB: 64
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 466
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id016
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 467
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id020 
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id021 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 468
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id020
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id021
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 469
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id022 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id021
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 470
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id023 
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id021
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 128
+    LSPA: 16
+    LSPB: 4
+    LVCA: 16
+    LVCB: 64
+    LVPA: 8
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 471
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id024 
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id021
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 472
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025 
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id021
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1536
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 96
+    MacroTileA: 128
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 473
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id026 
+    ThreadTile0: 8
+    ThreadTile1: 6
+    ThreadTileA: 8
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id021
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 474
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id020
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id021
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 475
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id021
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 476
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id023
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id021
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 128
+    LSPA: 16
+    LSPB: 4
+    LVCA: 16
+    LVCB: 64
+    LVPA: 8
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 477
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id024
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id021
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 478
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id021
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1536
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 96
+    MacroTileA: 128
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 479
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id026
+    ThreadTile0: 8
+    ThreadTile1: 6
+    ThreadTileA: 8
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id021
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 480
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id020
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id021
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 4
+    LSPB: 4
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 481
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x04_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id027 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 2
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 2
+    LSPB: 2
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 482
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x02_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id027
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 483
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU01_SNLL1_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id028 
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id029 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 484
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU01_SNLL1_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id028
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id031 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 485
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id028
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id029
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 4
+    LSPB: 4
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 486
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x04_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id028
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id030 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 487
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id028
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id029
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 4
+    LSPB: 4
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 488
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x04_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id028
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id030
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 489
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id028
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id029
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 490
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id028
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 491
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id028
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id029
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 492
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id028
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id031
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 493
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x08_DTL0_GRVW01_GSU01_PGR1_PLR1_TT04_08_USFGRO01_VW02_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: *id032 
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id035 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 2
+    LSPB: 2
+    LVCA: 64
+    LVCB: 64
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 494
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x08_DTL0_GRVW01_GSU01_PGR1_PLR1_TT04_08_USFGRO01_VW04_WG16_08_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    ThreadTile: *id032
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: false
+    DirectToLdsB: true
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 256
+    LSPA: 8
+    LSPB: 1
+    LVCA: 32
+    LVCB: 256
+    LVPA: 8
+    LVPB: 1
+    LdcEqualsLdd: false
+    LdsNumElements: 2304
+    LdsOffsetA: 0
+    LdsOffsetB: 256
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: true
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 256
+    MacroTileA: 32
+    MacroTileB: 256
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 8
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 495
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x256x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG08_32_01_WGM01
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    ThreadTile: *id032
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id033 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: false
+    DirectToLdsB: true
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 256
+    LSPA: 8
+    LSPB: 1
+    LVCA: 32
+    LVCB: 256
+    LVPA: 8
+    LVPB: 1
+    LdcEqualsLdd: false
+    LdsNumElements: 2304
+    LdsOffsetA: 0
+    LdsOffsetB: 256
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: true
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 256
+    MacroTileA: 32
+    MacroTileB: 256
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 8
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 496
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x256x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG08_32_01_WGM08
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    ThreadTile: *id032
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id033
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: false
+    DirectToLdsB: true
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 256
+    LSPA: 8
+    LSPB: 1
+    LVCA: 32
+    LVCB: 256
+    LVPA: 8
+    LVPB: 1
+    LdcEqualsLdd: false
+    LdsNumElements: 2304
+    LdsOffsetA: 0
+    LdsOffsetB: 256
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: true
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 256
+    MacroTileA: 32
+    MacroTileB: 256
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 8
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 497
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x256x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG08_32_01_WGM64
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    ThreadTile: *id032
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id033
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 2
+    LSPB: 2
+    LVCA: 64
+    LVCB: 64
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 8
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 498
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG16_08_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    ThreadTile: *id032
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 499
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW01_GSU01_PGR1_PLR1_TT04_04_USFGRO01_VW04_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: *id036 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id035
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 500
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG16_08_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    ThreadTile: *id032
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 501
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x128x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG08_32_01_WGM01
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    ThreadTile: *id036
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id033
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 3072
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 502
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT08_04_USFGRO0_VW04_WG08_32_01_WGM01
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id033
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 503
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: *id036
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id035
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 3072
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 504
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT04_08_USFGRO0_VW04_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: *id032
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id035
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 505
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG16_16_01_WGM08
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: *id036
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id035
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 3072
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 506
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT04_08_USFGRO0_VW04_WG16_16_01_WGM08
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: *id032
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id035
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 1
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 768
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 507
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG8_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 16
+    LVCB: 16
+    LVPA: 1
+    LVPB: 1
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 508
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT8_8_VW4_WG8_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 1
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 768
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 509
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG8_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 16
+    LVCB: 16
+    LVPA: 1
+    LVPB: 1
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 510
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT8_8_VW4_WG8_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 1
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2560
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 511
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 512
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 1
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2560
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 513
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 514
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 515
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 516
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 1
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2560
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 517
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG16_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 518
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 519
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 520
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 521
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_4_USFGRO1_VW1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 522
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 768
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 523
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 524
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_8_USFGRO1_VW1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 2
+    LSPB: 4
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 768
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 525
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 2
+    LSPB: 4
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 768
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 526
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 640
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 527
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 640
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 528
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 529
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_4_USFGRO1_VW1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 530
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_8_USFGRO1_VW1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 2
+    LSPB: 4
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 768
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 531
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 2
+    LSPB: 4
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 768
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 532
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 640
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 533
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 534
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1280
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 535
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1280
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 536
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3072
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 537
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 2
+    LSPB: 4
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 768
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 538
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 2
+    LSPB: 4
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 768
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 539
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 2
+    LSPB: 4
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 768
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 540
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 2
+    LSPB: 4
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 768
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 541
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 542
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 543
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 544
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 545
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 546
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 547
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 548
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 549
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 550
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 551
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 552
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 553
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 554
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 555
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 556
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 557
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR0_TT4_4_USFGRO0_VW4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 558
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 559
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_TT8_4_USFGRO1_VW4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 560
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 561
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 562
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 563
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 564
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 565
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 566
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x32_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1280
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 567
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x32_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 8
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 568
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x16_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR0_TT2_2_USFGRO0_VW2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 569
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x8x32_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 96
+    LSCB: 64
+    LSPA: 5
+    LSPB: 8
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 570
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 96
+    LSCB: 64
+    LSPA: 5
+    LSPB: 8
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 571
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
+    LVPA: 4
+    LVPB: 3
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 572
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 573
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 574
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 575
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 576
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 577
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 578
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 579
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT8x32x32_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 580
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT4_2_USFGRO1_VW1_WG4_16_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 581
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG4_16_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 582
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x32_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT2_2_USFGRO1_VW1_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 583
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_AMAS3_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 584
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 585
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS3_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 586
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS3_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 587
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 588
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 589
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 590
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
+    LVPA: 4
+    LVPB: 3
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 591
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
+    LVPA: 4
+    LVPB: 3
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 592
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
+    LVPA: 4
+    LVPB: 3
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 593
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 594
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 595
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 596
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 597
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 598
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 599
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 600
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 601
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_PGR1_PLR0_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 602
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 603
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 604
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 605
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 606
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 607
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 608
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS1_GRVW1_TT4_4_USFGRO1_VW1_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 609
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 8
+    NumLoadsB: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 8
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 610
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 611
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 612
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x16_SE_AMAS3_GRVW1_TT2_4_USFGRO1_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 613
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 614
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 615
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 616
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 617
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS1_GRVW1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 618
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 619
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 620
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 621
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 622
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 623
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 624
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 625
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -25957,10 +100605,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -25973,25 +100621,26 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 16
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
     LSPA: 8
     LSPB: 8
-    LVCA: 16
-    LVCB: 16
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -26005,10 +100654,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -26016,19 +100665,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -26036,6 +100692,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -26045,6 +100702,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -26054,6 +100712,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -26068,79 +100727,88 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 170
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 626
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004 
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 8
-    LVCA: 32
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -26153,11 +100821,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -26165,19 +100833,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -26185,6 +100858,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -26194,6 +100868,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -26203,6 +100878,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -26217,96 +100893,275 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 171
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 627
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id004
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 628
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
     LVCB: 8
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -26314,19 +101169,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -26334,6 +101196,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -26343,6 +101206,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -26352,6 +101216,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -26366,46 +101231,54 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 172
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 629
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id002
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -26422,29 +101295,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 16
-    LSPA: 4
-    LSPB: 8
-    LVCA: 16
-    LVCB: 8
-    LVPA: 2
-    LVPB: 4
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -26452,10 +101326,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -26471,11 +101345,18 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -26483,6 +101364,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -26492,6 +101374,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -26501,6 +101384,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -26515,79 +101399,88 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 173
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 630
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 2
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -26600,11 +101493,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -26612,19 +101505,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -26632,6 +101532,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -26641,6 +101542,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -26650,6 +101552,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -26664,35 +101567,43 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 174
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 631
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_AMAS3_GRVW2_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id002
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -26702,9 +101613,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -26712,27 +101623,28 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 32
     LSPA: 8
     LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 896
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 512
     LdsOffsetB: 256
@@ -26742,18 +101654,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -26769,11 +101681,18 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -26781,6 +101700,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -26790,6 +101710,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -26799,6 +101720,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -26813,47 +101735,55 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 175
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 632
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x8_SE_AMAS3_GRVW4_TT4_2_USFGRO1_VW2_WG8_16_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -26861,37 +101791,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 32
     LSPA: 4
     LSPB: 8
-    LVCA: 32
-    LVCB: 16
-    LVPA: 2
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -26900,9 +101831,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -26911,18 +101842,25 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -26930,6 +101868,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -26939,6 +101878,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -26948,6 +101888,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -26962,79 +101903,88 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 176
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 633
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id004
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 4
-    LSPB: 16
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
     LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3200
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -27047,11 +101997,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -27059,19 +102009,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -27079,6 +102036,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -27088,6 +102046,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -27097,6 +102056,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -27111,85 +102071,94 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 177
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 634
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
-    LSPB: 8
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 32
+    LSPB: 16
     LVCA: 8
-    LVCB: 8
-    LVPA: 4
+    LVCB: 16
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -27197,10 +102166,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -27208,19 +102177,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -27228,6 +102202,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -27237,6 +102212,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -27246,6 +102222,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -27260,75 +102237,86 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 178
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 635
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id002
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 16
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
     LSPA: 4
-    LSPB: 8
-    LVCA: 16
-    LVCB: 8
-    LVPA: 2
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1792
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -27345,11 +102333,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -27357,19 +102345,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -27377,6 +102372,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -27386,6 +102382,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -27395,6 +102392,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -27409,46 +102407,54 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 179
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 636
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id002
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -27465,29 +102471,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
     LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
     LVCB: 8
-    LVPA: 2
-    LVPB: 2
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -27495,9 +102502,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -27506,19 +102513,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -27526,6 +102538,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -27535,6 +102548,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -27544,6 +102558,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -27558,96 +102573,107 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 180
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 637
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id002
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -27655,19 +102681,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -27675,6 +102708,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -27684,6 +102718,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -27693,6 +102728,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -27707,71 +102743,80 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 181
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
-    SubGroup0: 16
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 638
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW1_TT2_4_USFGRO1_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id003
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 16
-    LVCB: 8
-    LVPA: 2
-    LVPB: 4
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
@@ -27785,18 +102830,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -27804,19 +102849,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -27824,6 +102876,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -27833,6 +102886,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -27842,6 +102896,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -27856,48 +102911,56 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 182
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_08_01
-    SubGroup0: 16
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 639
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id004
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -27910,42 +102973,43 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 8
-    LSPA: 4
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 16
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3200
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -27953,19 +103017,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -27973,6 +103044,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -27982,6 +103054,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -27991,6 +103064,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -28005,35 +103079,43 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 183
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 640
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -28043,8 +103125,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -28061,19 +103143,20 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 8
-    LSPA: 4
+    LSCB: 32
+    LSPA: 16
     LSPB: 16
     LVCA: 16
-    LVCB: 4
-    LVPA: 2
+    LVCB: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1664
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -28083,18 +103166,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 8
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -28104,17 +103187,24 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -28122,6 +103212,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -28131,6 +103222,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -28140,6 +103232,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -28154,35 +103247,43 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 184
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 641
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id007
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -28192,41 +103293,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -28240,10 +103342,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -28251,19 +103353,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 8
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 8
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -28271,6 +103380,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -28280,6 +103390,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -28289,6 +103400,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -28303,79 +103415,88 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 185
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 642
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id002
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 384
-    LdsNumElementsAlignedB: 384
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
-    LdsOffsetB: 384
-    LdsOffsetB_Blk: 1408
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -28388,11 +103509,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -28400,19 +103521,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 3
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -28420,6 +103548,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -28429,6 +103558,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -28438,6 +103568,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -28452,48 +103583,56 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 186
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x24_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 643
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id002
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -28501,47 +103640,48 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
-    LSPB: 8
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
     LVCB: 16
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -28549,19 +103689,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -28569,6 +103714,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -28578,6 +103724,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -28587,6 +103734,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -28601,48 +103749,58 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 187
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_02
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 644
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008 
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -28650,47 +103808,48 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 4
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -28698,19 +103857,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -28718,6 +103882,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -28727,6 +103892,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -28736,6 +103902,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -28750,39 +103917,49 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 188
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 645
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id010 
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -28798,31 +103975,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 64
     LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -28835,11 +104013,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -28847,19 +104025,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -28867,6 +104052,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -28876,6 +104062,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -28885,6 +104072,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -28899,39 +104087,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 189
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_02
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 646
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG8_16_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -28939,8 +104135,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -28948,30 +104144,31 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
+    LSCA: 32
+    LSCB: 64
+    LSPA: 16
     LSPB: 8
     LVCA: 16
-    LVCB: 16
+    LVCB: 32
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -28984,11 +104181,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -28996,19 +104193,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -29016,6 +104220,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -29025,6 +104230,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -29034,6 +104240,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -29048,33 +104255,41 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 190
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_02
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 647
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -29097,47 +104312,48 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -29145,19 +104361,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -29165,6 +104388,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -29174,6 +104398,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -29183,6 +104408,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -29197,39 +104423,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 191
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 648
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -29237,45 +104471,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -29283,10 +104518,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -29294,19 +104529,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -29314,6 +104556,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -29323,6 +104566,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -29332,6 +104576,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -29346,39 +104591,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 192
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id010
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 649
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id008
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -29386,35 +104639,36 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -29431,10 +104685,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -29445,17 +104699,24 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -29463,6 +104724,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -29472,6 +104734,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -29481,6 +104744,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -29495,39 +104759,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 193
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 650
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id013 
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id008
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -29535,35 +104807,36 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
     LSPA: 8
-    LSPB: 16
-    LVCA: 16
-    LVCB: 8
-    LVPA: 2
-    LVPB: 4
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -29573,7 +104846,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -29581,9 +104854,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -29592,19 +104865,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -29612,6 +104892,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -29621,6 +104902,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -29630,6 +104912,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -29644,39 +104927,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 194
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x16_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_02
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 651
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015 
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -29692,48 +104983,49 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -29741,19 +105033,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -29761,6 +105060,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -29770,6 +105070,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -29779,6 +105080,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -29793,39 +105095,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 195
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 652
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -29833,7 +105143,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -29841,48 +105151,49 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -29890,19 +105201,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -29910,6 +105228,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -29919,6 +105238,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -29928,6 +105248,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -29942,39 +105263,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 196
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id010
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 653
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -29982,7 +105311,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -29990,23 +105319,24 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
@@ -30020,7 +105350,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -30028,10 +105358,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -30039,19 +105369,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -30059,6 +105396,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -30068,6 +105406,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -30077,6 +105416,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -30091,39 +105431,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 197
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 654
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id012 
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -30131,35 +105479,36 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -30169,7 +105518,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -30177,10 +105526,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -30189,18 +105538,25 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -30208,6 +105564,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -30217,6 +105574,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -30226,6 +105584,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -30240,39 +105599,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 198
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG16_08_02
-    SubGroup0: 16
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 655
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id012
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -30280,7 +105647,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -30288,31 +105655,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 8
     LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -30325,11 +105693,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -30337,19 +105705,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -30357,6 +105732,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -30366,6 +105742,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -30375,6 +105752,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -30389,39 +105767,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 199
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG16_04_04
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id013
-    ThreadTile0: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 656
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS1_GRVW1_TT2_4_USFGRO1_VW1_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id014 
+    VectorWidth: 1
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -30429,45 +105815,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -30475,10 +105862,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -30486,19 +105873,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -30506,6 +105900,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -30515,6 +105910,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -30524,6 +105920,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -30538,39 +105935,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 200
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 657
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_GRVW1_TT4_2_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -30578,39 +105983,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 4
     LSPB: 16
-    LVCA: 16
-    LVCB: 8
+    LVCA: 64
+    LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -30623,10 +106029,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -30637,17 +106043,24 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -30655,6 +106068,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -30664,6 +106078,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -30673,6 +106088,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -30687,69 +106103,78 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 201
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 658
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x32_SE_AMAS3_GRVW1_TT4_2_USFGRO1_VW2_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
@@ -30765,7 +106190,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -30773,10 +106198,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -30784,19 +106209,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -30804,6 +106234,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -30813,6 +106244,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -30822,6 +106254,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -30836,14 +106269,21 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 202
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 659
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -30853,16 +106293,19 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -30875,9 +106318,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -30885,47 +106328,48 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
+    LVCA: 32
     LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -30933,19 +106377,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -30953,6 +106402,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -30962,6 +106412,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -30971,6 +106422,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -30985,39 +106437,49 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 203
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 660
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -31025,7 +106487,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -31033,31 +106495,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
+    LVCA: 32
     LVCB: 16
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -31070,7 +106533,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -31083,18 +106546,25 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -31102,6 +106572,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -31111,6 +106582,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -31120,6 +106592,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -31134,39 +106607,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 204
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 661
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -31174,7 +106655,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -31182,37 +106663,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -31220,10 +106702,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -31231,19 +106713,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -31251,6 +106740,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -31260,6 +106750,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -31269,6 +106760,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -31283,39 +106775,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 205
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 662
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id012
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -31331,31 +106831,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 8
     LVCA: 16
-    LVCB: 16
+    LVCB: 32
     LVPA: 16
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -31368,11 +106869,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 16
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -31380,19 +106881,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -31400,6 +106908,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -31409,6 +106918,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -31418,6 +106928,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -31432,39 +106943,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 206
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 663
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS1_GRVW1_TT2_4_USFGRO1_VW1_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
+    VectorWidth: 1
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -31472,8 +106991,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -31481,26 +107000,27 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -31510,7 +107030,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -31518,9 +107038,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -31530,18 +107050,25 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -31549,6 +107076,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -31558,6 +107086,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -31567,6 +107096,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -31581,39 +107111,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 207
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 664
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_GRVW4_TT4_2_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -31629,48 +107167,49 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -31678,19 +107217,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -31698,6 +107244,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -31707,6 +107254,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -31716,6 +107264,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -31730,96 +107279,105 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 208
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 665
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -31827,19 +107385,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -31847,6 +107410,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -31856,6 +107420,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -31865,6 +107430,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -31879,39 +107445,49 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 209
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 666
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -31920,44 +107496,45 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -31965,10 +107542,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -31976,19 +107553,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -31996,6 +107580,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -32005,6 +107590,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -32014,6 +107600,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -32028,33 +107615,41 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 210
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x32_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_04_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 667
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -32077,30 +107672,31 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSCA: 16
+    LSCB: 64
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 16
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 4608
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -32114,10 +107710,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -32127,17 +107723,24 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -32145,6 +107748,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -32154,6 +107758,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -32163,6 +107768,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -32177,33 +107783,41 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 211
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 668
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x64x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id010
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -32226,30 +107840,31 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 16
+    LSCB: 32
     LSPA: 32
-    LSPB: 32
+    LSPB: 16
     LVCA: 8
-    LVCB: 8
+    LVCB: 16
     LVPA: 16
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -32264,9 +107879,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 16
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -32274,19 +107889,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -32294,6 +107916,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -32303,6 +107926,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -32312,6 +107936,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -32326,39 +107951,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 212
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 669
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -32366,35 +107999,36 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -32404,7 +108038,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -32412,10 +108046,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -32423,19 +108057,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -32443,6 +108084,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -32452,6 +108094,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -32461,53 +108104,62 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
-      Tensor0: 0
-      Tensor1: 1
-      TileA: 0
-      TileB: 1
-      TotalIndices: 4
-      TransposeA: false
-      TransposeB: true
-      UseBeta: true
-      UseInitialStrides: false
-    SolutionIndex: 213
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id010
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 670
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW4_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -32515,45 +108167,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSCB: 64
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -32562,9 +108215,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -32572,19 +108225,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -32592,6 +108252,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -32601,6 +108262,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -32610,6 +108272,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -32624,14 +108287,21 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 214
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 671
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -32641,22 +108311,23 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -32664,45 +108335,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -32711,9 +108383,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -32721,19 +108393,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -32741,6 +108420,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -32750,6 +108430,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -32759,6 +108440,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -32773,33 +108455,41 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 215
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 672
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_AMAS3_GRVW1_TT4_2_USFGRO1_VW2_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id011
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -32812,7 +108502,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -32822,13 +108512,14 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
@@ -32872,17 +108563,22 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -32890,6 +108586,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -32899,6 +108596,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -32908,6 +108606,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -32922,14 +108621,21 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 216
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG16_08_02
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 673
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -32940,15 +108646,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id012
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -32962,55 +108671,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 32
     LSPA: 8
-    LSPB: 32
+    LSPB: 16
     LVCA: 32
-    LVCB: 8
-    LVPA: 2
+    LVCB: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -33019,19 +108729,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -33039,6 +108756,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -33048,6 +108766,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -33057,6 +108776,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -33071,33 +108791,41 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 217
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x032x32_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG16_04_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 674
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id014
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -33110,36 +108838,37 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -33149,18 +108878,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -33169,18 +108898,23 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -33188,6 +108922,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -33197,6 +108932,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -33206,6 +108942,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -33220,96 +108957,107 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 218
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 675
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -33317,19 +109065,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -33337,6 +109090,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -33346,6 +109100,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -33355,6 +109110,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -33369,33 +109125,43 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 219
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 676
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x16_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -33409,56 +109175,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
     LSPB: 32
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -33466,19 +109233,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -33486,6 +109260,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -33495,6 +109270,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -33504,6 +109280,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -33518,33 +109295,41 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 220
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 677
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -33567,26 +109352,27 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
+    LVCB: 16
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -33605,9 +109391,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -33615,19 +109401,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -33635,6 +109428,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -33644,6 +109438,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -33653,6 +109448,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -33667,33 +109463,41 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 221
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 678
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -33707,29 +109511,30 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
@@ -33766,17 +109571,24 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -33784,6 +109596,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -33793,6 +109606,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -33802,6 +109616,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -33816,39 +109631,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 222
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 679
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -33856,45 +109679,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -33903,9 +109727,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -33913,19 +109737,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -33933,6 +109764,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -33942,6 +109774,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -33951,6 +109784,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -33965,39 +109799,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 223
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 680
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS1_GRVW1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -34006,7 +109848,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -34014,47 +109856,48 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
+    LSCB: 64
     LSPA: 8
-    LSPB: 32
+    LSPB: 8
     LVCA: 32
-    LVCB: 8
+    LVCB: 32
     LVPA: 4
-    LVPB: 32
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -34062,19 +109905,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -34082,6 +109932,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -34091,6 +109942,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -34100,6 +109952,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -34114,39 +109967,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 224
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x008x32_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG16_04_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 681
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -34155,7 +110016,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -34163,36 +110024,37 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -34200,9 +110062,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -34211,19 +110073,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -34231,6 +110100,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -34240,6 +110110,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -34249,6 +110120,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -34263,17 +110135,24 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 225
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 682
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -34281,21 +110160,22 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -34312,24 +110192,25 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
@@ -34341,7 +110222,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -34349,10 +110230,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -34360,8 +110241,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -34369,10 +110250,17 @@
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -34380,6 +110268,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -34389,6 +110278,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -34398,6 +110288,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -34412,39 +110303,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 226
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_04
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 683
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -34452,45 +110351,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -34498,10 +110398,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -34509,19 +110409,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -34529,6 +110436,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -34538,6 +110446,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -34547,6 +110456,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -34561,33 +110471,41 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 227
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 684
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -34601,29 +110519,30 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
@@ -34659,18 +110578,25 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -34678,6 +110604,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -34687,6 +110614,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -34696,6 +110624,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -34710,14 +110639,21 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 228
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 685
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -34727,31 +110663,32 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id011
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -34759,26 +110696,27 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -34788,7 +110726,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -34796,10 +110734,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -34807,19 +110745,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -34827,6 +110770,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -34836,6 +110780,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -34845,6 +110790,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -34859,39 +110805,49 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 229
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x32_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG16_04_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 686
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -34899,56 +110855,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -34956,8 +110913,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -34965,10 +110922,17 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -34976,6 +110940,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -34985,6 +110950,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -34994,6 +110960,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -35008,46 +110975,54 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 230
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 687
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -35064,15 +111039,16 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 128
-    LSCB: 128
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 2
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
@@ -35086,7 +111062,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -35094,10 +111070,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -35105,19 +111081,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -35125,6 +111106,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -35134,6 +111116,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -35143,6 +111126,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -35157,85 +111141,96 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 231
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x08_GRVW04_GSU01_SNLL0_TT08_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 688
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016 
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
     LSCB: 64
     LSPA: 16
-    LSPB: 16
+    LSPB: 8
     LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LVCB: 32
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -35243,9 +111238,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -35254,19 +111249,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -35274,6 +111274,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -35283,6 +111284,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -35292,6 +111294,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -35306,46 +111309,56 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 232
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
-    SubGroup0: 16
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 689
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id017 
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id016
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -35362,15 +111375,16 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 4
-    LVPB: 2
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
@@ -35384,7 +111398,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -35392,10 +111406,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -35403,8 +111417,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -35412,10 +111426,17 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -35423,6 +111444,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -35432,6 +111454,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -35441,6 +111464,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -35455,95 +111479,104 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 233
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
-    SubGroup0: 16
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 690
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018 
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 128
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
     LSCB: 64
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 2
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -35552,19 +111585,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -35572,6 +111612,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -35581,6 +111622,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -35590,6 +111632,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -35604,96 +111647,105 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 234
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019 
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 691
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW2_TT4_8_USFGRO0_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id016
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
+    LSCB: 32
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
+    LVCA: 32
     LVCB: 16
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -35701,19 +111753,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -35721,6 +111780,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -35730,6 +111790,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -35739,6 +111800,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -35753,85 +111815,94 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 235
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id017
-    ThreadTile0: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 692
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW2_TT8_4_USFGRO0_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id016
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 16
+    LSCB: 64
+    LSPA: 8
     LSPB: 8
-    LVCA: 16
+    LVCA: 32
     LVCB: 32
     LVPA: 4
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -35840,9 +111911,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -35850,19 +111921,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -35870,6 +111948,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -35879,6 +111958,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -35888,6 +111968,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -35902,73 +111983,82 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 236
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
-    SubGroup0: 16
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 693
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x32_SE_AMAS3_GRVW2_TT8_4_USFGRO0_VW2_WG8_16_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id016
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 128
-    LSCB: 64
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
     LSPA: 8
     LSPB: 16
     LVCA: 32
     LVCB: 16
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
@@ -35980,18 +112070,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -35999,19 +112089,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -36019,6 +112116,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -36028,6 +112126,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -36037,6 +112136,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -36051,33 +112151,41 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 237
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 694
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW2_TT8_4_USFGRO0_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id016
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -36091,39 +112199,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 2
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -36137,37 +112246,47 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -36177,6 +112296,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -36186,47 +112306,58 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 238
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 695
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id020 
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021 
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -36238,41 +112369,38 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 2
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -36286,37 +112414,47 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -36326,6 +112464,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -36335,53 +112474,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 239
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 696
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id020
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -36389,39 +112539,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -36434,7 +112585,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -36442,23 +112593,32 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -36466,6 +112626,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -36475,6 +112636,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -36484,53 +112646,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 240
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 697
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id022 
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -36538,39 +112711,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -36583,31 +112757,40 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -36615,6 +112798,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -36624,6 +112808,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -36633,47 +112818,58 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 241
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 698
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id023 
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -36685,41 +112881,38 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 128
-    LSPA: 16
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
     LSPB: 4
-    LVCA: 16
+    LVCA: 64
     LVCB: 64
-    LVPA: 8
-    LVPB: 2
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -36733,37 +112926,47 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
     NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -36773,6 +112976,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -36782,47 +112986,58 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 242
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 699
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id024 
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -36834,41 +113049,38 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 2
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -36882,37 +113094,47 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -36922,6 +113144,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -36931,53 +113154,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 243
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 700
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025 
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -36985,39 +113219,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
+    LSCA: 64
+    LSCB: 64
     LSPA: 4
-    LSPB: 16
+    LSPB: 4
     LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -37030,38 +113265,48 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 96
-    MacroTileA: 128
-    MacroTileB: 96
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -37071,6 +113316,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -37080,93 +113326,101 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 244
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 701
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id026 
-    ThreadTile0: 8
-    ThreadTile1: 6
-    ThreadTileA: 8
-    ThreadTileB: 6
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id021
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 2
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -37179,20 +113433,22 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -37200,17 +113456,25 @@
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -37220,6 +113484,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -37229,53 +113494,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 245
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 702
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id020
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -37283,39 +113559,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -37328,7 +113605,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -37336,30 +113613,40 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -37369,6 +113656,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -37378,93 +113666,101 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 246
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 703
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id022
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -37477,38 +113773,48 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -37518,6 +113824,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -37527,53 +113834,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 247
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 704
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id023
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -37581,39 +113899,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 128
-    LSPA: 16
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
     LSPB: 4
-    LVCA: 16
+    LVCA: 64
     LVCB: 64
-    LVPA: 8
-    LVPB: 2
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -37626,31 +113945,40 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -37658,6 +113986,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -37667,6 +113996,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -37676,47 +114006,58 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 248
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 705
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id024
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id021
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -37728,41 +114069,38 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 2
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -37776,37 +114114,47 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -37816,6 +114164,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -37825,47 +114174,58 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 249
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 706
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -37879,39 +114239,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
+    LSCA: 64
+    LSCB: 64
     LSPA: 4
-    LSPB: 16
+    LSPB: 4
     LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -37925,30 +114286,39 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 96
-    MacroTileA: 128
-    MacroTileB: 96
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
-    NumLoadsB: 3
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
+    NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -37956,6 +114326,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -37965,6 +114336,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -37974,47 +114346,58 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 250
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 707
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id026
-    ThreadTile0: 8
-    ThreadTile1: 6
-    ThreadTileA: 8
-    ThreadTileB: 6
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -38026,41 +114409,38 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 2
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -38074,37 +114454,47 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -38114,6 +114504,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -38123,62 +114514,73 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 251
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 708
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id020
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -38190,26 +114592,27 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 4
-    LSPB: 4
-    LVCA: 16
-    LVCB: 16
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -38222,31 +114625,40 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -38254,6 +114666,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -38263,6 +114676,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -38272,93 +114686,105 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 252
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x04_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 709
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id027 
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 2
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 32
-    LSPA: 2
-    LSPB: 2
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
     LVCA: 32
     LVCB: 32
-    LVPA: 2
-    LVPB: 2
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -38368,34 +114794,43 @@
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -38403,6 +114838,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -38412,6 +114848,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -38421,47 +114858,58 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 253
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x02_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 710
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id027
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -38475,76 +114923,86 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 64
+    LSCB: 64
     LSPA: 8
     LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -38552,6 +115010,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -38561,6 +115020,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -38570,53 +115030,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 254
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU01_SNLL1_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id028 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 711
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id029 
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -38624,65 +115095,68 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -38690,10 +115164,17 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -38701,6 +115182,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -38710,6 +115192,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -38719,53 +115202,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 255
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU01_SNLL1_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 712
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id031 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -38773,76 +115267,86 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -38850,6 +115354,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -38859,6 +115364,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -38868,53 +115374,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 256
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 713
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id029
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -38922,39 +115439,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 4
-    LSPB: 4
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
     LVCB: 16
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -38967,31 +115485,40 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -38999,6 +115526,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -39008,6 +115536,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -39017,47 +115546,58 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 257
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x04_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 714
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id030 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -39070,9 +115610,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -39080,67 +115620,75 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 64
+    LSCB: 64
     LSPA: 8
     LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -39148,6 +115696,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -39157,6 +115706,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -39166,93 +115716,107 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 258
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 715
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id029
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 4
-    LSPB: 4
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
     LVCB: 16
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -39265,31 +115829,38 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -39297,6 +115868,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -39306,6 +115878,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -39315,47 +115888,60 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 259
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x04_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 716
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id030
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -39377,68 +115963,78 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 32
+    LSCB: 64
     LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -39446,6 +116042,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -39455,6 +116052,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -39464,47 +116062,58 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 260
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 717
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT6_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id029
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -39526,68 +116135,78 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 64
     LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -39595,6 +116214,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -39604,6 +116224,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -39613,47 +116234,58 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 261
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 718
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT6_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -39666,9 +116298,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -39676,67 +116308,75 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
+    LSCA: 96
+    LSCB: 64
+    LSPA: 5
     LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -39744,6 +116384,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -39753,6 +116394,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -39762,62 +116404,75 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 262
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 719
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id029
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -39825,67 +116480,75 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LSCA: 96
+    LSCB: 64
+    LSPA: 5
+    LSPB: 8
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -39893,6 +116556,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -39902,6 +116566,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -39911,46 +116576,60 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 263
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 720
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id031
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: false
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -39962,7 +116641,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -39979,19 +116659,20 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
+    LSCB: 32
     LSPA: 4
-    LSPB: 2
+    LSPB: 8
     LVCA: 64
-    LVCB: 128
+    LVCB: 32
     LVPA: 4
-    LVPB: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
@@ -40010,27 +116691,38 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 2
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
+    NumLoadsCoalescedB: 3
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -40038,6 +116730,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -40047,6 +116740,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -40056,47 +116750,58 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 264
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x08_DTL0_GRVW01_GSU01_PGR1_PLR1_TT04_08_USFGRO01_VW02_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 721
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_6_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id032 
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id035 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -40108,40 +116813,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 2
-    LSPB: 2
-    LVCA: 64
-    LVCB: 64
-    LVPA: 2
-    LVPB: 2
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
+    LVPA: 4
+    LVPB: 3
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -40156,27 +116863,36 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -40184,6 +116900,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -40193,6 +116910,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -40202,88 +116920,107 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 265
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x08_DTL0_GRVW01_GSU01_PGR1_PLR1_TT04_08_USFGRO01_VW04_WG16_08_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 722
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    ThreadTile: *id032
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034 
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+    fractionalPerpOverhangB: 3
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: true
+    DirectToLds: false
     DirectToLdsA: false
-    DirectToLdsB: true
+    DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 256
+    LSCA: 64
+    LSCB: 96
     LSPA: 8
-    LSPB: 1
+    LSPB: 5
     LVCA: 32
-    LVCB: 256
-    LVPA: 8
-    LVPB: 1
+    LVCB: 48
+    LVPA: 4
+    LVPB: 3
     LdcEqualsLdd: false
-    LdsNumElements: 2304
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -40293,39 +117030,49 @@
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: true
+    LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 256
-    MacroTileA: 32
-    MacroTileB: 256
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 8
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -40335,6 +117082,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -40344,59 +117092,73 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 266
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x256x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG08_32_01_WGM01
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    ThreadTile: *id032
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 723
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id033 
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+    fractionalPerpOverhangB: 3
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: true
+    DirectToLds: false
     DirectToLdsA: false
-    DirectToLdsB: true
+    DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -40413,19 +117175,24 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 256
-    LSPA: 8
-    LSPB: 1
-    LVCA: 32
-    LVCB: 256
-    LVPA: 8
-    LVPB: 1
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2304
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -40435,39 +117202,51 @@
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: true
+    LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 256
-    MacroTileA: 32
-    MacroTileB: 256
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 8
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -40477,6 +117256,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -40486,27 +117266,38 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 267
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x256x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG08_32_01_WGM08
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    ThreadTile: *id032
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 724
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -40517,28 +117308,29 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: true
+    DirectToLds: false
     DirectToLdsA: false
-    DirectToLdsB: true
+    DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -40555,19 +117347,24 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 256
-    LSPA: 8
-    LSPB: 1
-    LVCA: 32
-    LVCB: 256
-    LVPA: 8
-    LVPB: 1
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2304
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -40577,39 +117374,51 @@
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: true
+    LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 256
-    MacroTileA: 32
-    MacroTileB: 256
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 8
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -40619,6 +117428,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -40628,27 +117438,38 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 268
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x256x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG08_32_01_WGM64
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    ThreadTile: *id032
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 725
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -40659,57 +117480,63 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
-    DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 2
-    LSPB: 2
-    LVCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
     LVCB: 64
-    LVPA: 2
+    LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -40722,36 +117549,48 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 8
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -40761,6 +117600,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -40770,92 +117610,105 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 269
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG16_08_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 726
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    ThreadTile: *id032
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
+    LSCB: 128
+    LSPA: 8
     LSPB: 4
-    LVCA: 64
+    LVCA: 32
     LVCB: 64
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -40868,36 +117721,48 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -40907,6 +117772,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -40916,47 +117782,58 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 270
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW01_GSU01_PGR1_PLR1_TT04_04_USFGRO01_VW04_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 727
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id036 
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id035
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -40968,40 +117845,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -41016,27 +117895,38 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -41044,6 +117934,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -41053,6 +117944,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -41062,27 +117954,38 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 271
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG16_08_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 728
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    ThreadTile: *id032
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -41092,17 +117995,17 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -41114,40 +118017,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 128
     LSPA: 8
-    LSPB: 8
+    LSPB: 4
     LVCA: 32
-    LVCB: 32
-    LVPA: 8
+    LVCB: 64
+    LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -41161,28 +118066,39 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -41190,6 +118106,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -41199,6 +118116,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -41208,47 +118126,58 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 272
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x128x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG08_32_01_WGM01
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    ThreadTile: *id036
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 729
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id033
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -41260,7 +118189,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -41277,6 +118207,7 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 128
@@ -41310,28 +118241,40 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -41341,6 +118284,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -41350,92 +118294,105 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 273
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT08_04_USFGRO0_VW04_WG08_32_01_WGM01
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 730
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_DTL0_EPS0_FL0_GRVW4_PGR0_PLR0_TT4_8_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -41448,29 +118405,38 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -41478,6 +118444,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -41487,6 +118454,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -41496,88 +118464,107 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 274
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 731
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id036
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id035
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
     LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -41590,7 +118577,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 128
     MacroTileA: 64
@@ -41598,28 +118585,38 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -41629,6 +118626,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -41638,27 +118636,38 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 275
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT04_08_USFGRO0_VW04_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 732
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id032
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -41668,58 +118677,62 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id035
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -41736,36 +118749,48 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -41775,6 +118800,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -41784,88 +118810,105 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 276
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG16_16_01_WGM08
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 733
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id036
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 4
-    LVPB: 2
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -41878,36 +118921,48 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -41917,6 +118972,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -41926,46 +118982,56 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 277
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT04_08_USFGRO0_VW04_WG16_16_01_WGM08
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 734
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id032
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -41979,37 +119045,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 16
-    LVCB: 8
-    LVPA: 1
-    LVPB: 2
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -42023,24 +119094,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -42050,13 +119126,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -42076,15 +119154,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -42095,15 +119175,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 278
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG8_8_1_WGM1
+    SolutionIndex: 735
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -42111,21 +119191,19 @@
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -42140,40 +119218,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 64
     LSPA: 4
-    LSPB: 4
-    LVCA: 16
-    LVCB: 16
-    LVPA: 1
-    LVPB: 1
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -42187,24 +119266,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -42214,13 +119298,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -42240,15 +119326,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -42259,37 +119347,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 279
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT8_8_VW4_WG8_8_1_WGM8
+    SolutionIndex: 736
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR0_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -42303,37 +119389,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 128
+    LSCB: 64
     LSPA: 4
     LSPB: 8
-    LVCA: 16
-    LVCB: 8
-    LVPA: 1
-    LVPB: 2
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -42347,24 +119438,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -42374,13 +119468,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -42400,15 +119496,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -42419,15 +119517,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 280
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG8_8_1_WGM64
+    SolutionIndex: 737
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -42439,9 +119537,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -42449,7 +119547,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -42457,47 +119555,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 64
-    LSPA: 4
+    LSPA: 8
     LSPB: 4
-    LVCA: 16
-    LVCB: 16
-    LVPA: 1
-    LVPB: 1
+    LVCA: 32
+    LVCB: 64
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -42510,25 +119605,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -42538,13 +119638,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -42564,15 +119666,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -42583,37 +119687,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 281
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT8_8_VW4_WG8_8_1_WGM64
+    SolutionIndex: 738
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -42628,36 +119730,37 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 4
-    LSPB: 16
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
     LVCA: 32
-    LVCB: 8
-    LVPA: 1
+    LVCB: 64
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2560
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -42671,24 +119774,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -42698,6 +119806,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
@@ -42705,6 +119814,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -42724,15 +119834,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -42743,37 +119855,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 282
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG16_8_1_WGM1
+    SolutionIndex: 739
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -42781,16 +119891,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -42801,27 +119911,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -42834,25 +119945,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -42862,6 +119978,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -42869,6 +119986,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -42888,15 +120006,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -42907,8 +120027,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 283
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 740
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -42916,28 +120036,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -42951,68 +120069,78 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 4
-    LSPB: 16
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
     LVCA: 32
-    LVCB: 8
-    LVPA: 1
+    LVCB: 64
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2560
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -43022,13 +120150,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -43048,15 +120178,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -43067,37 +120199,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 284
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG16_8_1_WGM8
+    SolutionIndex: 741
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -43111,68 +120241,78 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -43182,13 +120322,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -43208,15 +120350,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -43227,14 +120371,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 285
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 742
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -43243,21 +120387,19 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -43265,16 +120407,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -43285,54 +120427,64 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -43342,13 +120494,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -43368,15 +120522,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -43387,37 +120543,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 286
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 743
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -43433,8 +120587,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -43445,58 +120599,62 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
     LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -43506,6 +120664,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -43513,6 +120672,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -43532,15 +120692,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -43551,29 +120713,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 287
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 744
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x16_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -43581,7 +120743,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -43592,71 +120754,81 @@
     DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
-    DirectToLdsB: false
-    DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 32
     LSPA: 4
-    LSPB: 16
-    LVCA: 32
-    LVCB: 8
-    LVPA: 1
-    LVPB: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2560
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -43666,13 +120838,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -43692,15 +120866,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -43711,8 +120887,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 288
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG16_8_1_WGM64
+    SolutionIndex: 745
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -43721,27 +120897,25 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -43749,74 +120923,84 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -43826,13 +121010,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -43852,15 +121038,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -43871,37 +121059,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 289
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 746
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT8x32x32_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -43909,74 +121095,82 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -43986,13 +121180,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -44012,15 +121208,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -44031,37 +121229,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 290
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 747
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -44076,8 +121274,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -44090,57 +121288,63 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 64
     LSPA: 16
     LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 4
+    LVPA: 16
     LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -44150,6 +121354,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -44157,6 +121362,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -44176,15 +121382,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -44195,16 +121403,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 291
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 748
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -44216,16 +121424,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -44233,7 +121439,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -44253,33 +121459,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -44287,26 +121494,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -44316,8 +121526,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -44343,15 +121554,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -44362,35 +121575,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 292
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_4_USFGRO1_VW1_WGM1
+    SolutionIndex: 749
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -44398,15 +121611,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -44414,60 +121627,68 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -44477,7 +121698,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -44504,15 +121726,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -44523,35 +121747,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 293
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WGM1
+    SolutionIndex: 750
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x16_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -44559,15 +121783,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -44575,60 +121799,68 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -44638,7 +121870,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -44665,15 +121898,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -44684,35 +121919,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 294
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    SolutionIndex: 751
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -44720,7 +121955,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -44728,7 +121963,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -44736,64 +121971,68 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 4
-    LSPB: 2
-    LVCA: 64
-    LVCB: 128
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -44803,8 +122042,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -44830,15 +122070,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -44849,35 +122091,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 295
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_8_USFGRO1_VW1_WGM1
+    SolutionIndex: 752
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -44885,49 +122127,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 2
-    LSPB: 4
-    LVCA: 64
-    LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -44936,25 +122183,26 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -44964,8 +122212,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -44991,15 +122240,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -45010,15 +122261,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 296
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WGM1
+    SolutionIndex: 753
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x32_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -45026,19 +122277,21 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -45066,10 +122319,11 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
@@ -45103,12 +122357,14 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -45116,6 +122372,7 @@
     NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -45125,6 +122382,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
@@ -45152,15 +122410,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -45171,8 +122431,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 297
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WGM1
+    SolutionIndex: 754
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -45191,7 +122451,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -45199,7 +122459,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -45227,21 +122487,22 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 32
     LSPA: 2
-    LSPB: 8
+    LSPB: 4
     LVCA: 64
-    LVCB: 16
+    LVCB: 32
     LVPA: 2
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 640
+    LdsNumElements: 768
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
@@ -45258,25 +122519,28 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -45286,8 +122550,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -45313,15 +122578,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -45332,8 +122599,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 298
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    SolutionIndex: 755
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -45342,25 +122609,25 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -45368,7 +122635,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -45376,35 +122643,36 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 2
+    LSCB: 32
+    LSPA: 4
     LSPB: 8
-    LVCA: 64
+    LVCA: 32
     LVCB: 16
     LVPA: 2
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 640
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -45417,27 +122685,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 4
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -45447,6 +122718,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
@@ -45474,15 +122746,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -45493,8 +122767,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 299
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    SolutionIndex: 756
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW2_PGR0_PLR1_TT4_4_USFGRO0_VW2_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -45503,25 +122777,25 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 2
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -45549,19 +122823,20 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
+    LSPA: 2
+    LSPB: 2
     LVCA: 64
     LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
@@ -45590,19 +122865,22 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -45612,6 +122890,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: false
     ProblemType:
@@ -45639,15 +122918,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -45658,35 +122939,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 300
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_4_USFGRO1_VW1_WGM8
+    SolutionIndex: 757
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW2_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -45714,27 +122995,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 4
+    LSCB: 64
+    LSPA: 2
     LSPB: 2
     LVCA: 64
-    LVCB: 128
-    LVPA: 4
+    LVCB: 64
+    LVPA: 2
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -45749,25 +123031,28 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -45777,6 +123062,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: false
     ProblemType:
@@ -45804,15 +123090,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -45823,16 +123111,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 301
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_8_USFGRO1_VW1_WGM8
+    SolutionIndex: 758
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
@@ -45843,15 +123131,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -45865,7 +123153,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -45879,23 +123167,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 64
     LSPA: 2
-    LSPB: 4
+    LSPB: 2
     LVCA: 64
-    LVCB: 32
+    LVCB: 64
     LVPA: 2
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -45910,25 +123203,28 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -45938,7 +123234,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -45965,15 +123262,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -45984,8 +123283,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 302
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WGM8
+    SolutionIndex: 759
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -45994,17 +123293,17 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -46012,7 +123311,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -46026,37 +123325,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 2
-    LSPB: 4
-    LVCA: 64
-    LVCB: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
     LVPA: 2
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -46071,25 +123375,28 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -46099,8 +123406,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -46126,15 +123434,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -46145,8 +123455,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 303
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WGM8
+    SolutionIndex: 760
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -46155,25 +123465,25 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -46187,37 +123497,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 2
+    LSCB: 64
+    LSPA: 8
     LSPB: 8
-    LVCA: 64
+    LVCA: 16
     LVCB: 16
     LVPA: 2
-    LVPB: 8
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 640
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -46232,25 +123547,28 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -46260,8 +123578,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -46287,15 +123606,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -46306,8 +123627,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 304
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM8
+    SolutionIndex: 761
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -46316,17 +123637,17 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -46334,7 +123655,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -46342,43 +123663,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -46391,7 +123717,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -46399,19 +123725,20 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -46421,7 +123748,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -46448,15 +123776,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -46467,35 +123797,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 305
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WGM1
+    SolutionIndex: 762
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -46503,43 +123835,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 2
+    LSCB: 64
+    LSPA: 8
     LSPB: 8
-    LVCA: 64
+    LVCA: 16
     LVCB: 16
     LVPA: 2
-    LVPB: 8
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -46552,27 +123889,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -46582,8 +123920,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -46609,15 +123948,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -46628,8 +123969,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 306
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    SolutionIndex: 763
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -46638,25 +123979,27 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -46664,9 +124007,9 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
-    DirectToLds: false
-    DirectToLdsA: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
@@ -46684,19 +124027,20 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LSCA: 128
+    LSCB: 32
+    LSPA: 1
+    LSPB: 4
+    LVCA: 128
+    LVCB: 32
+    LVPA: 1
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 1280
     LdsOffsetA: 0
@@ -46709,23 +124053,25 @@
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 8
     NumLoadsB: 2
@@ -46734,6 +124080,7 @@
     NumLoadsPerpendicularA: 8
     NumLoadsPerpendicularB: 2
     NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -46743,6 +124090,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
@@ -46770,15 +124118,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -46789,8 +124139,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 307
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    SolutionIndex: 764
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x8_SE_DTL1_EPS0_FL0_GRVW1_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -46799,25 +124149,25 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -46825,7 +124175,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -46833,35 +124183,36 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 16
     LVCB: 32
     LVPA: 4
-    LVPB: 8
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -46874,27 +124225,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
+    NumLoadsA: 2
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -46904,6 +124258,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
@@ -46931,15 +124286,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -46950,35 +124307,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 308
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM8
+    SolutionIndex: 765
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL0_GRVW2_PGR0_PLR1_TT4_4_USFGRO0_VW2_WG8_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -46992,37 +124349,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 2
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
     LSPB: 4
-    LVCA: 64
+    LVCA: 16
     LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -47036,26 +124398,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -47065,8 +124428,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -47092,15 +124456,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -47111,15 +124477,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 309
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW4_WGM1
+    SolutionIndex: 766
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -47127,19 +124493,21 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -47147,41 +124515,42 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 2
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
     LSPB: 4
-    LVCA: 64
+    LVCA: 16
     LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 1536
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
@@ -47196,27 +124565,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -47226,6 +124596,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
@@ -47253,15 +124624,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -47272,15 +124645,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 310
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WGM1
+    SolutionIndex: 767
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL1_GRVW2_PGR0_PLR1_TT4_4_USFGRO0_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -47288,19 +124661,21 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -47309,9 +124684,9 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
+    DirectToLds: true
     DirectToLdsA: false
-    DirectToLdsB: false
+    DirectToLdsB: true
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
@@ -47332,19 +124707,20 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 2
-    LSPB: 4
-    LVCA: 64
-    LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LSCA: 32
+    LSCB: 128
+    LSPA: 4
+    LSPB: 1
+    LVCA: 32
+    LVCB: 128
+    LVPA: 4
+    LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -47354,30 +124730,33 @@
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
+    LocalWriteUseSgprB: true
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 8
     NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -47387,8 +124766,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -47414,15 +124794,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -47433,35 +124815,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 311
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW4_WGM8
+    SolutionIndex: 768
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x128x8_SE_DTL1_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_8_USFGRO1_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -47475,37 +124857,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 2
-    LSPB: 4
-    LVCA: 64
-    LVCB: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
     LVPA: 2
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -47520,25 +124907,28 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -47548,8 +124938,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -47575,15 +124966,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -47594,35 +124987,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 312
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WGM8
+    SolutionIndex: 769
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -47654,6 +125047,7 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
@@ -47691,7 +125085,9 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -47704,6 +125100,7 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -47713,8 +125110,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -47740,15 +125138,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -47759,8 +125159,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 313
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 770
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -47768,7 +125168,7 @@
     SubGroup1: 16
     SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
@@ -47781,13 +125181,13 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -47795,14 +125195,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -47819,23 +125219,24 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
+    LSPA: 8
+    LSPB: 8
     LVCA: 16
     LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -47848,7 +125249,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -47856,19 +125257,20 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -47878,8 +125280,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -47905,15 +125308,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -47924,20 +125329,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 314
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 771
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -47945,14 +125350,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -47960,7 +125367,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -47968,39 +125375,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 32
+    LVCB: 64
+    LVPA: 2
+    LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -48013,25 +125421,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -48041,6 +125452,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -48068,15 +125480,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -48087,37 +125501,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 315
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 772
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT8_8_USFGRO0_VW2_WG8_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -48125,14 +125539,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -48149,23 +125563,24 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 128
-    LSPA: 16
-    LSPB: 8
+    LSPA: 8
+    LSPB: 4
     LVCA: 16
     LVCB: 32
-    LVPA: 4
-    LVPB: 2
+    LVPA: 2
+    LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -48178,7 +125593,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 128
     MacroTileA: 64
@@ -48186,19 +125601,20 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -48208,8 +125624,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -48235,15 +125652,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -48254,20 +125673,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 316
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WGM1
+    SolutionIndex: 773
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT8_8_USFGRO0_VW4_WG8_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -48275,14 +125694,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -48290,7 +125711,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -48298,39 +125719,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 2
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -48343,27 +125765,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -48373,8 +125798,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -48400,27 +125826,31 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 317
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 774
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -48428,14 +125858,14 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -48443,11 +125873,11 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -48455,47 +125885,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 2
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -48508,25 +125939,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -48536,8 +125972,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -48563,27 +126000,31 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 318
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 775
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -48591,28 +126032,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -48626,41 +126065,38 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 2
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -48674,26 +126110,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -48703,7 +126142,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -48730,27 +126170,31 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 319
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM1
+    SolutionIndex: 776
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -48758,14 +126202,14 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -48777,7 +126221,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -48792,40 +126236,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 2
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -48839,24 +126284,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -48866,6 +126316,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -48893,27 +126344,31 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 320
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM1
+    SolutionIndex: 777
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -48921,28 +126376,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -48950,7 +126403,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -48958,39 +126411,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -49003,27 +126457,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -49033,6 +126490,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -49060,27 +126518,31 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 321
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 778
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -49088,26 +126550,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -49115,7 +126577,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -49123,39 +126585,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
     LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -49168,7 +126631,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 128
     MacroTileA: 64
@@ -49176,19 +126639,22 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -49198,8 +126664,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -49225,27 +126692,31 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 322
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WGM8
+    SolutionIndex: 779
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -49253,26 +126724,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -49280,47 +126751,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
     LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -49333,7 +126805,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 128
     MacroTileA: 64
@@ -49341,17 +126813,22 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -49361,8 +126838,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -49388,27 +126866,31 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 323
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WGM8
+    SolutionIndex: 780
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -49416,14 +126898,14 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -49431,13 +126913,11 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -49445,47 +126925,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
+    LSCA: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 16
+    LSPB: 4
     LVCA: 32
-    LVCB: 16
-    LVPA: 2
-    LVPB: 4
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -49498,27 +126979,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -49528,8 +127010,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -49555,27 +127038,31 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 324
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 781
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -49583,26 +127070,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -49610,7 +127099,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -49618,39 +127107,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
+    LSCA: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 16
+    LSPB: 4
     LVCA: 32
-    LVCB: 16
-    LVPA: 2
-    LVPB: 4
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -49663,25 +127153,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -49691,6 +127184,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -49718,27 +127212,31 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 325
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 782
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -49746,28 +127244,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -49775,47 +127273,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 128
     LSPA: 8
-    LSPB: 8
+    LSPB: 4
     LVCA: 32
-    LVCB: 32
-    LVPA: 2
+    LVCB: 64
+    LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -49828,27 +127327,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -49858,6 +127358,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -49885,27 +127386,31 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 326
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM8
+    SolutionIndex: 783
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -49913,26 +127418,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -49946,41 +127453,38 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 128
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
     LVPA: 2
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -49995,23 +127499,28 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -50021,7 +127530,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -50048,27 +127558,31 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 327
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM8
+    SolutionIndex: 784
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -50076,24 +127590,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -50105,14 +127617,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -50133,20 +127645,20 @@
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
+    LSPA: 8
+    LSPB: 8
     LVCA: 16
     LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -50159,7 +127671,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -50167,17 +127679,22 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -50215,52 +127732,54 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 328
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR0_TT4_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 785
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -50280,40 +127799,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
+    LSCB: 64
     LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
-    LVPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -50328,25 +127847,28 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -50358,7 +127880,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -50384,34 +127906,38 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 329
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WGM8
+    SolutionIndex: 786
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 8]
     ThreadTile0: 4
@@ -50423,8 +127949,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -50440,12 +127966,12 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -50466,21 +127992,17 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 64
-    LSPA: 2
+    LSCB: 32
+    LSPA: 1
     LSPB: 4
     LVCA: 128
-    LVCB: 64
-    LVPA: 2
+    LVCB: 32
+    LVPA: 1
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -50489,31 +128011,34 @@
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
+    NumLoadsA: 8
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 8
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -50524,8 +128049,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -50551,34 +128076,38 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 330
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_TT8_4_USFGRO1_VW4_WGM8
+    SolutionIndex: 787
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x8_SE_DTL1_EPS0_FL0_GRVW1_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -50591,7 +128120,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -50613,41 +128142,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 64
-    LSPA: 4
+    LSPA: 8
     LSPB: 8
-    LVCA: 64
-    LVCB: 32
+    LVCA: 16
+    LVCB: 16
     LVPA: 2
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -50661,24 +128190,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -50690,7 +128224,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -50716,33 +128250,209 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 788
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 331
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WGM8
+    SolutionIndex: 789
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
@@ -50755,9 +128465,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -50897,8 +128607,6 @@
     - [83, 6071.16]
   - - [6784, 6784, 1, 1280]
     - [80, 9535.64]
-  - - [1024, 256, 1, 3328]
-    - [74, 5742.58]
   - - [1408, 4288, 1, 1280]
     - [83, 8254.99]
   - - [3584, 4288, 1, 1280]
@@ -52377,8 +130085,6 @@
     - [56, 5129.81]
   - - [2368, 3584, 1, 256]
     - [74, 8998.7]
-  - - [1024, 256, 1, 1280]
-    - [81, 3566.58]
   - - [5056, 3584, 1, 1280]
     - [75, 9345.07]
   - - [448, 4, 1, 3328]
@@ -52839,8 +130545,6 @@
     - [100, 9061.26]
   - - [49, 2048, 128, 512]
     - [98, 6963.26]
-  - - [784, 512, 64, 128]
-    - [100, 8822.52]
   - - [784, 128, 128, 512]
     - [107, 8983.53]
   - - [196, 256, 64, 1024]
@@ -52851,36 +130555,22 @@
     - [99, 8581.25]
   - - [49, 2048, 256, 512]
     - [98, 7049.54]
-  - - [196, 1024, 64, 256]
-    - [101, 7953.59]
   - - [784, 128, 256, 512]
     - [109, 9102.89]
   - - [196, 256, 128, 1024]
     - [101, 8085.79]
-  - - [3136, 64, 64, 256]
-    - [105, 9266.03]
-  - - [784, 128, 64, 512]
-    - [106, 8809.29]
-  - - [49, 2048, 64, 512]
-    - [98, 6843.85]
   - - [3136, 64, 128, 256]
     - [105, 9381.29]
   - - [3136, 256, 128, 64]
     - [103, 8982.54]
   - - [784, 512, 128, 128]
     - [100, 8965.89]
-  - - [3136, 256, 64, 64]
-    - [103, 8879.7]
   - - [3136, 64, 256, 256]
     - [105, 9566.33]
-  - - [3136, 64, 64, 64]
-    - [104, 8313.95]
   - - [3136, 64, 256, 64]
     - [99, 8743.7]
   - - [196, 1024, 128, 256]
     - [102, 8119.33]
-  - - [49, 512, 64, 2048]
-    - [110, 7055.31]
   - - [49, 512, 256, 2048]
     - [111, 7166.31]
   - - [196, 1024, 256, 256]
@@ -54871,4112 +132561,6364 @@
     - [162, 5765.37]
   - - [4096, 3072, 1, 128]
     - [164, 8869.01]
+  - - [768, 3072, 1, 4096]
+    - [176, 10028.7]
+  - - [64, 256, 192, 256]
+    - [170, 8791.55]
+  - - [768, 2, 1, 16]
+    - [173, 4.95484]
+  - - [768, 768, 1, 64]
+    - [169, 3469.55]
+  - - [768, 768, 1, 4096]
+    - [177, 7475.0]
+  - - [768, 30522, 1, 1280]
+    - [180, 10296.9]
+  - - [64, 128, 384, 128]
+    - [170, 7660.83]
+  - - [768, 30522, 1, 320]
+    - [178, 10007.9]
+  - - [768, 768, 1, 32]
+    - [167, 2359.3]
+  - - [3072, 768, 1, 4096]
+    - [176, 10033.7]
+  - - [768, 30522, 1, 640]
+    - [179, 10206.7]
+  - - [64, 64, 768, 64]
+    - [168, 5494.72]
+  - - [768, 768, 1, 640]
+    - [177, 6721.64]
+  - - [768, 768, 1, 16]
+    - [166, 1203.72]
+  - - [768, 768, 1, 1280]
+    - [175, 7138.57]
+  - - [768, 2, 1, 32]
+    - [171, 11.8154]
+  - - [2048, 2048, 1, 512]
+    - [191, 9607.57]
+  - - [512, 32, 1, 200]
+    - [184, 422.268]
+  - - [1024, 1, 1, 200]
+    - [187, 24.6154]
+  - - [1600, 1024, 1, 512]
+    - [182, 8115.91]
+  - - [560, 1024, 1, 200]
+    - [181, 4810.74]
+  - - [1024, 1024, 1, 512]
+    - [190, 8614.74]
+  - - [2048, 1, 1, 512]
+    - [185, 80.9086]
+  - - [512, 512, 1, 200]
+    - [183, 4398.39]
+  - - [100, 2048, 1, 512]
+    - [188, 4443.12]
+  - - [1024, 1024, 1, 200]
+    - [189, 6990.51]
+  - - [1024, 64, 1, 512]
+    - [186, 2853.27]
+  - - [1024, 256, 1, 18944]
+    - [210, 9196.41]
+  - - [256, 3328, 1, 8976]
+    - [200, 8299.26]
+  - - [1024, 256, 1, 4352]
+    - [208, 8813.74]
+  - - [256, 9728, 1, 8976]
+    - [203, 9638.48]
+  - - [1024, 256, 1, 3072]
+    - [210, 8640.63]
+  - - [768, 2048, 1, 256]
+    - [202, 8662.93]
+  - - [1024, 256, 1, 19968]
+    - [207, 9220.86]
+  - - [256, 12800, 1, 8976]
+    - [197, 9418.42]
+  - - [1024, 256, 1, 3328]
+    - [211, 8682.48]
+  - - [256, 10240, 1, 8976]
+    - [204, 10137.7]
+  - - [1024, 256, 1, 15104]
+    - [209, 9167.03]
+  - - [256, 10496, 1, 8976]
+    - [197, 9858.38]
+  - - [1024, 256, 1, 2816]
+    - [212, 8575.71]
+  - - [1024, 256, 1, 4608]
+    - [207, 8861.21]
+  - - [256, 11264, 1, 8976]
+    - [194, 9627.69]
+  - - [1024, 256, 1, 6400]
+    - [207, 8985.23]
+  - - [1024, 256, 1, 16128]
+    - [207, 9170.26]
+  - - [256, 44505, 1, 8976]
+    - [201, 10331.8]
+  - - [256, 6144, 1, 8976]
+    - [204, 10395.0]
+  - - [1024, 256, 1, 5120]
+    - [209, 8881.53]
+  - - [1024, 256, 1, 7936]
+    - [212, 9023.14]
+  - - [256, 3840, 1, 8976]
+    - [199, 9541.28]
+  - - [1024, 256, 1, 21248]
+    - [207, 9209.72]
+  - - [1024, 256, 1, 12032]
+    - [209, 9156.17]
+  - - [256, 8192, 1, 8976]
+    - [206, 10374.4]
+  - - [1024, 256, 1, 3584]
+    - [208, 8712.2]
+  - - [1024, 256, 1, 14336]
+    - [209, 9162.51]
+  - - [256, 7168, 1, 8976]
+    - [195, 9554.86]
+  - - [1024, 256, 1, 13568]
+    - [207, 9165.04]
+  - - [256, 4096, 1, 8976]
+    - [199, 10146.6]
+  - - [1024, 256, 1, 4096]
+    - [208, 8783.88]
+  - - [256, 2560, 1, 8976]
+    - [198, 8381.56]
+  - - [256, 20992, 1, 8976]
+    - [197, 9989.86]
+  - - [256, 4352, 1, 8976]
+    - [198, 9634.92]
+  - - [256, 33536, 1, 8976]
+    - [197, 10218.1]
+  - - [256, 3584, 1, 8976]
+    - [199, 8924.5]
+  - - [256, 26112, 1, 8976]
+    - [198, 10272.3]
+  - - [256, 14336, 1, 8976]
+    - [202, 10217.3]
+  - - [1024, 256, 1, 14848]
+    - [209, 9185.19]
+  - - [1024, 256, 1, 8448]
+    - [210, 9025.89]
+  - - [1024, 256, 1, 28672]
+    - [207, 9256.4]
+  - - [1024, 256, 1, 5632]
+    - [207, 8932.69]
+  - - [256, 22016, 1, 8976]
+    - [202, 10151.9]
+  - - [1024, 256, 1, 33536]
+    - [207, 9243.07]
+  - - [256, 5120, 1, 8976]
+    - [193, 9418.05]
+  - - [256, 11520, 1, 8976]
+    - [200, 9701.0]
+  - - [256, 19968, 1, 8976]
+    - [198, 10228.0]
+  - - [1024, 256, 1, 5376]
+    - [209, 8892.52]
+  - - [1024, 256, 1, 22016]
+    - [207, 9244.24]
+  - - [256, 8960, 1, 8976]
+    - [198, 9841.31]
+  - - [1024, 256, 1, 15872]
+    - [207, 9223.15]
+  - - [256, 17408, 1, 8976]
+    - [202, 9785.77]
+  - - [256, 5632, 1, 8976]
+    - [202, 9564.22]
+  - - [256, 32512, 1, 8976]
+    - [201, 10357.9]
+  - - [256, 11008, 1, 8976]
+    - [194, 9445.13]
+  - - [1024, 256, 1, 6144]
+    - [209, 8955.81]
+  - - [256, 4864, 1, 8976]
+    - [194, 8979.35]
+  - - [256, 15104, 1, 8976]
+    - [197, 10007.0]
+  - - [1024, 256, 1, 9984]
+    - [207, 9110.43]
+  - - [256, 1280, 1, 8976]
+    - [193, 5944.34]
+  - - [1024, 256, 1, 1024]
+    - [209, 7005.1]
+  - - [1024, 256, 1, 9728]
+    - [209, 9066.19]
+  - - [1024, 256, 1, 10496]
+    - [207, 9118.05]
+  - - [256, 11776, 1, 8976]
+    - [204, 9911.64]
+  - - [256, 12544, 1, 8976]
+    - [197, 9235.25]
+  - - [1024, 256, 1, 17152]
+    - [207, 9152.21]
+  - - [1024, 256, 1, 11520]
+    - [209, 9146.77]
+  - - [1024, 256, 1, 21504]
+    - [209, 9207.42]
+  - - [256, 17152, 1, 8976]
+    - [196, 9654.71]
+  - - [1024, 256, 1, 17408]
+    - [207, 9181.17]
+  - - [256, 15872, 1, 8976]
+    - [205, 10086.4]
+  - - [256, 18688, 1, 8976]
+    - [198, 9612.47]
+  - - [256, 5888, 1, 8976]
+    - [202, 9988.33]
+  - - [512, 2048, 1, 256]
+    - [192, 7678.36]
+  - - [1024, 256, 1, 7680]
+    - [210, 9032.96]
+  - - [1024, 256, 1, 1280]
+    - [212, 7767.23]
+  - - [256, 14848, 1, 8976]
+    - [198, 9852.66]
+  - - [256, 9984, 1, 8976]
+    - [204, 9908.87]
+  - - [256, 20480, 1, 8976]
+    - [202, 10337.1]
+  - - [1024, 256, 1, 8192]
+    - [209, 9044.32]
+  - - [1024, 256, 1, 19712]
+    - [208, 9184.18]
+  - - [256, 13568, 1, 8976]
+    - [198, 9927.82]
+  - - [256, 13312, 1, 8976]
+    - [197, 9757.91]
+  - - [256, 2816, 1, 8976]
+    - [197, 9191.43]
+  - - [1024, 256, 1, 2304]
+    - [208, 8444.91]
+  - - [256, 21248, 1, 8976]
+    - [198, 10127.5]
+  - - [256, 16128, 1, 8976]
+    - [206, 10238.4]
+  - - [256, 512, 36, 98]
+    - [229, 7994.85]
+  - - [64, 192, 36, 25088]
+    - [298, 8613.89]
+  - - [128, 128, 64, 25]
+    - [228, 2540.15]
+  - - [256, 256, 64, 56]
+    - [229, 6924.56]
+  - - [512, 486, 36, 800]
+    - [236, 8994.84]
+  - - [512, 512, 36, 1568]
+    - [247, 9872.38]
+  - - [64, 192, 64, 3200]
+    - [292, 9295.89]
+  - - [256, 384, 36, 4096]
+    - [292, 9334.61]
+  - - [128, 256, 64, 32]
+    - [231, 4279.9]
+  - - [64, 128, 64, 23104]
+    - [298, 10103.1]
+  - - [128, 256, 64, 9]
+    - [222, 1709.63]
+  - - [256, 512, 36, 784]
+    - [232, 9520.73]
+  - - [256, 324, 36, 32]
+    - [270, 4473.38]
+  - - [512, 512, 36, 33]
+    - [241, 5925.17]
+  - - [16, 32, 36, 5760]
+    - [245, 1448.8]
+  - - [192, 384, 64, 128]
+    - [292, 8618.43]
+  - - [512, 512, 64, 72]
+    - [248, 8260.12]
+  - - [128, 128, 64, 1600]
+    - [221, 9008.38]
+  - - [512, 512, 36, 128]
+    - [292, 8871.62]
+  - - [192, 384, 64, 2304]
+    - [221, 9657.16]
+  - - [384, 256, 64, 450]
+    - [257, 9538.93]
+  - - [3, 64, 36, 6272]
+    - [245, 509.784]
+  - - [3, 64, 64, 2888]
+    - [274, 708.621]
+  - - [384, 256, 64, 2304]
+    - [257, 10287.5]
+  - - [512, 512, 64, 144]
+    - [292, 9226.7]
+  - - [256, 256, 36, 6272]
+    - [232, 9607.28]
+  - - [80, 192, 64, 4608]
+    - [293, 7347.93]
+  - - [64, 64, 36, 3136]
+    - [280, 5959.05]
+  - - [256, 384, 64, 2304]
+    - [257, 10283.4]
+  - - [512, 512, 36, 66]
+    - [241, 7618.08]
+  - - [128, 256, 64, 800]
+    - [267, 9611.15]
+  - - [64, 128, 36, 30]
+    - [223, 1242.61]
+  - - [192, 256, 36, 512]
+    - [292, 8657.97]
+  - - [256, 512, 64, 200]
+    - [292, 9153.87]
+  - - [256, 512, 64, 25]
+    - [270, 5349.88]
+  - - [3, 64, 64, 46208]
+    - [273, 808.562]
+  - - [128, 256, 36, 1568]
+    - [265, 8528.62]
+  - - [64, 128, 64, 11552]
+    - [298, 9997.0]
+  - - [128, 192, 64, 946]
+    - [292, 9198.38]
+  - - [64, 192, 64, 12800]
+    - [253, 9000.66]
+  - - [224, 224, 64, 128]
+    - [230, 6312.07]
+  - - [128, 256, 64, 288]
+    - [292, 8697.87]
+  - - [64, 64, 64, 826]
+    - [235, 6650.21]
+  - - [256, 384, 64, 1152]
+    - [267, 10106.8]
+  - - [3, 64, 64, 92416]
+    - [273, 812.031]
+  - - [32, 32, 36, 43808]
+    - [214, 2813.09]
+  - - [160, 320, 64, 288]
+    - [224, 8090.86]
+  - - [1, 16, 36, 23040]
+    - [261, 42.6667]
+  - - [128, 256, 36, 128]
+    - [239, 6049.48]
+  - - [128, 128, 64, 3360]
+    - [292, 9199.96]
+  - - [128, 128, 64, 420]
+    - [292, 8131.5]
+  - - [64, 128, 64, 361]
+    - [229, 6937.98]
+  - - [512, 512, 36, 16]
+    - [285, 3797.66]
+  - - [384, 256, 36, 800]
+    - [226, 9151.65]
+  - - [192, 384, 36, 4096]
+    - [226, 8867.57]
+  - - [64, 64, 64, 1600]
+    - [278, 7931.74]
+  - - [256, 384, 64, 576]
+    - [258, 9745.8]
+  - - [512, 512, 64, 14]
+    - [241, 3638.18]
+  - - [512, 512, 36, 8]
+    - [216, 2279.51]
+  - - [512, 486, 64, 128]
+    - [232, 8337.83]
+  - - [1, 16, 64, 640]
+    - [266, 49.9512]
+  - - [64, 96, 64, 288]
+    - [291, 5707.97]
+  - - [96, 96, 36, 1568]
+    - [260, 6866.75]
+  - - [256, 256, 36, 128]
+    - [264, 7703.82]
+  - - [64, 128, 36, 53824]
+    - [252, 6331.31]
+  - - [256, 256, 36, 32]
+    - [248, 4648.86]
+  - - [192, 256, 64, 288]
+    - [292, 8987.79]
+  - - [256, 256, 36, 16]
+    - [262, 2912.71]
+  - - [128, 256, 36, 3200]
+    - [265, 8680.27]
+  - - [160, 320, 64, 512]
+    - [224, 8449.44]
+  - - [128, 160, 36, 512]
+    - [235, 7214.97]
+  - - [96, 96, 36, 2592]
+    - [230, 7104.79]
+  - - [64, 96, 64, 800]
+    - [260, 7268.32]
+  - - [147, 64, 36, 18816]
+    - [276, 7116.26]
+  - - [160, 320, 36, 512]
+    - [230, 7874.82]
+  - - [256, 512, 36, 4]
+    - [269, 1034.78]
+  - - [96, 128, 64, 946]
+    - [252, 7901.07]
+  - - [256, 324, 64, 1568]
+    - [257, 8589.53]
+  - - [128, 128, 64, 50]
+    - [248, 4070.56]
+  - - [35, 96, 36, 8960]
+    - [242, 4207.3]
+  - - [32, 64, 36, 43808]
+    - [283, 4390.81]
+  - - [160, 224, 36, 128]
+    - [230, 5446.92]
+  - - [64, 64, 64, 81]
+    - [255, 2391.18]
+  - - [256, 256, 36, 3200]
+    - [221, 9559.55]
+  - - [256, 256, 36, 210]
+    - [232, 8414.61]
+  - - [192, 384, 64, 576]
+    - [292, 9468.75]
+  - - [512, 512, 64, 800]
+    - [267, 10096.4]
+  - - [512, 24, 36, 800]
+    - [218, 4761.77]
+  - - [64, 64, 64, 13216]
+    - [279, 8491.41]
+  - - [192, 224, 64, 1152]
+    - [235, 8769.06]
+  - - [256, 256, 64, 1152]
+    - [257, 9988.09]
+  - - [512, 486, 64, 512]
+    - [267, 9254.67]
+  - - [128, 128, 36, 784]
+    - [230, 7468.06]
+  - - [256, 512, 64, 1600]
+    - [254, 10232.5]
+  - - [512, 512, 64, 9]
+    - [248, 2599.78]
+  - - [96, 128, 64, 288]
+    - [260, 6599.43]
+  - - [64, 96, 36, 512]
+    - [260, 5073.75]
+  - - [256, 512, 36, 1568]
+    - [292, 9637.81]
+  - - [128, 128, 64, 400]
+    - [292, 8192.0]
+  - - [128, 128, 64, 800]
+    - [292, 8716.34]
+  - - [96, 128, 36, 512]
+    - [280, 6756.93]
+  - - [16, 32, 36, 360]
+    - [243, 754.036]
+  - - [128, 256, 64, 3200]
+    - [257, 10222.5]
+  - - [96, 128, 64, 800]
+    - [260, 7967.9]
+  - - [256, 512, 64, 4]
+    - [222, 1097.99]
+  - - [256, 256, 64, 450]
+    - [267, 9347.45]
+  - - [64, 64, 64, 3200]
+    - [278, 8518.08]
+  - - [192, 224, 64, 128]
+    - [238, 7035.17]
+  - - [128, 128, 64, 288]
+    - [292, 7751.28]
+  - - [256, 256, 64, 72]
+    - [248, 7489.83]
+  - - [96, 208, 36, 512]
+    - [260, 6939.11]
+  - - [128, 256, 36, 3136]
+    - [235, 8669.33]
+  - - [64, 64, 36, 3520]
+    - [230, 6007.47]
+  - - [64, 128, 36, 1568]
+    - [293, 6897.7]
+  - - [160, 320, 64, 242]
+    - [219, 7873.17]
+  - - [192, 192, 36, 512]
+    - [230, 7707.32]
+  - - [512, 512, 36, 512]
+    - [292, 9582.42]
+  - - [1, 16, 64, 10240]
+    - [244, 71.3511]
+  - - [128, 128, 36, 512]
+    - [230, 7149.38]
+  - - [512, 512, 36, 256]
+    - [221, 9384.4]
+  - - [512, 512, 36, 1024]
+    - [215, 9777.89]
+  - - [96, 208, 64, 1152]
+    - [293, 7850.9]
+  - - [128, 192, 64, 3200]
+    - [221, 9490.82]
+  - - [256, 256, 36, 4096]
+    - [226, 9585.46]
+  - - [160, 160, 64, 288]
+    - [260, 7299.8]
+  - - [256, 256, 64, 896]
+    - [257, 9850.33]
+  - - [128, 256, 64, 242]
+    - [292, 8391.38]
+  - - [128, 128, 36, 440]
+    - [235, 6274.72]
+  - - [96, 128, 36, 1568]
+    - [280, 7875.03]
+  - - [192, 384, 36, 1024]
+    - [226, 8715.72]
+  - - [64, 96, 36, 10368]
+    - [297, 7478.59]
+  - - [128, 256, 64, 100]
+    - [241, 7084.97]
+  - - [112, 224, 36, 2048]
+    - [234, 7555.92]
+  - - [384, 256, 64, 1152]
+    - [257, 10102.3]
+  - - [192, 384, 36, 128]
+    - [292, 7543.04]
+  - - [128, 128, 36, 7040]
+    - [265, 7600.6]
+  - - [128, 256, 64, 1568]
+    - [257, 10005.9]
+  - - [128, 128, 36, 1568]
+    - [249, 7848.3]
+  - - [128, 256, 64, 72]
+    - [272, 6553.6]
+  - - [256, 256, 36, 12544]
+    - [286, 9365.04]
+  - - [256, 256, 36, 105]
+    - [248, 7286.06]
+  - - [128, 256, 36, 392]
+    - [235, 7625.69]
+  - - [64, 64, 64, 5408]
+    - [278, 8882.67]
+  - - [3, 64, 36, 25088]
+    - [245, 528.942]
+  - - [384, 256, 36, 1024]
+    - [292, 9182.75]
+  - - [35, 96, 36, 13440]
+    - [299, 4110.29]
+  - - [128, 256, 64, 1152]
+    - [257, 9804.87]
+  - - [256, 324, 64, 32]
+    - [270, 5043.63]
+  - - [160, 224, 64, 128]
+    - [284, 6046.15]
+  - - [192, 224, 36, 2592]
+    - [282, 8878.68]
+  - - [96, 96, 64, 1152]
+    - [260, 8035.45]
+  - - [32, 64, 36, 90]
+    - [217, 964.465]
+  - - [64, 128, 64, 2888]
+    - [232, 9047.23]
+  - - [256, 384, 36, 800]
+    - [292, 9154.02]
+  - - [512, 512, 64, 4]
+    - [289, 1233.62]
+  - - [192, 320, 36, 128]
+    - [229, 7388.19]
+  - - [64, 128, 36, 480]
+    - [293, 5653.27]
+  - - [192, 384, 64, 242]
+    - [292, 9079.99]
+  - - [256, 486, 64, 32]
+    - [285, 5909.18]
+  - - [147, 64, 64, 9702]
+    - [294, 7319.69]
+  - - [512, 512, 64, 64]
+    - [228, 8179.02]
+  - - [64, 192, 64, 3698]
+    - [221, 9287.89]
+  - - [73, 192, 64, 10439]
+    - [252, 6668.02]
+  - - [1, 16, 36, 1440]
+    - [268, 33.4452]
+  - - [128, 256, 36, 512]
+    - [235, 7989.15]
+  - - [512, 512, 64, 576]
+    - [267, 9951.89]
+  - - [64, 64, 36, 12544]
+    - [283, 5872.77]
+  - - [128, 128, 36, 880]
+    - [280, 7597.26]
+  - - [192, 224, 36, 128]
+    - [238, 6451.2]
+  - - [64, 64, 64, 800]
+    - [278, 6916.73]
+  - - [64, 128, 36, 12544]
+    - [256, 6395.88]
+  - - [64, 64, 36, 1568]
+    - [230, 5536.66]
+  - - [160, 160, 36, 512]
+    - [230, 7345.26]
+  - - [512, 24, 64, 512]
+    - [220, 5242.88]
+  - - [3, 64, 36, 3136]
+    - [245, 475.352]
+  - - [256, 256, 64, 9]
+    - [270, 2106.51]
+  - - [3, 64, 64, 11552]
+    - [273, 785.127]
+  - - [128, 256, 36, 12544]
+    - [288, 8792.13]
+  - - [128, 128, 36, 3136]
+    - [249, 8098.46]
+  - - [256, 512, 36, 3136]
+    - [232, 9694.39]
+  - - [64, 64, 36, 196]
+    - [246, 2757.76]
+  - - [144, 288, 36, 512]
+    - [280, 7077.89]
+  - - [256, 24, 64, 32]
+    - [259, 1483.83]
+  - - [384, 384, 36, 800]
+    - [221, 9246.5]
+  - - [512, 512, 64, 1600]
+    - [267, 10277.3]
+  - - [112, 224, 36, 512]
+    - [235, 6744.78]
+  - - [128, 128, 36, 49]
+    - [241, 2716.29]
+  - - [512, 512, 36, 4]
+    - [269, 1156.52]
+  - - [35, 96, 64, 4235]
+    - [230, 4631.28]
+  - - [192, 384, 64, 450]
+    - [221, 9372.2]
+  - - [256, 256, 36, 1024]
+    - [292, 9346.64]
+  - - [112, 224, 64, 1152]
+    - [235, 7523.95]
+  - - [256, 512, 64, 400]
+    - [254, 9597.95]
+  - - [149, 32, 36, 19072]
+    - [299, 5811.8]
+  - - [128, 256, 36, 6272]
+    - [235, 8754.68]
+  - - [128, 192, 36, 1568]
+    - [260, 8195.1]
+  - - [256, 256, 36, 512]
+    - [292, 9074.22]
+  - - [256, 256, 64, 112]
+    - [292, 8305.55]
+  - - [512, 512, 64, 18]
+    - [285, 4324.02]
+  - - [256, 256, 64, 18]
+    - [248, 3547.81]
+  - - [256, 256, 64, 1568]
+    - [257, 10141.7]
+  - - [64, 96, 36, 1568]
+    - [278, 6805.66]
+  - - [384, 256, 36, 4096]
+    - [292, 9311.1]
+  - - [256, 512, 64, 800]
+    - [267, 9998.35]
+  - - [256, 384, 36, 2048]
+    - [292, 9285.34]
+  - - [3, 64, 36, 200704]
+    - [274, 547.375]
+  - - [384, 384, 64, 2304]
+    - [215, 9901.68]
+  - - [160, 320, 64, 128]
+    - [251, 7113.81]
+  - - [512, 512, 36, 528]
+    - [221, 9567.65]
+  - - [160, 320, 36, 128]
+    - [252, 6411.13]
+  - - [96, 96, 64, 800]
+    - [260, 7690.01]
+  - - [256, 512, 36, 49]
+    - [248, 6721.25]
+  - - [384, 384, 64, 450]
+    - [221, 9523.53]
+  - - [3, 64, 64, 23104]
+    - [273, 801.621]
+  - - [256, 256, 64, 3200]
+    - [257, 10300.4]
+  - - [128, 192, 36, 512]
+    - [235, 7499.75]
+  - - [192, 192, 64, 288]
+    - [292, 8774.24]
+  - - [96, 208, 64, 242]
+    - [252, 5901.99]
+  - - [256, 16, 36, 3200]
+    - [281, 3807.77]
+  - - [512, 512, 64, 8]
+    - [259, 2379.75]
+  - - [64, 128, 64, 5776]
+    - [232, 9332.74]
+  - - [512, 512, 64, 288]
+    - [221, 9521.99]
+  - - [256, 16, 36, 32]
+    - [277, 766.005]
+  - - [128, 192, 64, 288]
+    - [292, 8527.58]
+  - - [32, 64, 64, 640]
+    - [260, 4660.34]
+  - - [64, 64, 36, 392]
+    - [260, 3686.4]
+  - - [384, 384, 36, 1024]
+    - [226, 9282.48]
+  - - [64, 64, 36, 11552]
+    - [290, 5904.78]
+  - - [96, 128, 36, 6272]
+    - [280, 8350.99]
+  - - [128, 256, 36, 16]
+    - [262, 2144.81]
+  - - [256, 256, 64, 288]
+    - [292, 9140.13]
+  - - [64, 64, 64, 1652]
+    - [278, 7766.53]
+  - - [256, 384, 36, 1024]
+    - [226, 9203.27]
+  - - [96, 128, 64, 3200]
+    - [295, 8866.2]
+  - - [256, 324, 36, 3200]
+    - [234, 8194.25]
+  - - [128, 192, 64, 800]
+    - [292, 9198.03]
+  - - [64, 128, 64, 10]
+    - [233, 851.117]
+  - - [96, 208, 64, 288]
+    - [260, 6667.58]
+  - - [64, 96, 36, 2592]
+    - [242, 7216.88]
+  - - [64, 128, 64, 160]
+    - [271, 5190.97]
+  - - [192, 384, 64, 512]
+    - [221, 9446.04]
+  - - [64, 64, 36, 6272]
+    - [230, 6212.01]
+  - - [512, 24, 36, 288]
+    - [227, 3922.47]
+  - - [128, 128, 64, 1568]
+    - [221, 9037.86]
+  - - [112, 224, 64, 242]
+    - [291, 6399.26]
+  - - [128, 256, 64, 1600]
+    - [257, 10010.3]
+  - - [32, 32, 64, 20000]
+    - [225, 4378.41]
+  - - [160, 192, 64, 288]
+    - [252, 7803.63]
+  - - [512, 24, 64, 128]
+    - [213, 3733.8]
+  - - [512, 512, 36, 32]
+    - [248, 5935.34]
+  - - [3, 64, 36, 100352]
+    - [245, 542.783]
+  - - [3, 64, 64, 1444]
+    - [274, 674.159]
+  - - [512, 512, 36, 3136]
+    - [215, 9921.1]
+  - - [128, 256, 64, 6400]
+    - [275, 10349.3]
+  - - [256, 256, 36, 2048]
+    - [292, 9518.99]
+  - - [128, 160, 64, 288]
+    - [235, 7549.75]
+  - - [256, 256, 64, 6400]
+    - [257, 10392.6]
+  - - [32, 64, 64, 20000]
+    - [283, 6493.86]
+  - - [256, 256, 36, 1680]
+    - [232, 9513.29]
+  - - [128, 128, 64, 210]
+    - [292, 7094.1]
+  - - [192, 384, 36, 2048]
+    - [221, 8818.65]
+  - - [256, 256, 64, 144]
+    - [292, 8608.61]
+  - - [384, 384, 36, 4096]
+    - [226, 9356.94]
+  - - [160, 320, 64, 1152]
+    - [252, 8749.48]
+  - - [384, 256, 36, 2048]
+    - [292, 9279.63]
+  - - [256, 512, 36, 392]
+    - [292, 9252.14]
+  - - [256, 512, 64, 50]
+    - [248, 7511.29]
+  - - [73, 192, 36, 23360]
+    - [296, 5802.93]
+  - - [3, 64, 36, 50176]
+    - [245, 542.037]
+  - - [384, 384, 36, 2048]
+    - [221, 9325.8]
+  - - [256, 384, 64, 450]
+    - [267, 9528.66]
+  - - [192, 320, 64, 128]
+    - [226, 8399.81]
+  - - [128, 256, 36, 32]
+    - [241, 3276.8]
+  - - [160, 192, 36, 512]
+    - [280, 7752.34]
+  - - [512, 512, 64, 256]
+    - [232, 9473.64]
+  - - [256, 512, 64, 32]
+    - [270, 6391.32]
+  - - [384, 384, 64, 576]
+    - [221, 9614.79]
+  - - [64, 64, 64, 648]
+    - [278, 6282.15]
+  - - [512, 486, 36, 288]
+    - [292, 8624.93]
+  - - [32, 64, 36, 1440]
+    - [230, 3961.5]
+  - - [144, 288, 64, 242]
+    - [252, 6347.02]
+  - - [384, 256, 64, 576]
+    - [257, 9775.24]
+  - - [512, 512, 36, 64]
+    - [228, 7791.28]
+  - - [448, 384, 64, 128]
+    - [221, 9132.23]
+  - - [64, 128, 64, 722]
+    - [271, 8047.11]
+  - - [144, 288, 64, 288]
+    - [280, 6859.4]
+  - - [512, 512, 64, 224]
+    - [292, 9427.29]
+  - - [112, 224, 64, 288]
+    - [291, 6736.92]
+  - - [384, 384, 64, 1152]
+    - [215, 9820.46]
+  - - [448, 384, 36, 128]
+    - [292, 8761.31]
+  - - [64, 64, 64, 100]
+    - [238, 2708.1]
+  - - [256, 486, 36, 128]
+    - [264, 7640.04]
+  - - [64, 96, 64, 4608]
+    - [293, 8351.49]
+  - - [16, 32, 64, 160]
+    - [217, 736.36]
+  - - [64, 192, 36, 6272]
+    - [293, 8041.19]
+  - - [64, 64, 64, 200]
+    - [246, 3924.31]
+  - - [256, 256, 36, 800]
+    - [292, 9299.55]
+  - - [64, 128, 36, 6272]
+    - [290, 6816.36]
+  - - [32, 64, 64, 40]
+    - [237, 885.622]
+  - - [256, 16, 64, 32]
+    - [287, 1205.26]
+  - - [192, 384, 36, 800]
+    - [226, 8673.88]
+  - - [128, 128, 36, 3200]
+    - [260, 8538.89]
+  - - [256, 256, 36, 256]
+    - [232, 8454.36]
+  - - [192, 384, 64, 1152]
+    - [221, 9589.01]
+  - - [128, 256, 64, 200]
+    - [231, 8141.12]
+  - - [64, 96, 64, 1152]
+    - [260, 7620.88]
+  - - [128, 128, 36, 392]
+    - [235, 6175.51]
+  - - [80, 192, 36, 10368]
+    - [283, 6497.16]
+  - - [224, 224, 36, 128]
+    - [293, 5826.89]
+  - - [512, 512, 64, 28]
+    - [248, 5728.81]
+  - - [256, 16, 64, 1568]
+    - [263, 4637.2]
+  - - [144, 288, 64, 1152]
+    - [280, 7784.24]
+  - - [256, 256, 64, 576]
+    - [257, 9596.12]
+  - - [64, 128, 36, 784]
+    - [293, 6058.99]
+  - - [256, 24, 36, 128]
+    - [227, 2239.84]
+  - - [256, 256, 64, 2304]
+    - [257, 10225.7]
+  - - [192, 384, 36, 512]
+    - [292, 8549.03]
+  - - [16, 32, 64, 2560]
+    - [245, 2153.13]
+  - - [256, 512, 36, 32]
+    - [270, 5702.23]
+  - - [512, 512, 64, 128]
+    - [292, 9084.11]
+  - - [128, 128, 64, 200]
+    - [229, 6971.91]
+  - - [512, 512, 64, 32]
+    - [241, 6248.5]
+  - - [128, 256, 36, 196]
+    - [241, 6628.76]
+  - - [8, 384, 64, 6600]
+    - [273, 2733.89]
+  - - [149, 32, 64, 8195]
+    - [235, 6050.91]
+  - - [35, 96, 64, 6160]
+    - [280, 4689.35]
+  - - [64, 64, 36, 1760]
+    - [230, 5622.24]
+  - - [196, 528, 32, 32]
+    - [313, 4088.41]
+  - - [5329, 64, 32, 80]
+    - [306, 8331.14]
+  - - [64, 2880, 1, 320]
+    - [357, 4362.6]
+  - - [49, 832, 32, 256]
+    - [320, 5618.63]
+  - - [3136, 64, 64, 64]
+    - [306, 8457.65]
+  - - [196, 512, 32, 24]
+    - [307, 3621.73]
+  - - [289, 1120, 1, 160]
+    - [303, 3302.86]
+  - - [1225, 192, 32, 32]
+    - [311, 6194.57]
+  - - [64, 2048, 32, 384]
+    - [334, 9541.54]
+  - - [1001, 1536, 1, 32]
+    - [305, 3575.67]
+  - - [289, 1792, 1, 320]
+    - [328, 5140.33]
+  - - [3136, 256, 64, 64]
+    - [329, 9310.12]
+  - - [1001, 1024, 1, 32]
+    - [300, 2733.4]
+  - - [196, 480, 32, 64]
+    - [361, 5070.42]
+  - - [64, 1728, 1, 320]
+    - [358, 3205.57]
+  - - [49, 832, 32, 160]
+    - [362, 4988.82]
+  - - [49, 2048, 64, 512]
+    - [332, 7370.31]
+  - - [49, 832, 32, 384]
+    - [320, 5901.95]
+  - - [289, 896, 1, 192]
+    - [346, 3452.59]
+  - - [289, 1024, 32, 384]
+    - [365, 8902.42]
+  - - [784, 192, 32, 96]
+    - [376, 7853.63]
+  - - [50176, 256, 1, 128]
+    - [339, 9041.83]
+  - - [289, 1024, 32, 256]
+    - [374, 8660.72]
+  - - [289, 1024, 32, 192]
+    - [363, 8433.35]
+  - - [12544, 512, 1, 256]
+    - [323, 9187.34]
+  - - [1225, 1728, 1, 192]
+    - [327, 7720.85]
+  - - [196, 480, 32, 96]
+    - [372, 5662.5]
+  - - [196, 512, 32, 144]
+    - [366, 6531.38]
+  - - [784, 400, 1, 32]
+    - [301, 1280.0]
+  - - [289, 768, 32, 128]
+    - [367, 7913.61]
+  - - [5329, 576, 1, 96]
+    - [310, 7563.46]
+  - - [49, 1200, 1, 128]
+    - [354, 1011.61]
+  - - [64, 1536, 32, 256]
+    - [368, 9159.54]
+  - - [289, 2592, 1, 384]
+    - [336, 6002.71]
+  - - [196, 528, 32, 128]
+    - [371, 5987.1]
+  - - [64, 2048, 32, 448]
+    - [334, 9669.87]
+  - - [196, 1024, 64, 256]
+    - [373, 7818.94]
+  - - [5329, 448, 1, 64]
+    - [306, 6201.02]
+  - - [784, 256, 32, 64]
+    - [308, 7623.18]
+  - - [784, 192, 32, 32]
+    - [313, 5874.26]
+  - - [21609, 288, 1, 32]
+    - [326, 5296.5]
+  - - [784, 256, 32, 32]
+    - [304, 6235.46]
+  - - [5041, 720, 1, 192]
+    - [322, 8140.98]
+  - - [289, 2016, 1, 256]
+    - [319, 5404.05]
+  - - [196, 512, 32, 128]
+    - [364, 6366.82]
+  - - [289, 768, 32, 160]
+    - [366, 8253.88]
+  - - [64, 1536, 32, 384]
+    - [337, 9508.5]
+  - - [64, 1280, 32, 320]
+    - [337, 9070.73]
+  - - [289, 896, 1, 128]
+    - [347, 2917.68]
+  - - [289, 3456, 1, 384]
+    - [327, 7274.91]
+  - - [196, 800, 1, 64]
+    - [349, 1393.78]
+  - - [64, 1280, 32, 384]
+    - [333, 9225.01]
+  - - [64, 1344, 1, 512]
+    - [352, 3041.45]
+  - - [1001, 4096, 1, 512]
+    - [333, 9391.77]
+  - - [1225, 192, 32, 64]
+    - [306, 7729.29]
+  - - [64, 1152, 1, 384]
+    - [356, 2440.65]
+  - - [729, 1600, 1, 192]
+    - [318, 6827.71]
+  - - [289, 1344, 1, 192]
+    - [316, 4439.04]
+  - - [784, 192, 32, 16]
+    - [343, 3663.04]
+  - - [3136, 1024, 1, 2048]
+    - [325, 9071.77]
+  - - [64, 1152, 1, 448]
+    - [353, 2564.45]
+  - - [49, 832, 32, 128]
+    - [316, 4733.16]
+  - - [784, 256, 32, 128]
+    - [329, 8471.6]
+  - - [49, 800, 1, 128]
+    - [351, 633.535]
+  - - [196, 512, 32, 32]
+    - [313, 4354.26]
+  - - [1225, 384, 32, 96]
+    - [330, 8751.63]
+  - - [5041, 576, 1, 96]
+    - [312, 7067.63]
+  - - [49, 832, 32, 48]
+    - [345, 3316.72]
+  - - [3136, 64, 64, 256]
+    - [367, 9721.9]
+  - - [5329, 160, 32, 64]
+    - [369, 8159.84]
+  - - [1225, 288, 32, 48]
+    - [359, 6673.65]
+  - - [4096, 9216, 1, 512]
+    - [341, 10116.9]
+  - - [196, 480, 32, 192]
+    - [370, 6388.46]
+  - - [64, 1152, 1, 256]
+    - [357, 1982.6]
+  - - [3136, 1024, 1, 512]
+    - [325, 8745.57]
+  - - [49, 832, 32, 32]
+    - [344, 2717.87]
+  - - [784, 192, 32, 64]
+    - [308, 7216.32]
+  - - [289, 1024, 32, 128]
+    - [331, 7970.5]
+  - - [289, 768, 32, 192]
+    - [375, 8327.27]
+  - - [289, 1120, 1, 192]
+    - [315, 3716.9]
+  - - [196, 512, 32, 112]
+    - [321, 6252.81]
+  - - [1001, 2048, 1, 32]
+    - [309, 4000.09]
+  - - [1225, 288, 32, 64]
+    - [369, 7208.04]
+  - - [196, 600, 1, 64]
+    - [348, 1093.95]
+  - - [1225, 384, 32, 192]
+    - [330, 9332.66]
+  - - [50176, 256, 1, 512]
+    - [340, 9833.54]
+  - - [196, 512, 32, 160]
+    - [367, 6614.34]
+  - - [4096, 4096, 1, 512]
+    - [338, 10032.2]
+  - - [49, 832, 32, 192]
+    - [316, 5244.53]
+  - - [1225, 256, 32, 64]
+    - [306, 7972.35]
+  - - [64, 2048, 32, 320]
+    - [334, 9404.27]
+  - - [196, 480, 32, 16]
+    - [360, 2724.49]
+  - - [1225, 256, 32, 48]
+    - [308, 7100.38]
+  - - [64, 1280, 32, 448]
+    - [333, 9344.41]
+  - - [1225, 1200, 1, 64]
+    - [302, 5157.89]
+  - - [1225, 384, 32, 64]
+    - [306, 8219.96]
+  - - [12544, 512, 1, 1024]
+    - [325, 9672.72]
+  - - [64, 1280, 32, 192]
+    - [321, 8525.01]
+  - - [196, 512, 32, 64]
+    - [306, 5489.34]
+  - - [289, 1792, 1, 256]
+    - [324, 4831.61]
+  - - [196, 528, 32, 256]
+    - [342, 6453.82]
+  - - [49, 512, 64, 2048]
+    - [377, 7548.98]
+  - - [64, 2048, 32, 192]
+    - [329, 8955.81]
+  - - [784, 512, 64, 128]
+    - [329, 9160.73]
+  - - [784, 128, 64, 512]
+    - [336, 9280.69]
+  - - [196, 528, 32, 160]
+    - [370, 6161.15]
+  - - [1225, 192, 32, 48]
+    - [306, 7236.92]
+  - - [64, 1728, 1, 192]
+    - [356, 2480.57]
+  - - [1001, 2048, 1, 64]
+    - [382, 5714.42]
+  - - [5329, 64, 128, 80]
+    - [389, 8835.29]
+  - - [64, 1280, 128, 448]
+    - [387, 10020.5]
+  - - [289, 768, 128, 128]
+    - [390, 8542.71]
+  - - [1225, 192, 128, 64]
+    - [379, 8444.77]
+  - - [1225, 288, 128, 48]
+    - [392, 7244.66]
+  - - [289, 768, 128, 192]
+    - [394, 8794.49]
+  - - [289, 768, 128, 160]
+    - [391, 8705.33]
+  - - [64, 2048, 128, 192]
+    - [385, 9780.26]
+  - - [64, 1280, 128, 384]
+    - [388, 9950.9]
+  - - [1225, 256, 128, 48]
+    - [380, 8273.61]
+  - - [1225, 192, 128, 48]
+    - [380, 8140.32]
+  - - [1225, 288, 128, 64]
+    - [392, 7886.21]
+  - - [64, 1280, 128, 320]
+    - [384, 9894.56]
+  - - [1225, 256, 128, 64]
+    - [385, 8572.51]
+  - - [1001, 2048, 1, 128]
+    - [386, 7289.06]
+  - - [1225, 192, 128, 32]
+    - [381, 7104.57]
+  - - [64, 1280, 128, 192]
+    - [393, 9642.08]
+  - - [1001, 1536, 1, 64]
+    - [383, 5146.56]
   - - [1024, 128, 1, 128]
-    - [170, 1028.12]
+    - [399, 1028.12]
   - - [4, 704, 1, 1280]
-    - [209, 363.455]
+    - [438, 363.455]
   - - [4, 1856, 1, 3328]
-    - [209, 579.534]
+    - [438, 579.534]
   - - [1856, 448, 1, 3328]
-    - [246, 6966.83]
+    - [475, 6966.83]
   - - [2944, 4288, 1, 1280]
-    - [241, 9057.98]
+    - [470, 9057.98]
   - - [2368, 64, 1, 3328]
-    - [202, 5837.66]
+    - [431, 5837.66]
   - - [2368, 5888, 1, 256]
-    - [246, 9111.16]
+    - [475, 9111.16]
   - - [128, 64, 1, 256]
-    - [208, 374.591]
+    - [437, 374.591]
   - - [5888, 1024, 1, 1280]
-    - [251, 8570.54]
+    - [480, 8570.54]
   - - [128, 6784, 1, 3328]
-    - [214, 7703.96]
+    - [443, 7703.96]
   - - [64, 4, 1, 256]
-    - [260, 11.3219]
+    - [489, 11.3219]
   - - [5888, 1856, 1, 3328]
-    - [246, 9394.4]
+    - [475, 9394.4]
   - - [5056, 704, 1, 256]
-    - [249, 8026.99]
+    - [478, 8026.99]
   - - [5888, 2944, 1, 3328]
-    - [239, 7608.21]
+    - [468, 7608.21]
   - - [1856, 4288, 1, 256]
-    - [240, 8986.42]
+    - [469, 8986.42]
   - - [1024, 5056, 1, 128]
-    - [232, 3898.34]
+    - [461, 3898.34]
   - - [5056, 5056, 1, 3328]
-    - [240, 9536.85]
+    - [469, 9536.85]
   - - [1408, 5888, 1, 1280]
-    - [241, 9279.19]
+    - [470, 9279.19]
   - - [2368, 448, 1, 128]
-    - [233, 2474.42]
+    - [462, 2474.42]
   - - [1024, 3584, 1, 3328]
-    - [243, 9258.58]
+    - [472, 9258.58]
   - - [4, 2944, 1, 1280]
-    - [195, 611.84]
+    - [424, 611.84]
   - - [1408, 64, 1, 128]
-    - [166, 858.31]
+    - [395, 858.31]
   - - [256, 4288, 1, 3328]
-    - [246, 7616.08]
+    - [475, 7616.08]
   - - [5888, 1408, 1, 1280]
-    - [239, 9620.39]
+    - [468, 9620.39]
   - - [704, 1856, 1, 3328]
-    - [240, 9033.75]
+    - [469, 9033.75]
   - - [4, 1408, 1, 128]
-    - [253, 24.455]
+    - [482, 24.455]
   - - [1024, 2368, 1, 256]
-    - [240, 7526.25]
+    - [469, 7526.25]
   - - [1408, 1856, 1, 1280]
-    - [243, 8324.19]
+    - [472, 8324.19]
   - - [1408, 64, 1, 1280]
-    - [214, 4681.24]
+    - [443, 4681.24]
   - - [448, 1024, 1, 1280]
-    - [240, 7112.53]
+    - [469, 7112.53]
   - - [256, 1408, 1, 3328]
-    - [246, 5825.51]
+    - [475, 5825.51]
   - - [5056, 5056, 1, 1280]
-    - [249, 9233.65]
+    - [478, 9233.65]
   - - [448, 5056, 1, 256]
-    - [241, 7003.27]
+    - [470, 7003.27]
   - - [704, 1856, 1, 1280]
-    - [240, 8877.38]
+    - [469, 8877.38]
   - - [128, 5056, 1, 128]
-    - [232, 2301.14]
+    - [461, 2301.14]
   - - [2368, 128, 1, 256]
-    - [240, 3849.04]
+    - [469, 3849.04]
   - - [1856, 1408, 1, 128]
-    - [235, 4202.31]
+    - [464, 4202.31]
   - - [64, 5056, 1, 256]
-    - [241, 3109.62]
+    - [470, 3109.62]
   - - [6784, 256, 1, 3328]
-    - [240, 6388.53]
+    - [469, 6388.53]
   - - [6784, 4288, 1, 3328]
-    - [251, 9114.67]
+    - [480, 9114.67]
   - - [4288, 448, 1, 256]
-    - [244, 5783.05]
+    - [473, 5783.05]
   - - [64, 704, 1, 128]
-    - [177, 379.519]
+    - [406, 379.519]
   - - [1856, 2368, 1, 3328]
-    - [240, 9128.46]
+    - [469, 9128.46]
   - - [4288, 2944, 1, 1280]
-    - [246, 9182.33]
+    - [475, 9182.33]
   - - [704, 5056, 1, 1280]
-    - [240, 9071.57]
+    - [469, 9071.57]
   - - [2368, 704, 1, 3328]
-    - [246, 7731.43]
+    - [475, 7731.43]
   - - [256, 5888, 1, 256]
-    - [240, 7920.38]
+    - [469, 7920.38]
   - - [1856, 4288, 1, 3328]
-    - [246, 9330.07]
+    - [475, 9330.07]
   - - [256, 2944, 1, 256]
-    - [247, 5312.27]
+    - [476, 5312.27]
   - - [5888, 1024, 1, 256]
-    - [238, 6710.97]
+    - [467, 6710.97]
   - - [448, 64, 1, 1280]
-    - [213, 2814.53]
+    - [442, 2814.53]
   - - [448, 5056, 1, 3328]
-    - [240, 8255.53]
+    - [469, 8255.53]
   - - [3584, 4, 1, 1280]
-    - [189, 640.815]
+    - [418, 640.815]
   - - [2944, 64, 1, 256]
-    - [188, 2621.54]
+    - [417, 2621.54]
   - - [128, 4, 1, 1280]
-    - [260, 86.3316]
+    - [489, 86.3316]
   - - [1408, 2944, 1, 256]
-    - [240, 8848.99]
+    - [469, 8848.99]
   - - [256, 1856, 1, 1280]
-    - [240, 7366.55]
+    - [469, 7366.55]
   - - [6784, 5056, 1, 3328]
-    - [251, 8332.16]
+    - [480, 8332.16]
   - - [5056, 5056, 1, 256]
-    - [246, 9171.74]
+    - [475, 9171.74]
   - - [1408, 6784, 1, 128]
-    - [232, 5079.19]
+    - [461, 5079.19]
   - - [64, 1024, 1, 1280]
-    - [204, 3679.31]
+    - [433, 3679.31]
   - - [2944, 4, 1, 256]
-    - [195, 369.543]
+    - [424, 369.543]
   - - [704, 5056, 1, 128]
-    - [232, 4509.27]
+    - [461, 4509.27]
   - - [4, 2368, 1, 1280]
-    - [189, 569.844]
+    - [418, 569.844]
   - - [2368, 2944, 1, 1280]
-    - [251, 7451.14]
+    - [480, 7451.14]
   - - [128, 3584, 1, 1280]
-    - [249, 6071.26]
+    - [478, 6071.26]
   - - [6784, 6784, 1, 1280]
-    - [246, 9535.74]
-  - - [1024, 256, 1, 3328]
-    - [240, 5742.68]
+    - [475, 9535.74]
   - - [1408, 4288, 1, 1280]
-    - [249, 8255.09]
+    - [478, 8255.09]
   - - [3584, 4288, 1, 1280]
-    - [251, 9651.19]
+    - [480, 9651.19]
   - - [2368, 704, 1, 1280]
-    - [246, 8291.4]
+    - [475, 8291.4]
   - - [5056, 4288, 1, 3328]
-    - [238, 9406.36]
+    - [467, 9406.36]
   - - [3584, 2368, 1, 3328]
-    - [246, 9350.32]
+    - [475, 9350.32]
   - - [64, 704, 1, 1280]
-    - [213, 3384.59]
+    - [442, 3384.59]
   - - [4288, 256, 1, 256]
-    - [246, 5593.62]
+    - [475, 5593.62]
   - - [2944, 128, 1, 128]
-    - [168, 2130.6]
+    - [397, 2130.6]
   - - [6784, 448, 1, 1280]
-    - [249, 8815.85]
+    - [478, 8815.85]
   - - [1408, 2944, 1, 128]
-    - [232, 4558.34]
+    - [461, 4558.34]
   - - [4288, 2944, 1, 256]
-    - [251, 7865.43]
+    - [480, 7865.43]
   - - [5888, 704, 1, 1280]
-    - [240, 9262.99]
+    - [469, 9262.99]
   - - [1856, 64, 1, 1280]
-    - [214, 4359.15]
+    - [443, 4359.15]
   - - [448, 5888, 1, 128]
-    - [235, 4000.59]
+    - [464, 4000.59]
   - - [5888, 64, 1, 3328]
-    - [215, 6603.39]
+    - [444, 6603.39]
   - - [2944, 256, 1, 3328]
-    - [240, 8423.63]
+    - [469, 8423.63]
   - - [1024, 64, 1, 128]
-    - [185, 582.642]
+    - [414, 582.642]
   - - [5056, 2368, 1, 1280]
-    - [240, 9419.91]
+    - [469, 9419.91]
   - - [448, 3584, 1, 1280]
-    - [240, 7985.82]
+    - [469, 7985.82]
   - - [6784, 5888, 1, 256]
-    - [238, 9494.36]
+    - [467, 9494.36]
   - - [704, 1024, 1, 128]
-    - [232, 2813.35]
+    - [461, 2813.35]
   - - [704, 128, 1, 1280]
-    - [214, 4477.71]
+    - [443, 4477.71]
   - - [5888, 2944, 1, 128]
-    - [235, 4745.96]
+    - [464, 4745.96]
   - - [4, 3584, 1, 128]
-    - [252, 96.479]
+    - [481, 96.479]
   - - [1408, 448, 1, 1280]
-    - [240, 6912.8]
+    - [469, 6912.8]
   - - [1024, 1408, 1, 256]
-    - [248, 5810.85]
+    - [477, 5810.85]
   - - [2368, 2368, 1, 3328]
-    - [249, 9088.71]
+    - [478, 9088.71]
   - - [1856, 6784, 1, 128]
-    - [235, 5168.32]
+    - [464, 5168.32]
   - - [5056, 704, 1, 3328]
-    - [241, 7464.9]
+    - [470, 7464.9]
   - - [1408, 1856, 1, 256]
-    - [246, 6727.69]
+    - [475, 6727.69]
   - - [1408, 704, 1, 3328]
-    - [246, 8379.53]
+    - [475, 8379.53]
   - - [2368, 5056, 1, 256]
-    - [246, 8664.11]
+    - [475, 8664.11]
   - - [5888, 1856, 1, 256]
-    - [251, 5810.02]
+    - [480, 5810.02]
   - - [4288, 64, 1, 3328]
-    - [228, 6583.94]
+    - [457, 6583.94]
   - - [2368, 4, 1, 1280]
-    - [261, 545.251]
+    - [490, 545.251]
   - - [704, 5888, 1, 256]
-    - [246, 8813.71]
+    - [475, 8813.71]
   - - [4288, 64, 1, 256]
-    - [204, 3059.97]
+    - [433, 3059.97]
   - - [6784, 64, 1, 256]
-    - [246, 3490.96]
+    - [475, 3490.96]
   - - [2944, 256, 1, 256]
-    - [240, 6970.4]
+    - [469, 6970.4]
   - - [2944, 6784, 1, 3328]
-    - [240, 9475.79]
+    - [469, 9475.79]
   - - [704, 1408, 1, 3328]
-    - [240, 8154.18]
+    - [469, 8154.18]
   - - [3584, 704, 1, 3328]
-    - [240, 8995.07]
+    - [469, 8995.07]
   - - [2944, 256, 1, 128]
-    - [232, 2824.13]
+    - [461, 2824.13]
   - - [6784, 4, 1, 1280]
-    - [189, 625.714]
+    - [418, 625.714]
   - - [1024, 64, 1, 1280]
-    - [201, 3307.91]
+    - [430, 3307.91]
   - - [448, 4288, 1, 256]
-    - [246, 6074.48]
+    - [475, 6074.48]
   - - [64, 3584, 1, 3328]
-    - [194, 6200.26]
+    - [423, 6200.26]
   - - [704, 2368, 1, 1280]
-    - [240, 8291.4]
+    - [469, 8291.4]
   - - [448, 2944, 1, 128]
-    - [232, 3221.87]
+    - [461, 3221.87]
   - - [1856, 2368, 1, 1280]
-    - [251, 6855.24]
+    - [480, 6855.24]
   - - [2368, 128, 1, 3328]
-    - [202, 6479.61]
+    - [431, 6479.61]
   - - [2944, 128, 1, 256]
-    - [240, 3828.23]
+    - [469, 3828.23]
   - - [448, 1408, 1, 256]
-    - [241, 4525.9]
+    - [470, 4525.9]
   - - [1856, 4288, 1, 1280]
-    - [239, 9160.32]
+    - [468, 9160.32]
   - - [64, 5056, 1, 3328]
-    - [222, 6819.3]
+    - [451, 6819.3]
   - - [4, 704, 1, 256]
-    - [206, 123.541]
+    - [435, 123.541]
   - - [1024, 448, 1, 128]
-    - [235, 1989.27]
+    - [464, 1989.27]
   - - [704, 4, 1, 1280]
-    - [209, 381.931]
+    - [438, 381.931]
   - - [704, 256, 1, 128]
-    - [232, 1109.17]
+    - [461, 1109.17]
   - - [704, 2944, 1, 128]
-    - [232, 4089.03]
+    - [461, 4089.03]
   - - [1408, 1024, 1, 1280]
-    - [246, 8192.08]
+    - [475, 8192.08]
   - - [704, 6784, 1, 256]
-    - [240, 6717.9]
+    - [469, 6717.9]
   - - [6784, 704, 1, 256]
-    - [246, 5429.22]
+    - [475, 5429.22]
   - - [5056, 1408, 1, 128]
-    - [232, 4954.5]
+    - [461, 4954.5]
   - - [256, 3584, 1, 3328]
-    - [240, 7890.96]
+    - [469, 7890.96]
   - - [4, 5888, 1, 3328]
-    - [257, 691.047]
+    - [486, 691.047]
   - - [128, 1408, 1, 128]
-    - [179, 1393.14]
+    - [408, 1393.14]
   - - [3584, 4288, 1, 3328]
-    - [242, 8900.87]
+    - [471, 8900.87]
   - - [5888, 1856, 1, 1280]
-    - [243, 9345.85]
+    - [472, 9345.85]
   - - [5056, 1024, 1, 3328]
-    - [244, 7834.84]
+    - [473, 7834.84]
   - - [5056, 64, 1, 1280]
-    - [222, 5890.14]
+    - [451, 5890.14]
   - - [1024, 704, 1, 256]
-    - [240, 6007.57]
+    - [469, 6007.57]
   - - [1024, 4288, 1, 128]
-    - [234, 3497.09]
+    - [463, 3497.09]
   - - [4288, 64, 1, 1280]
-    - [219, 4726.59]
+    - [448, 4726.59]
   - - [2368, 3584, 1, 1280]
-    - [238, 8128.82]
+    - [467, 8128.82]
   - - [2368, 6784, 1, 1280]
-    - [238, 9478.72]
+    - [467, 9478.72]
   - - [1024, 256, 1, 256]
-    - [246, 4092.1]
+    - [475, 4092.1]
   - - [1856, 4, 1, 1280]
-    - [261, 509.903]
+    - [490, 509.903]
   - - [448, 448, 1, 256]
-    - [246, 3001.28]
+    - [475, 3001.28]
   - - [2944, 3584, 1, 3328]
-    - [247, 9081.91]
+    - [476, 9081.91]
   - - [128, 4288, 1, 128]
-    - [167, 2323.33]
+    - [396, 2323.33]
   - - [64, 448, 1, 256]
-    - [210, 1066.97]
+    - [439, 1066.97]
   - - [128, 1024, 1, 3328]
-    - [223, 6392.36]
+    - [452, 6392.36]
   - - [4, 1408, 1, 3328]
-    - [206, 616.656]
+    - [435, 616.656]
   - - [6784, 2944, 1, 256]
-    - [249, 8547.73]
+    - [478, 8547.73]
   - - [64, 1856, 1, 1280]
-    - [222, 4409.71]
+    - [451, 4409.71]
   - - [64, 1024, 1, 128]
-    - [166, 554.902]
+    - [395, 554.902]
   - - [4288, 2368, 1, 3328]
-    - [242, 8780.08]
+    - [471, 8780.08]
   - - [1856, 2368, 1, 256]
-    - [249, 4976.74]
+    - [478, 4976.74]
   - - [3584, 256, 1, 128]
-    - [234, 2812.37]
+    - [463, 2812.37]
   - - [3584, 6784, 1, 3328]
-    - [244, 9278.22]
+    - [473, 9278.22]
   - - [256, 1024, 1, 256]
-    - [240, 4346.53]
+    - [469, 4346.53]
   - - [4, 6784, 1, 3328]
-    - [259, 681.366]
+    - [488, 681.366]
   - - [1024, 5888, 1, 3328]
-    - [240, 9187.61]
+    - [469, 9187.61]
   - - [1024, 128, 1, 1280]
-    - [192, 3660.05]
+    - [421, 3660.05]
   - - [4288, 128, 1, 1280]
-    - [246, 6019.17]
+    - [475, 6019.17]
   - - [5056, 4288, 1, 1280]
-    - [238, 9343.96]
+    - [467, 9343.96]
   - - [5888, 64, 1, 256]
-    - [240, 4692.17]
+    - [469, 4692.17]
   - - [1856, 256, 1, 1280]
-    - [246, 4790.38]
+    - [475, 4790.38]
   - - [64, 5888, 1, 3328]
-    - [214, 6702.2]
+    - [443, 6702.2]
   - - [2944, 5888, 1, 128]
-    - [235, 5202.65]
+    - [464, 5202.65]
   - - [704, 5888, 1, 1280]
-    - [240, 9264.29]
+    - [469, 9264.29]
   - - [2368, 3584, 1, 128]
-    - [232, 5053.71]
+    - [461, 5053.71]
   - - [6784, 5888, 1, 3328]
-    - [238, 7926.8]
+    - [467, 7926.8]
   - - [704, 1024, 1, 1280]
-    - [239, 5402.6]
+    - [468, 5402.6]
   - - [448, 256, 1, 3328]
-    - [222, 6124.65]
+    - [451, 6124.65]
   - - [448, 1856, 1, 128]
-    - [233, 2885.96]
+    - [462, 2885.96]
   - - [128, 1024, 1, 128]
-    - [167, 1013.22]
+    - [396, 1013.22]
   - - [2944, 4, 1, 128]
-    - [252, 77.6374]
+    - [481, 77.6374]
   - - [1024, 704, 1, 1280]
-    - [240, 7365.58]
+    - [469, 7365.58]
   - - [128, 5888, 1, 256]
-    - [240, 6990.61]
+    - [469, 6990.61]
   - - [1024, 5056, 1, 1280]
-    - [245, 9422.0]
+    - [474, 9422.0]
   - - [4288, 1024, 1, 256]
-    - [247, 6270.03]
+    - [476, 6270.03]
   - - [2944, 2368, 1, 128]
-    - [232, 4918.18]
+    - [461, 4918.18]
   - - [704, 704, 1, 3328]
-    - [240, 7963.65]
+    - [469, 7963.65]
   - - [704, 1408, 1, 1280]
-    - [240, 8347.32]
+    - [469, 8347.32]
   - - [5888, 448, 1, 1280]
-    - [246, 5217.05]
+    - [475, 5217.05]
   - - [3584, 256, 1, 3328]
-    - [240, 7802.25]
+    - [469, 7802.25]
   - - [704, 5888, 1, 3328]
-    - [246, 8381.46]
+    - [475, 8381.46]
   - - [704, 1856, 1, 128]
-    - [232, 3598.38]
+    - [461, 3598.38]
   - - [128, 3584, 1, 3328]
-    - [202, 7161.11]
+    - [431, 7161.11]
   - - [6784, 2368, 1, 1280]
-    - [251, 9464.41]
+    - [480, 9464.41]
   - - [4, 4288, 1, 128]
-    - [252, 132.68]
+    - [481, 132.68]
   - - [128, 704, 1, 1280]
-    - [214, 4463.85]
+    - [443, 4463.85]
   - - [3584, 2944, 1, 256]
-    - [251, 8201.24]
+    - [480, 8201.24]
   - - [1856, 128, 1, 3328]
-    - [193, 6575.5]
+    - [422, 6575.5]
   - - [4, 64, 1, 1280]
-    - [209, 43.6745]
+    - [438, 43.6745]
   - - [4, 5056, 1, 3328]
-    - [189, 675.315]
+    - [418, 675.315]
   - - [128, 2944, 1, 1280]
-    - [193, 5916.99]
+    - [422, 5916.99]
   - - [2368, 1024, 1, 3328]
-    - [246, 8646.84]
+    - [475, 8646.84]
   - - [128, 256, 1, 3328]
-    - [227, 4130.85]
+    - [456, 4130.85]
   - - [1408, 5056, 1, 3328]
-    - [245, 9529.75]
+    - [474, 9529.75]
   - - [1856, 1856, 1, 3328]
-    - [244, 8114.99]
+    - [473, 8114.99]
   - - [3584, 128, 1, 256]
-    - [240, 5603.18]
+    - [469, 5603.18]
   - - [448, 1408, 1, 3328]
-    - [240, 7073.03]
+    - [469, 7073.03]
   - - [2368, 2368, 1, 256]
-    - [247, 7648.76]
+    - [476, 7648.76]
   - - [4288, 4288, 1, 1280]
-    - [242, 9244.11]
+    - [471, 9244.11]
   - - [64, 448, 1, 1280]
-    - [213, 2885.33]
+    - [442, 2885.33]
   - - [1408, 4288, 1, 256]
-    - [240, 8080.41]
+    - [469, 8080.41]
   - - [448, 4, 1, 256]
-    - [258, 84.4294]
+    - [487, 84.4294]
   - - [5888, 448, 1, 128]
-    - [235, 3540.8]
+    - [464, 3540.8]
   - - [448, 4, 1, 1280]
-    - [209, 322.257]
+    - [438, 322.257]
   - - [704, 6784, 1, 3328]
-    - [239, 8613.58]
+    - [468, 8613.58]
   - - [5888, 5888, 1, 1280]
-    - [246, 9502.05]
+    - [475, 9502.05]
   - - [5056, 1024, 1, 1280]
-    - [249, 9110.11]
+    - [478, 9110.11]
   - - [448, 5888, 1, 3328]
-    - [240, 8586.43]
+    - [469, 8586.43]
   - - [128, 4, 1, 128]
-    - [252, 4.27959]
+    - [481, 4.27959]
   - - [1024, 2944, 1, 1280]
-    - [248, 7096.53]
+    - [477, 7096.53]
   - - [5056, 5888, 1, 1280]
-    - [239, 9693.51]
+    - [468, 9693.51]
   - - [4288, 5888, 1, 128]
-    - [232, 5406.46]
+    - [461, 5406.46]
   - - [256, 3584, 1, 256]
-    - [240, 6908.37]
+    - [469, 6908.37]
   - - [1408, 3584, 1, 128]
-    - [232, 4645.69]
+    - [461, 4645.69]
   - - [256, 2944, 1, 3328]
-    - [243, 6284.4]
+    - [472, 6284.4]
   - - [448, 3584, 1, 128]
-    - [235, 3675.37]
+    - [464, 3675.37]
   - - [5888, 2944, 1, 1280]
-    - [245, 9628.9]
+    - [474, 9628.9]
   - - [4, 6784, 1, 1280]
-    - [189, 688.176]
+    - [418, 688.176]
   - - [2368, 5888, 1, 128]
-    - [232, 5273.96]
+    - [461, 5273.96]
   - - [64, 2944, 1, 128]
-    - [176, 1316.54]
+    - [405, 1316.54]
   - - [3584, 5888, 1, 256]
-    - [246, 9239.14]
+    - [475, 9239.14]
   - - [2368, 704, 1, 128]
-    - [235, 3537.65]
+    - [464, 3537.65]
   - - [3584, 2944, 1, 1280]
-    - [240, 9324.62]
+    - [469, 9324.62]
   - - [3584, 2368, 1, 128]
-    - [232, 4766.34]
+    - [461, 4766.34]
   - - [5056, 704, 1, 128]
-    - [232, 4487.95]
+    - [461, 4487.95]
   - - [448, 2368, 1, 128]
-    - [235, 2877.02]
+    - [464, 2877.02]
   - - [5056, 1408, 1, 3328]
-    - [251, 9515.97]
+    - [480, 9515.97]
   - - [1408, 704, 1, 256]
-    - [243, 6836.18]
+    - [472, 6836.18]
   - - [6784, 1024, 1, 3328]
-    - [238, 9309.65]
+    - [467, 9309.65]
   - - [6784, 2944, 1, 3328]
-    - [239, 9536.58]
+    - [468, 9536.58]
   - - [2944, 5056, 1, 3328]
-    - [240, 9526.25]
+    - [469, 9526.25]
   - - [1856, 1856, 1, 256]
-    - [240, 5239.24]
+    - [469, 5239.24]
   - - [1024, 5888, 1, 128]
-    - [232, 4006.28]
+    - [461, 4006.28]
   - - [2048, 7133, 1, 2048]
-    - [238, 9828.07]
+    - [467, 9828.07]
   - - [256, 4, 1, 128]
-    - [253, 4.38908]
+    - [482, 4.38908]
   - - [4288, 5888, 1, 1280]
-    - [248, 9202.83]
+    - [477, 9202.83]
   - - [4288, 4288, 1, 256]
-    - [243, 5521.18]
+    - [472, 5521.18]
   - - [448, 2944, 1, 3328]
-    - [246, 7724.53]
+    - [475, 7724.53]
   - - [4288, 1856, 1, 1280]
-    - [246, 8826.34]
+    - [475, 8826.34]
   - - [1856, 2944, 1, 3328]
-    - [240, 9194.9]
+    - [469, 9194.9]
   - - [256, 6784, 1, 3328]
-    - [240, 8740.33]
+    - [469, 8740.33]
   - - [64, 5888, 1, 256]
-    - [240, 4766.35]
+    - [469, 4766.35]
   - - [256, 5056, 1, 128]
-    - [232, 2937.6]
+    - [461, 2937.6]
   - - [5056, 1024, 1, 256]
-    - [251, 5467.91]
+    - [480, 5467.91]
   - - [704, 64, 1, 3328]
-    - [228, 4818.43]
+    - [457, 4818.43]
   - - [5056, 1856, 1, 3328]
-    - [245, 8861.69]
+    - [474, 8861.69]
   - - [4, 2944, 1, 3328]
-    - [195, 662.102]
+    - [424, 662.102]
   - - [4, 5056, 1, 256]
-    - [255, 494.121]
+    - [484, 494.121]
   - - [1856, 1408, 1, 256]
-    - [240, 8674.78]
+    - [469, 8674.78]
   - - [3584, 4, 1, 128]
-    - [252, 108.296]
+    - [481, 108.296]
   - - [448, 448, 1, 3328]
-    - [214, 6457.4]
+    - [443, 6457.4]
   - - [6784, 128, 1, 3328]
-    - [207, 7256.71]
+    - [436, 7256.71]
   - - [4288, 1408, 1, 128]
-    - [235, 4791.76]
+    - [464, 4791.76]
   - - [4288, 5056, 1, 256]
-    - [240, 8560.84]
+    - [469, 8560.84]
   - - [1408, 128, 1, 1280]
-    - [222, 5085.79]
+    - [451, 5085.79]
   - - [5056, 256, 1, 3328]
-    - [243, 7284.23]
+    - [472, 7284.23]
   - - [704, 704, 1, 256]
-    - [240, 6171.19]
+    - [469, 6171.19]
   - - [1024, 5888, 1, 1280]
-    - [245, 8852.89]
+    - [474, 8852.89]
   - - [6784, 2368, 1, 128]
-    - [233, 4729.3]
+    - [462, 4729.3]
   - - [4, 5056, 1, 1280]
-    - [206, 670.046]
+    - [435, 670.046]
   - - [64, 128, 1, 256]
-    - [208, 369.317]
+    - [437, 369.317]
   - - [128, 1856, 1, 1280]
-    - [202, 5549.13]
+    - [431, 5549.13]
   - - [5056, 3584, 1, 256]
-    - [246, 7115.84]
+    - [475, 7115.84]
   - - [1856, 1024, 1, 1280]
-    - [238, 8196.5]
+    - [467, 8196.5]
   - - [6784, 4288, 1, 1280]
-    - [239, 9509.66]
+    - [468, 9509.66]
   - - [1856, 1856, 1, 1280]
-    - [241, 5791.99]
+    - [470, 5791.99]
   - - [6784, 2944, 1, 128]
-    - [232, 5317.12]
+    - [461, 5317.12]
   - - [1408, 5056, 1, 1280]
-    - [241, 8980.73]
+    - [470, 8980.73]
   - - [4, 2368, 1, 3328]
-    - [206, 592.634]
+    - [435, 592.634]
   - - [5888, 1856, 1, 128]
-    - [231, 4600.2]
+    - [460, 4600.2]
   - - [448, 704, 1, 1280]
-    - [240, 2286.58]
+    - [469, 2286.58]
   - - [2368, 1024, 1, 128]
-    - [235, 3911.12]
+    - [464, 3911.12]
   - - [1024, 448, 1, 3328]
-    - [240, 7295.24]
+    - [469, 7295.24]
   - - [1856, 704, 1, 1280]
-    - [240, 8881.12]
+    - [469, 8881.12]
   - - [5056, 3584, 1, 128]
-    - [232, 4911.68]
+    - [461, 4911.68]
   - - [5888, 5888, 1, 3328]
-    - [248, 9243.9]
+    - [477, 9243.9]
   - - [6784, 1024, 1, 256]
-    - [251, 5475.41]
+    - [480, 5475.41]
   - - [2944, 2368, 1, 256]
-    - [246, 5670.77]
+    - [475, 5670.77]
   - - [256, 448, 1, 256]
-    - [197, 2293.86]
+    - [426, 2293.86]
   - - [5056, 5888, 1, 3328]
-    - [241, 7848.07]
+    - [470, 7848.07]
   - - [1856, 1024, 1, 256]
-    - [246, 7517.7]
+    - [475, 7517.7]
   - - [448, 1408, 1, 1280]
-    - [240, 6917.54]
+    - [469, 6917.54]
   - - [3584, 448, 1, 1280]
-    - [246, 7980.86]
+    - [475, 7980.86]
   - - [1024, 1024, 1, 1280]
-    - [243, 8384.52]
+    - [472, 8384.52]
   - - [448, 5888, 1, 256]
-    - [240, 7365.75]
+    - [469, 7365.75]
   - - [704, 64, 1, 128]
-    - [185, 358.755]
+    - [414, 358.755]
   - - [1408, 6784, 1, 3328]
-    - [246, 9094.19]
+    - [475, 9094.19]
   - - [448, 1024, 1, 128]
-    - [235, 1773.05]
+    - [464, 1773.05]
   - - [4288, 704, 1, 128]
-    - [232, 4355.38]
+    - [461, 4355.38]
   - - [128, 1856, 1, 128]
-    - [171, 1610.73]
+    - [400, 1610.73]
   - - [448, 2368, 1, 3328]
-    - [246, 7366.47]
+    - [475, 7366.47]
   - - [5056, 64, 1, 128]
-    - [171, 2157.33]
+    - [400, 2157.33]
   - - [5056, 2944, 1, 256]
-    - [240, 9123.16]
+    - [469, 9123.16]
   - - [6784, 5888, 1, 128]
-    - [231, 5285.9]
+    - [460, 5285.9]
   - - [704, 1024, 1, 256]
-    - [246, 6667.35]
+    - [475, 6667.35]
   - - [1024, 4, 1, 256]
-    - [195, 187.346]
+    - [424, 187.346]
   - - [2368, 1856, 1, 256]
-    - [246, 6777.94]
+    - [475, 6777.94]
   - - [128, 6784, 1, 1280]
-    - [243, 7052.71]
+    - [472, 7052.71]
   - - [1408, 3584, 1, 3328]
-    - [247, 9038.05]
+    - [476, 9038.05]
   - - [2368, 6784, 1, 256]
-    - [240, 9181.45]
+    - [469, 9181.45]
   - - [5056, 1408, 1, 1280]
-    - [245, 9422.0]
+    - [474, 9422.0]
   - - [256, 256, 1, 128]
-    - [177, 543.404]
+    - [406, 543.404]
   - - [5056, 4288, 1, 128]
-    - [235, 5340.02]
+    - [464, 5340.02]
   - - [1408, 1856, 1, 128]
-    - [232, 4270.99]
+    - [461, 4270.99]
   - - [1408, 5888, 1, 3328]
-    - [244, 9034.89]
+    - [473, 9034.89]
   - - [1856, 256, 1, 256]
-    - [246, 5847.93]
+    - [475, 5847.93]
   - - [6784, 6784, 1, 256]
-    - [239, 9624.48]
+    - [468, 9624.48]
   - - [64, 256, 1, 128]
-    - [178, 146.549]
+    - [407, 146.549]
   - - [4288, 2368, 1, 128]
-    - [231, 3897.04]
+    - [460, 3897.04]
   - - [1856, 4288, 1, 128]
-    - [232, 4337.17]
+    - [461, 4337.17]
   - - [256, 4288, 1, 1280]
-    - [240, 7499.52]
+    - [469, 7499.52]
   - - [2368, 2944, 1, 256]
-    - [245, 7703.28]
+    - [474, 7703.28]
   - - [4, 1856, 1, 256]
-    - [258, 264.064]
+    - [487, 264.064]
   - - [3584, 1856, 1, 1280]
-    - [240, 9224.43]
+    - [469, 9224.43]
   - - [6784, 6784, 1, 128]
-    - [232, 5476.13]
+    - [461, 5476.13]
   - - [256, 1856, 1, 128]
-    - [235, 1858.82]
+    - [464, 1858.82]
   - - [704, 64, 1, 1280]
-    - [213, 3368.77]
+    - [442, 3368.77]
   - - [5888, 5056, 1, 256]
-    - [246, 5859.91]
+    - [475, 5859.91]
   - - [3584, 448, 1, 256]
-    - [246, 7298.43]
+    - [475, 7298.43]
   - - [448, 4288, 1, 128]
-    - [232, 3813.55]
+    - [461, 3813.55]
   - - [2944, 4288, 1, 3328]
-    - [241, 9149.73]
+    - [470, 9149.73]
   - - [256, 6784, 1, 256]
-    - [240, 7984.95]
+    - [469, 7984.95]
   - - [1408, 4288, 1, 128]
-    - [235, 4728.44]
+    - [464, 4728.44]
   - - [2944, 704, 1, 3328]
-    - [246, 7149.86]
+    - [475, 7149.86]
   - - [128, 448, 1, 256]
-    - [212, 1699.18]
+    - [441, 1699.18]
   - - [512, 32, 1, 512]
-    - [212, 1127.6]
+    - [441, 1127.6]
   - - [3584, 3584, 1, 256]
-    - [241, 8558.11]
+    - [470, 8558.11]
   - - [448, 1408, 1, 128]
-    - [232, 2504.45]
+    - [461, 2504.45]
   - - [128, 256, 1, 1280]
-    - [213, 3216.59]
+    - [442, 3216.59]
   - - [3584, 5056, 1, 256]
-    - [238, 5674.45]
+    - [467, 5674.45]
   - - [6784, 128, 1, 256]
-    - [240, 6216.49]
+    - [469, 6216.49]
   - - [4288, 4, 1, 256]
-    - [256, 435.706]
+    - [485, 435.706]
   - - [64, 1408, 1, 3328]
-    - [214, 6186.01]
+    - [443, 6186.01]
   - - [704, 448, 1, 256]
-    - [246, 4005.08]
+    - [475, 4005.08]
   - - [2944, 2368, 1, 1280]
-    - [247, 8542.8]
+    - [476, 8542.8]
   - - [448, 64, 1, 3328]
-    - [227, 3835.33]
+    - [456, 3835.33]
   - - [1408, 3584, 1, 256]
-    - [240, 8714.63]
+    - [469, 8714.63]
   - - [3584, 4, 1, 3328]
-    - [195, 689.554]
+    - [424, 689.554]
   - - [6784, 3584, 1, 256]
-    - [245, 9271.34]
+    - [474, 9271.34]
   - - [256, 128, 1, 128]
-    - [178, 283.499]
+    - [407, 283.499]
   - - [704, 1408, 1, 128]
-    - [232, 3210.57]
+    - [461, 3210.57]
   - - [4, 2368, 1, 256]
-    - [258, 360.938]
+    - [487, 360.938]
   - - [2944, 448, 1, 128]
-    - [232, 3344.41]
+    - [461, 3344.41]
   - - [128, 1408, 1, 256]
-    - [240, 3186.38]
+    - [469, 3186.38]
   - - [4, 2944, 1, 256]
-    - [256, 384.622]
+    - [485, 384.622]
   - - [64, 128, 1, 3328]
-    - [209, 2103.72]
+    - [438, 2103.72]
   - - [5056, 2368, 1, 128]
-    - [232, 5219.76]
+    - [461, 5219.76]
   - - [2944, 2944, 1, 3328]
-    - [249, 9174.69]
+    - [478, 9174.69]
   - - [5056, 6784, 1, 256]
-    - [251, 8992.36]
+    - [480, 8992.36]
   - - [1856, 3584, 1, 128]
-    - [232, 4957.27]
+    - [461, 4957.27]
   - - [128, 2944, 1, 128]
-    - [170, 2241.48]
+    - [399, 2241.48]
   - - [1024, 704, 1, 3328]
-    - [250, 6545.11]
+    - [479, 6545.11]
   - - [6784, 448, 1, 256]
-    - [246, 5379.25]
+    - [475, 5379.25]
   - - [3584, 6784, 1, 128]
-    - [232, 5102.01]
+    - [461, 5102.01]
   - - [128, 4288, 1, 256]
-    - [240, 5211.86]
+    - [469, 5211.86]
   - - [704, 448, 1, 3328]
-    - [241, 4504.15]
+    - [470, 4504.15]
   - - [1024, 1024, 1, 3328]
-    - [243, 8009.77]
+    - [472, 8009.77]
   - - [128, 128, 1, 3328]
-    - [226, 3185.03]
+    - [455, 3185.03]
   - - [5056, 1856, 1, 256]
-    - [240, 9138.43]
+    - [469, 9138.43]
   - - [256, 128, 1, 256]
-    - [212, 1205.36]
+    - [441, 1205.36]
   - - [1024, 1856, 1, 256]
-    - [251, 6375.09]
+    - [480, 6375.09]
   - - [4288, 64, 1, 128]
-    - [168, 1695.43]
+    - [397, 1695.43]
   - - [256, 448, 1, 3328]
-    - [215, 5659.67]
+    - [444, 5659.67]
   - - [1408, 6784, 1, 1280]
-    - [240, 9349.2]
+    - [469, 9349.2]
   - - [3584, 3584, 1, 1280]
-    - [245, 9302.19]
+    - [474, 9302.19]
   - - [64, 2368, 1, 1280]
-    - [214, 4433.07]
+    - [443, 4433.07]
   - - [448, 2368, 1, 1280]
-    - [240, 7250.77]
+    - [469, 7250.77]
   - - [5888, 5888, 1, 128]
-    - [232, 4616.03]
+    - [461, 4616.03]
   - - [64, 6784, 1, 3328]
-    - [246, 6987.23]
+    - [475, 6987.23]
   - - [2944, 256, 1, 1280]
-    - [249, 6127.45]
+    - [478, 6127.45]
   - - [5056, 5888, 1, 128]
-    - [231, 5106.39]
+    - [460, 5106.39]
   - - [256, 2368, 1, 128]
-    - [232, 2141.23]
+    - [461, 2141.23]
   - - [5056, 2368, 1, 3328]
-    - [243, 9041.75]
+    - [472, 9041.75]
   - - [2944, 4288, 1, 256]
-    - [251, 8691.22]
+    - [480, 8691.22]
   - - [1408, 3584, 1, 1280]
-    - [240, 9070.0]
+    - [469, 9070.0]
   - - [2368, 64, 1, 256]
-    - [212, 2412.87]
+    - [441, 2412.87]
   - - [64, 448, 1, 3328]
-    - [227, 3739.14]
+    - [456, 3739.14]
   - - [256, 256, 1, 3328]
-    - [214, 5304.18]
+    - [443, 5304.18]
   - - [5888, 4, 1, 128]
-    - [253, 105.655]
+    - [482, 105.655]
   - - [1856, 704, 1, 256]
-    - [240, 8025.43]
+    - [469, 8025.43]
   - - [4, 4288, 1, 1280]
-    - [187, 579.07]
+    - [416, 579.07]
   - - [1408, 448, 1, 3328]
-    - [248, 5714.51]
+    - [477, 5714.51]
   - - [1024, 4, 1, 3328]
-    - [206, 608.649]
+    - [435, 608.649]
   - - [2368, 256, 1, 256]
-    - [246, 5173.08]
+    - [475, 5173.08]
   - - [2368, 6784, 1, 3328]
-    - [246, 9456.61]
+    - [475, 9456.61]
   - - [1856, 1408, 1, 1280]
-    - [251, 7805.19]
+    - [480, 7805.19]
   - - [1856, 448, 1, 1280]
-    - [238, 6185.04]
+    - [467, 6185.04]
   - - [6784, 704, 1, 128]
-    - [232, 4597.87]
+    - [461, 4597.87]
   - - [4, 4, 1, 256]
-    - [209, 0.791892]
+    - [438, 0.791892]
   - - [128, 5888, 1, 128]
-    - [170, 2691.76]
+    - [399, 2691.76]
   - - [1408, 5888, 1, 256]
-    - [245, 7164.27]
+    - [474, 7164.27]
   - - [704, 2944, 1, 1280]
-    - [247, 8139.81]
+    - [476, 8139.81]
   - - [1856, 2368, 1, 128]
-    - [235, 4623.38]
+    - [464, 4623.38]
   - - [4096, 7133, 1, 4096]
-    - [239, 9940.07]
+    - [468, 9940.07]
   - - [256, 64, 1, 256]
-    - [203, 689.953]
+    - [432, 689.953]
   - - [1024, 1024, 1, 256]
-    - [246, 7216.11]
+    - [475, 7216.11]
   - - [704, 1856, 1, 256]
-    - [246, 6364.17]
+    - [475, 6364.17]
   - - [128, 4288, 1, 3328]
-    - [202, 7200.59]
+    - [431, 7200.59]
   - - [3584, 704, 1, 1280]
-    - [249, 7972.08]
+    - [478, 7972.08]
   - - [256, 128, 1, 1280]
-    - [200, 2702.62]
+    - [429, 2702.62]
   - - [2368, 4, 1, 256]
-    - [195, 326.018]
+    - [424, 326.018]
   - - [256, 2368, 1, 1280]
-    - [240, 6638.93]
+    - [469, 6638.93]
   - - [2944, 6784, 1, 128]
-    - [231, 5233.53]
+    - [460, 5233.53]
   - - [3584, 448, 1, 3328]
-    - [240, 8094.4]
+    - [469, 8094.4]
   - - [1408, 4, 1, 256]
-    - [258, 243.646]
+    - [487, 243.646]
   - - [704, 2368, 1, 3328]
-    - [240, 8403.11]
+    - [469, 8403.11]
   - - [2944, 448, 1, 256]
-    - [240, 7022.59]
+    - [469, 7022.59]
   - - [1856, 448, 1, 128]
-    - [235, 2842.79]
+    - [464, 2842.79]
   - - [2368, 128, 1, 1280]
-    - [222, 5685.52]
+    - [451, 5685.52]
   - - [256, 5888, 1, 128]
-    - [237, 2178.71]
+    - [466, 2178.71]
   - - [64, 6784, 1, 256]
-    - [240, 5385.23]
+    - [469, 5385.23]
   - - [64, 5056, 1, 1280]
-    - [214, 5603.29]
+    - [443, 5603.29]
   - - [4, 6784, 1, 128]
-    - [252, 180.256]
+    - [481, 180.256]
   - - [2944, 2944, 1, 1280]
-    - [249, 9129.39]
+    - [478, 9129.39]
   - - [5888, 2368, 1, 256]
-    - [251, 6961.69]
+    - [480, 6961.69]
   - - [4, 3584, 1, 1280]
-    - [195, 646.23]
+    - [424, 646.23]
   - - [1408, 128, 1, 128]
-    - [181, 1172.29]
+    - [410, 1172.29]
   - - [6784, 704, 1, 3328]
-    - [246, 9084.62]
+    - [475, 9084.62]
   - - [128, 64, 1, 1280]
-    - [225, 1260.41]
+    - [454, 1260.41]
   - - [2368, 256, 1, 1280]
-    - [246, 6643.48]
+    - [475, 6643.48]
   - - [4, 448, 1, 3328]
-    - [209, 433.514]
+    - [438, 433.514]
   - - [5888, 4288, 1, 128]
-    - [233, 4753.17]
+    - [462, 4753.17]
   - - [4, 5888, 1, 256]
-    - [195, 471.14]
+    - [424, 471.14]
   - - [1408, 2944, 1, 3328]
-    - [249, 9207.1]
+    - [478, 9207.1]
   - - [3584, 704, 1, 128]
-    - [235, 3762.46]
+    - [464, 3762.46]
   - - [64, 1024, 1, 256]
-    - [213, 1807.99]
+    - [442, 1807.99]
   - - [5056, 5056, 1, 128]
-    - [236, 4830.16]
+    - [465, 4830.16]
   - - [2368, 448, 1, 1280]
-    - [240, 7263.16]
+    - [469, 7263.16]
   - - [128, 3584, 1, 256]
-    - [243, 4369.17]
+    - [472, 4369.17]
   - - [704, 448, 1, 1280]
-    - [241, 4205.33]
+    - [470, 4205.33]
   - - [448, 5056, 1, 128]
-    - [232, 3855.57]
+    - [461, 3855.57]
   - - [256, 4, 1, 1280]
-    - [263, 157.638]
+    - [492, 157.638]
   - - [128, 5056, 1, 256]
-    - [246, 6109.06]
+    - [475, 6109.06]
   - - [1408, 5056, 1, 128]
-    - [235, 4836.68]
+    - [464, 4836.68]
   - - [2944, 3584, 1, 128]
-    - [235, 4532.19]
+    - [464, 4532.19]
   - - [3584, 2368, 1, 256]
-    - [240, 8951.34]
+    - [469, 8951.34]
   - - [5888, 5056, 1, 1280]
-    - [251, 9276.49]
+    - [480, 9276.49]
   - - [2368, 5056, 1, 128]
-    - [235, 5167.66]
+    - [464, 5167.66]
   - - [64, 704, 1, 256]
-    - [195, 1501.97]
+    - [424, 1501.97]
   - - [4288, 256, 1, 1280]
-    - [240, 7496.3]
+    - [469, 7496.3]
   - - [3584, 3584, 1, 3328]
-    - [241, 9301.77]
+    - [470, 9301.77]
   - - [1024, 256, 1, 128]
-    - [232, 1508.84]
+    - [461, 1508.84]
   - - [4, 704, 1, 128]
-    - [253, 12.1469]
+    - [482, 12.1469]
   - - [5888, 6784, 1, 256]
-    - [239, 9370.47]
+    - [468, 9370.47]
   - - [4288, 2944, 1, 3328]
-    - [243, 9149.09]
+    - [472, 9149.09]
   - - [2944, 64, 1, 128]
-    - [179, 1456.46]
+    - [408, 1456.46]
   - - [1856, 64, 1, 256]
-    - [205, 2210.03]
+    - [434, 2210.03]
   - - [4288, 128, 1, 3328]
-    - [199, 6471.95]
+    - [428, 6471.95]
   - - [4288, 704, 1, 1280]
-    - [246, 8934.61]
+    - [475, 8934.61]
   - - [256, 5056, 1, 1280]
-    - [240, 8439.13]
+    - [469, 8439.13]
   - - [1408, 256, 1, 128]
-    - [235, 1769.17]
+    - [464, 1769.17]
   - - [2944, 5888, 1, 3328]
-    - [240, 9448.04]
+    - [469, 9448.04]
   - - [6784, 5888, 1, 1280]
-    - [251, 9372.25]
+    - [480, 9372.25]
   - - [704, 128, 1, 256]
-    - [197, 2059.8]
+    - [426, 2059.8]
   - - [5888, 4288, 1, 1280]
-    - [243, 9244.32]
+    - [472, 9244.32]
   - - [448, 256, 1, 1280]
-    - [222, 4741.72]
+    - [451, 4741.72]
   - - [5888, 3584, 1, 128]
-    - [231, 4980.06]
+    - [460, 4980.06]
   - - [1856, 1856, 1, 128]
-    - [235, 4363.98]
+    - [464, 4363.98]
   - - [5056, 4, 1, 1280]
-    - [255, 629.641]
+    - [484, 629.641]
   - - [256, 1408, 1, 1280]
-    - [246, 5588.44]
+    - [475, 5588.44]
   - - [512, 16, 1, 512]
-    - [206, 689.953]
+    - [435, 689.953]
   - - [704, 3584, 1, 128]
-    - [235, 4069.67]
+    - [464, 4069.67]
   - - [5888, 448, 1, 3328]
-    - [251, 7925.94]
+    - [480, 7925.94]
   - - [2368, 4288, 1, 1280]
-    - [250, 8492.7]
+    - [479, 8492.7]
   - - [4288, 2944, 1, 128]
-    - [232, 5238.21]
+    - [461, 5238.21]
   - - [1024, 6784, 1, 3328]
-    - [246, 8578.18]
+    - [475, 8578.18]
   - - [128, 2368, 1, 256]
-    - [246, 3788.9]
+    - [475, 3788.9]
   - - [6784, 64, 1, 3328]
-    - [240, 7003.46]
+    - [469, 7003.46]
   - - [5056, 2944, 1, 3328]
-    - [243, 8575.45]
+    - [472, 8575.45]
   - - [448, 128, 1, 256]
-    - [195, 1715.06]
+    - [424, 1715.06]
   - - [2944, 3584, 1, 256]
-    - [240, 8994.26]
+    - [469, 8994.26]
   - - [1408, 1408, 1, 3328]
-    - [238, 8757.7]
+    - [467, 8757.7]
   - - [1856, 128, 1, 1280]
-    - [240, 5598.17]
+    - [469, 5598.17]
   - - [3584, 3584, 1, 128]
-    - [231, 4787.44]
+    - [460, 4787.44]
   - - [64, 3584, 1, 256]
-    - [246, 3546.01]
+    - [475, 3546.01]
   - - [1408, 4, 1, 3328]
-    - [190, 640.24]
+    - [419, 640.24]
   - - [128, 2944, 1, 3328]
-    - [214, 7204.24]
+    - [443, 7204.24]
   - - [3584, 704, 1, 256]
-    - [240, 6239.69]
+    - [469, 6239.69]
   - - [2944, 448, 1, 3328]
-    - [246, 7726.71]
+    - [475, 7726.71]
   - - [3584, 1408, 1, 3328]
-    - [238, 9358.78]
+    - [467, 9358.78]
   - - [704, 3584, 1, 1280]
-    - [246, 8005.28]
+    - [475, 8005.28]
   - - [2944, 6784, 1, 1280]
-    - [238, 9487.73]
+    - [467, 9487.73]
   - - [1856, 6784, 1, 256]
-    - [240, 5684.56]
+    - [469, 5684.56]
   - - [4288, 448, 1, 3328]
-    - [246, 8410.38]
+    - [475, 8410.38]
   - - [6784, 4288, 1, 128]
-    - [236, 4785.58]
+    - [465, 4785.58]
   - - [6784, 704, 1, 1280]
-    - [240, 5579.05]
+    - [469, 5579.05]
   - - [256, 4288, 1, 256]
-    - [240, 6781.43]
+    - [469, 6781.43]
   - - [3584, 64, 1, 128]
-    - [179, 1474.0]
+    - [408, 1474.0]
   - - [5888, 1024, 1, 3328]
-    - [238, 8639.49]
+    - [467, 8639.49]
   - - [448, 64, 1, 128]
-    - [170, 259.282]
+    - [399, 259.282]
   - - [704, 6784, 1, 1280]
-    - [246, 9027.25]
+    - [475, 9027.25]
   - - [5888, 128, 1, 256]
-    - [246, 6812.88]
+    - [475, 6812.88]
   - - [2368, 448, 1, 3328]
-    - [246, 7356.63]
+    - [475, 7356.63]
   - - [1856, 5056, 1, 3328]
-    - [245, 8871.56]
+    - [474, 8871.56]
   - - [4, 6784, 1, 256]
-    - [254, 469.479]
+    - [483, 469.479]
   - - [1024, 3584, 1, 128]
-    - [232, 3428.02]
+    - [461, 3428.02]
   - - [1024, 1408, 1, 128]
-    - [235, 2935.05]
+    - [464, 2935.05]
   - - [2368, 2944, 1, 128]
-    - [235, 4888.02]
+    - [464, 4888.02]
   - - [5056, 64, 1, 256]
-    - [204, 3186.16]
+    - [433, 3186.16]
   - - [4, 448, 1, 1280]
-    - [209, 273.167]
+    - [438, 273.167]
   - - [5056, 2944, 1, 128]
-    - [236, 4752.79]
+    - [465, 4752.79]
   - - [5888, 5056, 1, 3328]
-    - [250, 9124.77]
+    - [479, 9124.77]
   - - [1024, 704, 1, 128]
-    - [235, 2302.36]
+    - [464, 2302.36]
   - - [1408, 2368, 1, 128]
-    - [235, 3826.95]
+    - [464, 3826.95]
   - - [5888, 2368, 1, 128]
-    - [232, 4912.77]
+    - [461, 4912.77]
   - - [128, 5056, 1, 3328]
-    - [222, 7583.8]
+    - [451, 7583.8]
   - - [3584, 6784, 1, 1280]
-    - [249, 9313.5]
+    - [478, 9313.5]
   - - [3072, 7435, 1, 1024]
-    - [243, 9322.07]
+    - [472, 9322.07]
   - - [1856, 5888, 1, 256]
-    - [240, 5778.34]
+    - [469, 5778.34]
   - - [256, 256, 1, 256]
-    - [192, 1576.91]
+    - [421, 1576.91]
   - - [256, 64, 1, 128]
-    - [178, 173.705]
+    - [407, 173.705]
   - - [4288, 4288, 1, 3328]
-    - [245, 8416.27]
+    - [474, 8416.27]
   - - [4288, 1408, 1, 1280]
-    - [251, 9301.97]
+    - [480, 9301.97]
   - - [3584, 5056, 1, 128]
-    - [237, 4344.94]
+    - [466, 4344.94]
   - - [4, 1024, 1, 3328]
-    - [206, 615.239]
+    - [435, 615.239]
   - - [4288, 2368, 1, 256]
-    - [240, 9142.67]
+    - [469, 9142.67]
   - - [2944, 5056, 1, 1280]
-    - [240, 9399.69]
+    - [469, 9399.69]
   - - [448, 6784, 1, 256]
-    - [239, 5710.93]
+    - [468, 5710.93]
   - - [64, 1024, 1, 3328]
-    - [222, 4975.1]
+    - [451, 4975.1]
   - - [6784, 2368, 1, 3328]
-    - [249, 9207.63]
+    - [478, 9207.63]
   - - [256, 1024, 1, 1280]
-    - [246, 5983.42]
+    - [475, 5983.42]
   - - [704, 4, 1, 128]
-    - [252, 15.1187]
+    - [481, 15.1187]
   - - [256, 4, 1, 256]
-    - [209, 52.9516]
+    - [438, 52.9516]
   - - [4288, 128, 1, 256]
-    - [240, 5242.98]
+    - [469, 5242.98]
   - - [4288, 1856, 1, 3328]
-    - [251, 9354.06]
+    - [480, 9354.06]
   - - [3584, 448, 1, 128]
-    - [232, 3353.9]
+    - [461, 3353.9]
   - - [256, 4, 1, 3328]
-    - [263, 313.324]
+    - [492, 313.324]
   - - [4, 1408, 1, 1280]
-    - [206, 509.207]
+    - [435, 509.207]
   - - [3584, 64, 1, 1280]
-    - [194, 5198.42]
+    - [423, 5198.42]
   - - [1408, 448, 1, 128]
-    - [232, 2628.37]
+    - [461, 2628.37]
   - - [3584, 1024, 1, 1280]
-    - [246, 8535.01]
+    - [475, 8535.01]
   - - [1856, 5056, 1, 256]
-    - [238, 8184.49]
+    - [467, 8184.49]
   - - [4, 3584, 1, 256]
-    - [256, 395.576]
+    - [485, 395.576]
   - - [1024, 4288, 1, 256]
-    - [241, 5966.52]
+    - [470, 5966.52]
   - - [5888, 3584, 1, 3328]
-    - [244, 9189.43]
+    - [473, 9189.43]
   - - [4, 256, 1, 256]
-    - [260, 41.5785]
+    - [489, 41.5785]
   - - [5056, 3584, 1, 3328]
-    - [245, 9431.92]
+    - [474, 9431.92]
   - - [128, 5888, 1, 1280]
-    - [240, 8192.1]
+    - [469, 8192.1]
   - - [704, 448, 1, 128]
-    - [232, 1510.96]
+    - [461, 1510.96]
   - - [2368, 1408, 1, 1280]
-    - [240, 8415.65]
+    - [469, 8415.65]
   - - [5056, 2944, 1, 1280]
-    - [251, 9294.77]
+    - [480, 9294.77]
   - - [4, 4, 1, 128]
-    - [253, 0.1356549]
+    - [482, 0.1356549]
   - - [3584, 256, 1, 256]
-    - [240, 6749.55]
+    - [469, 6749.55]
   - - [128, 1856, 1, 3328]
-    - [193, 6797.09]
+    - [422, 6797.09]
   - - [1024, 6784, 1, 256]
-    - [246, 8783.09]
+    - [475, 8783.09]
   - - [4, 128, 1, 256]
-    - [206, 27.4067]
+    - [435, 27.4067]
   - - [64, 64, 1, 1280]
-    - [225, 712.448]
+    - [454, 712.448]
   - - [6784, 4, 1, 128]
-    - [253, 122.06]
+    - [482, 122.06]
   - - [2944, 1408, 1, 128]
-    - [235, 4430.46]
+    - [464, 4430.46]
   - - [448, 128, 1, 3328]
-    - [222, 5097.34]
+    - [451, 5097.34]
   - - [64, 2944, 1, 3328]
-    - [222, 6362.2]
+    - [451, 6362.2]
   - - [64, 4288, 1, 3328]
-    - [222, 6565.01]
+    - [451, 6565.01]
   - - [5056, 6784, 1, 3328]
-    - [246, 8121.18]
+    - [475, 8121.18]
   - - [128, 2944, 1, 256]
-    - [240, 4692.17]
+    - [469, 4692.17]
   - - [128, 6784, 1, 128]
-    - [169, 2687.46]
+    - [398, 2687.46]
   - - [3584, 4288, 1, 256]
-    - [246, 9193.99]
+    - [475, 9193.99]
   - - [448, 1856, 1, 256]
-    - [246, 6231.39]
+    - [475, 6231.39]
   - - [1856, 6784, 1, 3328]
-    - [251, 9191.48]
+    - [480, 9191.48]
   - - [3584, 128, 1, 3328]
-    - [240, 7368.47]
+    - [469, 7368.47]
   - - [64, 1856, 1, 256]
-    - [191, 2184.63]
+    - [420, 2184.63]
   - - [1024, 448, 1, 1280]
-    - [246, 6977.32]
+    - [475, 6977.32]
   - - [5888, 4288, 1, 256]
-    - [246, 5780.5]
+    - [475, 5780.5]
   - - [4, 448, 1, 128]
-    - [253, 9.06]
+    - [482, 9.06]
   - - [5056, 1408, 1, 256]
-    - [240, 5601.35]
+    - [469, 5601.35]
   - - [64, 256, 1, 1280]
-    - [206, 1927.63]
+    - [435, 1927.63]
   - - [3584, 1024, 1, 256]
-    - [251, 7542.84]
+    - [480, 7542.84]
   - - [256, 704, 1, 256]
-    - [240, 2957.62]
+    - [469, 2957.62]
   - - [5888, 5888, 1, 256]
-    - [251, 7344.14]
+    - [480, 7344.14]
   - - [4288, 1024, 1, 1280]
-    - [246, 8925.84]
+    - [475, 8925.84]
   - - [5888, 128, 1, 3328]
-    - [240, 8410.07]
+    - [469, 8410.07]
   - - [448, 6784, 1, 3328]
-    - [240, 8862.56]
+    - [469, 8862.56]
   - - [2944, 1408, 1, 1280]
-    - [251, 7478.93]
+    - [480, 7478.93]
   - - [1024, 32, 1, 512]
-    - [195, 1777.35]
+    - [424, 1777.35]
   - - [2944, 1856, 1, 3328]
-    - [240, 9153.43]
+    - [469, 9153.43]
   - - [2368, 64, 1, 128]
-    - [179, 1102.3]
+    - [408, 1102.3]
   - - [2944, 2944, 1, 128]
-    - [231, 4591.95]
+    - [460, 4591.95]
   - - [4, 128, 1, 3328]
-    - [261, 119.09]
+    - [490, 119.09]
   - - [3584, 5888, 1, 1280]
-    - [240, 9222.49]
+    - [469, 9222.49]
   - - [64, 4, 1, 128]
-    - [252, 1.03516]
+    - [481, 1.03516]
   - - [6784, 1856, 1, 1280]
-    - [240, 9136.07]
+    - [469, 9136.07]
   - - [2944, 5056, 1, 256]
-    - [246, 8860.13]
+    - [475, 8860.13]
   - - [2944, 5888, 1, 1280]
-    - [239, 9643.63]
+    - [468, 9643.63]
   - - [5888, 256, 1, 3328]
-    - [246, 8799.53]
+    - [475, 8799.53]
   - - [1856, 5888, 1, 3328]
-    - [246, 9457.53]
+    - [475, 9457.53]
   - - [3584, 1408, 1, 256]
-    - [246, 8672.53]
+    - [475, 8672.53]
   - - [704, 3584, 1, 3328]
-    - [246, 8525.3]
+    - [475, 8525.3]
   - - [5056, 448, 1, 1280]
-    - [246, 8843.77]
+    - [475, 8843.77]
   - - [3584, 1856, 1, 3328]
-    - [238, 8881.53]
+    - [467, 8881.53]
   - - [64, 1408, 1, 128]
-    - [167, 747.142]
+    - [396, 747.142]
   - - [1408, 704, 1, 1280]
-    - [240, 8342.93]
+    - [469, 8342.93]
   - - [2944, 1024, 1, 256]
-    - [251, 8079.58]
+    - [480, 8079.58]
   - - [1024, 2368, 1, 128]
-    - [235, 3347.58]
+    - [464, 3347.58]
   - - [2368, 4288, 1, 3328]
-    - [246, 9467.67]
+    - [475, 9467.67]
   - - [4, 1408, 1, 256]
-    - [258, 257.563]
+    - [487, 257.563]
   - - [1024, 1408, 1, 1280]
-    - [246, 8241.84]
+    - [475, 8241.84]
   - - [64, 64, 1, 256]
-    - [206, 190.059]
+    - [435, 190.059]
   - - [704, 256, 1, 3328]
-    - [240, 4519.28]
+    - [469, 4519.28]
   - - [6784, 5056, 1, 256]
-    - [239, 9133.78]
+    - [468, 9133.78]
   - - [4, 4288, 1, 3328]
-    - [190, 670.075]
+    - [419, 670.075]
   - - [448, 6784, 1, 128]
-    - [232, 4481.92]
+    - [461, 4481.92]
   - - [4, 704, 1, 3328]
-    - [262, 523.071]
+    - [491, 523.071]
   - - [448, 2944, 1, 256]
-    - [240, 7022.59]
+    - [469, 7022.59]
   - - [2944, 6784, 1, 256]
-    - [246, 9199.84]
+    - [475, 9199.84]
   - - [2368, 2368, 1, 1280]
-    - [251, 8646.84]
+    - [480, 8646.84]
   - - [4, 4, 1, 1280]
-    - [209, 3.11176]
+    - [438, 3.11176]
   - - [1856, 3584, 1, 1280]
-    - [238, 8805.45]
+    - [467, 8805.45]
   - - [64, 2944, 1, 256]
-    - [212, 2565.76]
+    - [441, 2565.76]
   - - [3584, 1408, 1, 1280]
-    - [251, 9273.12]
+    - [480, 9273.12]
   - - [448, 256, 1, 128]
-    - [167, 941.13]
+    - [396, 941.13]
   - - [4288, 448, 1, 128]
-    - [233, 3215.2]
+    - [462, 3215.2]
   - - [5056, 256, 1, 1280]
-    - [246, 8790.13]
+    - [475, 8790.13]
   - - [1856, 1408, 1, 3328]
-    - [240, 9310.73]
+    - [469, 9310.73]
   - - [128, 128, 1, 128]
-    - [175, 155.215]
+    - [404, 155.215]
   - - [1024, 4288, 1, 3328]
-    - [243, 8528.12]
+    - [472, 8528.12]
   - - [448, 2368, 1, 256]
-    - [247, 5097.34]
+    - [476, 5097.34]
   - - [1024, 4, 1, 128]
-    - [253, 10.3721]
+    - [482, 10.3721]
   - - [5056, 448, 1, 256]
-    - [246, 8236.78]
+    - [475, 8236.78]
   - - [2944, 2368, 1, 3328]
-    - [239, 9331.16]
+    - [468, 9331.16]
   - - [704, 128, 1, 3328]
-    - [214, 5969.3]
+    - [443, 5969.3]
   - - [64, 64, 1, 3328]
-    - [230, 1494.78]
+    - [459, 1494.78]
   - - [1024, 1856, 1, 1280]
-    - [245, 6356.43]
+    - [474, 6356.43]
   - - [6784, 1856, 1, 256]
-    - [246, 9068.63]
+    - [475, 9068.63]
   - - [128, 2368, 1, 3328]
-    - [222, 6714.22]
+    - [451, 6714.22]
   - - [1024, 5888, 1, 256]
-    - [246, 5501.6]
+    - [475, 5501.6]
   - - [5056, 128, 1, 1280]
-    - [202, 6455.64]
+    - [431, 6455.64]
   - - [5056, 64, 1, 3328]
-    - [207, 6703.81]
+    - [436, 6703.81]
   - - [128, 704, 1, 128]
-    - [168, 696.618]
+    - [397, 696.618]
   - - [1408, 2368, 1, 256]
-    - [240, 8667.25]
+    - [469, 8667.25]
   - - [1408, 1408, 1, 256]
-    - [251, 7615.81]
+    - [480, 7615.81]
   - - [4, 64, 1, 128]
-    - [253, 1.08463]
+    - [482, 1.08463]
   - - [64, 128, 1, 1280]
-    - [225, 1379.81]
+    - [454, 1379.81]
   - - [2368, 2368, 1, 128]
-    - [235, 4582.26]
+    - [464, 4582.26]
   - - [64, 5888, 1, 128]
-    - [168, 2086.37]
+    - [397, 2086.37]
   - - [5888, 4, 1, 3328]
-    - [189, 667.514]
+    - [418, 667.514]
   - - [6784, 1408, 1, 128]
-    - [236, 4516.34]
+    - [465, 4516.34]
   - - [4288, 5888, 1, 256]
-    - [251, 8497.43]
+    - [480, 8497.43]
   - - [1408, 5056, 1, 256]
-    - [240, 8867.46]
+    - [469, 8867.46]
   - - [5056, 128, 1, 3328]
-    - [222, 7678.98]
+    - [451, 7678.98]
   - - [128, 128, 1, 1280]
-    - [210, 2016.59]
+    - [439, 2016.59]
   - - [448, 704, 1, 256]
-    - [241, 3030.89]
+    - [470, 3030.89]
   - - [4288, 3584, 1, 128]
-    - [232, 5246.33]
+    - [461, 5246.33]
   - - [2944, 128, 1, 3328]
-    - [207, 6795.16]
+    - [436, 6795.16]
   - - [128, 5056, 1, 1280]
-    - [193, 6193.09]
+    - [422, 6193.09]
   - - [3584, 5056, 1, 1280]
-    - [245, 9499.17]
+    - [474, 9499.17]
   - - [256, 448, 1, 1280]
-    - [201, 4267.56]
+    - [430, 4267.56]
   - - [704, 704, 1, 128]
-    - [235, 2259.32]
+    - [464, 2259.32]
   - - [5056, 4, 1, 128]
-    - [253, 12.5313]
+    - [482, 12.5313]
   - - [704, 256, 1, 1280]
-    - [240, 4355.97]
+    - [469, 4355.97]
   - - [64, 2368, 1, 3328]
-    - [214, 6310.97]
+    - [443, 6310.97]
   - - [1856, 1024, 1, 128]
-    - [231, 4065.43]
+    - [460, 4065.43]
   - - [1856, 64, 1, 128]
-    - [170, 936.329]
+    - [399, 936.329]
   - - [64, 6784, 1, 1280]
-    - [193, 5731.8]
+    - [422, 5731.8]
   - - [704, 4288, 1, 256]
-    - [246, 5218.9]
+    - [475, 5218.9]
   - - [5888, 2368, 1, 1280]
-    - [240, 9378.9]
+    - [469, 9378.9]
   - - [128, 256, 1, 256]
-    - [210, 1219.37]
+    - [439, 1219.37]
   - - [256, 64, 1, 1280]
-    - [212, 1820.54]
+    - [441, 1820.54]
   - - [2368, 5888, 1, 1280]
-    - [251, 9143.64]
+    - [480, 9143.64]
   - - [5888, 256, 1, 1280]
-    - [240, 8678.47]
+    - [469, 8678.47]
   - - [4, 5888, 1, 1280]
-    - [187, 668.242]
+    - [416, 668.242]
   - - [704, 128, 1, 128]
-    - [175, 649.556]
+    - [404, 649.556]
   - - [1024, 4, 1, 1280]
-    - [206, 478.465]
+    - [435, 478.465]
   - - [2368, 1856, 1, 3328]
-    - [238, 8153.87]
+    - [467, 8153.87]
   - - [2368, 128, 1, 128]
-    - [173, 1858.21]
+    - [402, 1858.21]
   - - [2944, 704, 1, 256]
-    - [240, 8438.07]
+    - [469, 8438.07]
   - - [5056, 128, 1, 128]
-    - [169, 2689.63]
+    - [398, 2689.63]
   - - [256, 704, 1, 3328]
-    - [240, 4541.18]
+    - [469, 4541.18]
   - - [704, 3584, 1, 256]
-    - [241, 7771.07]
+    - [470, 7771.07]
   - - [1024, 1024, 1, 1024]
-    - [246, 8305.62]
+    - [475, 8305.62]
   - - [704, 2944, 1, 3328]
-    - [246, 9166.48]
+    - [475, 9166.48]
   - - [6784, 1024, 1, 128]
-    - [231, 4362.31]
+    - [460, 4362.31]
   - - [256, 448, 1, 128]
-    - [178, 899.614]
+    - [407, 899.614]
   - - [448, 1024, 1, 3328]
-    - [240, 7385.56]
+    - [469, 7385.56]
   - - [2944, 1024, 1, 3328]
-    - [243, 8779.81]
+    - [472, 8779.81]
   - - [2944, 5056, 1, 128]
-    - [235, 5103.11]
+    - [464, 5103.11]
   - - [1408, 6784, 1, 256]
-    - [246, 8346.89]
+    - [475, 8346.89]
   - - [6784, 1408, 1, 3328]
-    - [242, 8878.4]
+    - [471, 8878.4]
   - - [4288, 6784, 1, 128]
-    - [231, 5432.99]
+    - [460, 5432.99]
   - - [704, 64, 1, 256]
-    - [220, 1441.89]
+    - [449, 1441.89]
   - - [5888, 4, 1, 1280]
-    - [257, 636.641]
+    - [486, 636.641]
   - - [256, 2368, 1, 3328]
-    - [240, 6804.8]
+    - [469, 6804.8]
   - - [6784, 2944, 1, 1280]
-    - [239, 9472.26]
+    - [468, 9472.26]
   - - [4288, 1856, 1, 128]
-    - [235, 4886.38]
+    - [464, 4886.38]
   - - [1856, 2944, 1, 128]
-    - [232, 4642.96]
+    - [461, 4642.96]
   - - [6784, 448, 1, 128]
-    - [232, 4369.17]
+    - [461, 4369.17]
   - - [64, 3584, 1, 128]
-    - [179, 1645.85]
+    - [408, 1645.85]
   - - [448, 5056, 1, 1280]
-    - [240, 8553.64]
+    - [469, 8553.64]
   - - [2368, 1856, 1, 128]
-    - [232, 4741.85]
+    - [461, 4741.85]
   - - [128, 448, 1, 1280]
-    - [222, 3745.01]
+    - [451, 3745.01]
   - - [4288, 704, 1, 256]
-    - [240, 8444.16]
+    - [469, 8444.16]
   - - [256, 3584, 1, 128]
-    - [232, 2454.96]
+    - [461, 2454.96]
   - - [5888, 704, 1, 256]
-    - [240, 8819.57]
+    - [469, 8819.57]
   - - [3584, 1024, 1, 128]
-    - [235, 4094.96]
+    - [464, 4094.96]
   - - [256, 5888, 1, 3328]
-    - [249, 8538.33]
+    - [478, 8538.33]
   - - [1408, 4288, 1, 3328]
-    - [251, 9212.57]
+    - [480, 9212.57]
   - - [6784, 4288, 1, 256]
-    - [239, 9163.12]
+    - [468, 9163.12]
   - - [4288, 256, 1, 128]
-    - [232, 3081.44]
+    - [461, 3081.44]
   - - [5888, 256, 1, 256]
-    - [240, 7680.75]
+    - [469, 7680.75]
   - - [6784, 1024, 1, 1280]
-    - [251, 9248.63]
+    - [480, 9248.63]
   - - [5888, 1024, 1, 128]
-    - [235, 4061.94]
+    - [464, 4061.94]
   - - [1024, 128, 1, 256]
-    - [246, 2317.39]
+    - [475, 2317.39]
   - - [128, 64, 1, 3328]
-    - [229, 2116.79]
+    - [458, 2116.79]
   - - [448, 64, 1, 256]
-    - [212, 1079.52]
+    - [441, 1079.52]
   - - [2368, 256, 1, 128]
-    - [233, 2229.83]
+    - [462, 2229.83]
   - - [6784, 3584, 1, 1280]
-    - [246, 9096.6]
+    - [475, 9096.6]
   - - [1024, 6784, 1, 1280]
-    - [244, 9112.9]
+    - [473, 9112.9]
   - - [2944, 64, 1, 1280]
-    - [202, 4983.0]
+    - [431, 4983.0]
   - - [1408, 2944, 1, 1280]
-    - [241, 9131.63]
+    - [470, 9131.63]
   - - [256, 1856, 1, 256]
-    - [249, 4432.86]
+    - [478, 4432.86]
   - - [1408, 2368, 1, 3328]
-    - [249, 8449.18]
+    - [478, 8449.18]
   - - [2944, 4, 1, 3328]
-    - [195, 673.94]
+    - [424, 673.94]
   - - [128, 1408, 1, 3328]
-    - [214, 6582.47]
+    - [443, 6582.47]
   - - [2944, 1856, 1, 128]
-    - [232, 4827.54]
+    - [461, 4827.54]
   - - [256, 2944, 1, 128]
-    - [235, 2416.66]
+    - [464, 2416.66]
   - - [256, 6784, 1, 128]
-    - [235, 3118.76]
+    - [464, 3118.76]
   - - [2368, 4, 1, 128]
-    - [253, 22.7197]
+    - [482, 22.7197]
   - - [1408, 256, 1, 3328]
-    - [240, 3733.82]
+    - [469, 3733.82]
   - - [1856, 4, 1, 128]
-    - [252, 7.20009]
+    - [481, 7.20009]
   - - [1024, 16, 1, 512]
-    - [208, 1165.18]
+    - [437, 1165.18]
   - - [5056, 6784, 1, 128]
-    - [236, 4949.13]
+    - [465, 4949.13]
   - - [4288, 5056, 1, 128]
-    - [235, 4966.9]
+    - [464, 4966.9]
   - - [1856, 5888, 1, 128]
-    - [231, 4351.76]
+    - [460, 4351.76]
   - - [2944, 5888, 1, 256]
-    - [251, 8460.99]
+    - [480, 8460.99]
   - - [3584, 1856, 1, 256]
-    - [246, 8876.7]
+    - [475, 8876.7]
   - - [4288, 3584, 1, 1280]
-    - [239, 9603.7]
+    - [468, 9603.7]
   - - [2368, 448, 1, 256]
-    - [240, 6604.7]
+    - [469, 6604.7]
   - - [4288, 256, 1, 3328]
-    - [240, 7619.89]
+    - [469, 7619.89]
   - - [1856, 704, 1, 128]
-    - [232, 3629.61]
+    - [461, 3629.61]
   - - [1408, 64, 1, 256]
-    - [196, 2168.21]
+    - [425, 2168.21]
   - - [64, 1856, 1, 128]
-    - [172, 979.762]
+    - [401, 979.762]
   - - [4, 256, 1, 128]
-    - [253, 5.23595]
+    - [482, 5.23595]
   - - [704, 4288, 1, 3328]
-    - [246, 9014.52]
+    - [475, 9014.52]
   - - [704, 5888, 1, 128]
-    - [233, 4221.77]
+    - [462, 4221.77]
   - - [6784, 3584, 1, 128]
-    - [231, 5360.73]
+    - [460, 5360.73]
   - - [1024, 64, 1, 256]
-    - [191, 1588.85]
+    - [420, 1588.85]
   - - [64, 2368, 1, 256]
-    - [246, 2552.55]
+    - [475, 2552.55]
   - - [4288, 5056, 1, 3328]
-    - [245, 8193.38]
+    - [474, 8193.38]
   - - [4, 1856, 1, 1280]
-    - [195, 499.192]
+    - [424, 499.192]
   - - [4288, 128, 1, 128]
-    - [232, 2373.57]
+    - [461, 2373.57]
   - - [1408, 1408, 1, 128]
-    - [235, 3753.88]
+    - [464, 3753.88]
   - - [1024, 128, 1, 3328]
-    - [217, 5656.32]
+    - [446, 5656.32]
   - - [1856, 128, 1, 128]
-    - [168, 1617.58]
+    - [397, 1617.58]
   - - [5056, 2368, 1, 256]
-    - [251, 5553.41]
+    - [480, 5553.41]
   - - [4288, 704, 1, 3328]
-    - [239, 6962.06]
+    - [468, 6962.06]
   - - [448, 3584, 1, 256]
-    - [249, 5981.5]
+    - [478, 5981.5]
   - - [64, 128, 1, 128]
-    - [186, 74.9983]
+    - [415, 74.9983]
   - - [2368, 64, 1, 1280]
-    - [222, 5041.33]
+    - [451, 5041.33]
   - - [2368, 1024, 1, 1280]
-    - [247, 7740.97]
+    - [476, 7740.97]
   - - [2944, 1408, 1, 3328]
-    - [249, 9204.65]
+    - [478, 9204.65]
   - - [1408, 448, 1, 256]
-    - [246, 5954.4]
+    - [475, 5954.4]
   - - [1024, 1408, 1, 3328]
-    - [243, 8161.54]
+    - [472, 8161.54]
   - - [2560, 7133, 1, 2560]
-    - [238, 9636.69]
+    - [467, 9636.69]
   - - [1408, 4, 1, 1280]
-    - [190, 520.979]
+    - [419, 520.979]
   - - [5888, 3584, 1, 256]
-    - [251, 9225.26]
+    - [480, 9225.26]
   - - [128, 1024, 1, 1280]
-    - [193, 4755.55]
+    - [422, 4755.55]
   - - [1408, 1856, 1, 3328]
-    - [243, 9130.87]
+    - [472, 9130.87]
   - - [4, 4, 1, 3328]
-    - [263, 7.03333]
+    - [492, 7.03333]
   - - [6784, 1408, 1, 1280]
-    - [240, 9346.91]
+    - [469, 9346.91]
   - - [4, 1024, 1, 1280]
-    - [190, 422.913]
+    - [419, 422.913]
   - - [704, 2944, 1, 256]
-    - [246, 8332.06]
+    - [475, 8332.06]
   - - [704, 4288, 1, 128]
-    - [232, 4371.14]
+    - [461, 4371.14]
   - - [2368, 4288, 1, 128]
-    - [232, 3988.89]
+    - [461, 3988.89]
   - - [64, 4288, 1, 1280]
-    - [222, 5407.63]
+    - [451, 5407.63]
   - - [6784, 64, 1, 1280]
-    - [202, 5708.25]
+    - [431, 5708.25]
   - - [3584, 128, 1, 128]
-    - [168, 2463.2]
+    - [397, 2463.2]
   - - [1024, 6784, 1, 128]
-    - [233, 3862.12]
+    - [462, 3862.12]
   - - [4, 1856, 1, 128]
-    - [253, 30.6362]
+    - [482, 30.6362]
   - - [1408, 64, 1, 3328]
-    - [222, 6095.48]
+    - [451, 6095.48]
   - - [6784, 4, 1, 256]
-    - [255, 487.938]
+    - [484, 487.938]
   - - [1408, 1408, 1, 1280]
-    - [251, 8640.63]
+    - [480, 8640.63]
   - - [256, 2368, 1, 256]
-    - [243, 4282.36]
+    - [472, 4282.36]
   - - [448, 4288, 1, 3328]
-    - [240, 8516.13]
+    - [469, 8516.13]
   - - [2368, 1408, 1, 256]
-    - [246, 8632.19]
+    - [475, 8632.19]
   - - [5888, 5056, 1, 128]
-    - [232, 5091.11]
+    - [461, 5091.11]
   - - [704, 2368, 1, 256]
-    - [246, 7664.8]
+    - [475, 7664.8]
   - - [2944, 448, 1, 1280]
-    - [246, 7618.35]
+    - [475, 7618.35]
   - - [5888, 2368, 1, 3328]
-    - [249, 9343.48]
+    - [478, 9343.48]
   - - [64, 2944, 1, 1280]
-    - [214, 5162.18]
+    - [443, 5162.18]
   - - [448, 1856, 1, 1280]
-    - [240, 7028.0]
+    - [469, 7028.0]
   - - [4288, 448, 1, 1280]
-    - [240, 5855.76]
+    - [469, 5855.76]
   - - [5888, 704, 1, 3328]
-    - [249, 9190.91]
+    - [478, 9190.91]
   - - [5056, 256, 1, 128]
-    - [235, 3235.94]
+    - [464, 3235.94]
   - - [1856, 256, 1, 128]
-    - [233, 1849.78]
+    - [462, 1849.78]
   - - [5056, 128, 1, 256]
-    - [246, 6109.06]
+    - [475, 6109.06]
   - - [704, 4, 1, 256]
-    - [206, 125.256]
+    - [435, 125.256]
   - - [1408, 5888, 1, 128]
-    - [232, 5055.16]
+    - [461, 5055.16]
   - - [4288, 4, 1, 128]
-    - [252, 95.7209]
+    - [481, 95.7209]
   - - [1408, 1024, 1, 256]
-    - [240, 7370.28]
+    - [469, 7370.28]
   - - [1024, 1856, 1, 128]
-    - [232, 2966.8]
+    - [461, 2966.8]
   - - [256, 704, 1, 128]
-    - [234, 528.229]
+    - [463, 528.229]
   - - [256, 1024, 1, 128]
-    - [232, 1171.69]
+    - [461, 1171.69]
   - - [448, 1024, 1, 256]
-    - [246, 5624.65]
+    - [475, 5624.65]
   - - [128, 4, 1, 3328]
-    - [263, 191.985]
+    - [492, 191.985]
   - - [5056, 6784, 1, 1280]
-    - [240, 9544.07]
+    - [469, 9544.07]
   - - [704, 5056, 1, 3328]
-    - [247, 8790.35]
+    - [476, 8790.35]
   - - [64, 1408, 1, 1280]
-    - [214, 4505.7]
+    - [443, 4505.7]
   - - [3584, 5056, 1, 3328]
-    - [245, 9073.52]
+    - [474, 9073.52]
   - - [1856, 4, 1, 3328]
-    - [263, 612.875]
+    - [492, 612.875]
   - - [4, 2944, 1, 128]
-    - [252, 72.0145]
+    - [481, 72.0145]
   - - [2368, 2944, 1, 3328]
-    - [238, 9314.68]
+    - [467, 9314.68]
   - - [448, 448, 1, 1280]
-    - [222, 5129.91]
+    - [451, 5129.91]
   - - [2368, 3584, 1, 256]
-    - [240, 8998.8]
-  - - [1024, 256, 1, 1280]
-    - [247, 3566.68]
+    - [469, 8998.8]
   - - [5056, 3584, 1, 1280]
-    - [241, 9345.17]
+    - [470, 9345.17]
   - - [448, 4, 1, 3328]
-    - [263, 487.337]
+    - [492, 487.337]
   - - [1856, 2944, 1, 1280]
-    - [251, 8438.79]
+    - [480, 8438.79]
   - - [3584, 2368, 1, 1280]
-    - [246, 9298.9]
+    - [475, 9298.9]
   - - [128, 1024, 1, 256]
-    - [198, 2356.45]
+    - [427, 2356.45]
   - - [2944, 1408, 1, 256]
-    - [238, 5440.82]
+    - [467, 5440.82]
   - - [4288, 1408, 1, 3328]
-    - [238, 9386.09]
+    - [467, 9386.09]
   - - [3584, 64, 1, 3328]
-    - [194, 6310.97]
+    - [423, 6310.97]
   - - [1408, 128, 1, 256]
-    - [240, 2942.53]
+    - [469, 2942.53]
   - - [2944, 1024, 1, 128]
-    - [235, 3927.99]
+    - [464, 3927.99]
   - - [4288, 5056, 1, 1280]
-    - [242, 8328.58]
+    - [471, 8328.58]
   - - [5888, 6784, 1, 1280]
-    - [251, 9757.44]
+    - [480, 9757.44]
   - - [6784, 5056, 1, 128]
-    - [231, 5101.4]
+    - [460, 5101.4]
   - - [256, 1024, 1, 3328]
-    - [240, 6475.87]
+    - [469, 6475.87]
   - - [3584, 4, 1, 256]
-    - [256, 420.973]
+    - [485, 420.973]
   - - [1856, 64, 1, 3328]
-    - [222, 6409.2]
+    - [451, 6409.2]
   - - [64, 6784, 1, 128]
-    - [170, 2387.32]
+    - [399, 2387.32]
   - - [5888, 1408, 1, 3328]
-    - [245, 9655.89]
+    - [474, 9655.89]
   - - [5888, 64, 1, 1280]
-    - [240, 5870.86]
+    - [469, 5870.86]
   - - [256, 5056, 1, 256]
-    - [243, 6109.06]
+    - [472, 6109.06]
   - - [128, 3584, 1, 128]
-    - [173, 2383.23]
+    - [402, 2383.23]
   - - [448, 3584, 1, 3328]
-    - [238, 7092.28]
+    - [467, 7092.28]
   - - [704, 2368, 1, 128]
-    - [232, 3741.08]
+    - [461, 3741.08]
   - - [5888, 256, 1, 128]
-    - [233, 2977.54]
+    - [462, 2977.54]
   - - [4, 5056, 1, 128]
-    - [252, 132.72]
+    - [481, 132.72]
   - - [448, 256, 1, 256]
-    - [204, 2308.29]
+    - [433, 2308.29]
   - - [704, 4, 1, 3328]
-    - [209, 552.674]
+    - [438, 552.674]
   - - [1408, 256, 1, 256]
-    - [240, 4577.22]
+    - [469, 4577.22]
   - - [3584, 1856, 1, 128]
-    - [232, 4571.86]
+    - [461, 4571.86]
   - - [4288, 4288, 1, 128]
-    - [235, 5284.65]
+    - [464, 5284.65]
   - - [1856, 1024, 1, 3328]
-    - [246, 6362.25]
+    - [475, 6362.25]
   - - [128, 5888, 1, 3328]
-    - [216, 7040.83]
+    - [445, 7040.83]
   - - [1024, 5056, 1, 256]
-    - [251, 7855.7]
+    - [480, 7855.7]
   - - [2368, 1408, 1, 3328]
-    - [246, 9205.66]
+    - [475, 9205.66]
   - - [5888, 448, 1, 256]
-    - [243, 5538.84]
+    - [472, 5538.84]
   - - [5888, 6784, 1, 128]
-    - [231, 4500.85]
+    - [460, 4500.85]
   - - [2368, 4, 1, 3328]
-    - [209, 642.898]
+    - [438, 642.898]
   - - [6784, 5056, 1, 1280]
-    - [247, 9249.23]
+    - [476, 9249.23]
   - - [5056, 704, 1, 1280]
-    - [246, 8883.37]
+    - [475, 8883.37]
   - - [1408, 256, 1, 1280]
-    - [240, 5632.1]
+    - [469, 5632.1]
   - - [4288, 6784, 1, 1280]
-    - [246, 8843.31]
+    - [475, 8843.31]
   - - [128, 704, 1, 256]
-    - [204, 2045.19]
+    - [433, 2045.19]
   - - [448, 128, 1, 1280]
-    - [214, 3807.17]
+    - [443, 3807.17]
   - - [6784, 4, 1, 3328]
-    - [257, 684.671]
+    - [486, 684.671]
   - - [4288, 4, 1, 1280]
-    - [206, 601.925]
+    - [435, 601.925]
   - - [1024, 64, 1, 3328]
-    - [218, 3928.48]
+    - [447, 3928.48]
   - - [1856, 4, 1, 256]
-    - [256, 293.394]
+    - [485, 293.394]
   - - [64, 3584, 1, 1280]
-    - [240, 5265.55]
+    - [469, 5265.55]
   - - [6784, 1408, 1, 256]
-    - [240, 9059.36]
+    - [469, 9059.36]
   - - [3584, 5888, 1, 128]
-    - [232, 5084.29]
+    - [461, 5084.29]
   - - [5056, 5888, 1, 256]
-    - [251, 8590.09]
+    - [480, 8590.09]
   - - [2368, 1024, 1, 256]
-    - [243, 4493.13]
+    - [472, 4493.13]
   - - [2944, 1856, 1, 256]
-    - [249, 5202.41]
+    - [478, 5202.41]
   - - [1856, 6784, 1, 1280]
-    - [247, 9071.48]
+    - [476, 9071.48]
   - - [64, 5056, 1, 128]
-    - [170, 2038.42]
+    - [399, 2038.42]
   - - [5888, 64, 1, 128]
-    - [169, 2016.59]
+    - [398, 2016.59]
   - - [448, 704, 1, 128]
-    - [233, 1173.65]
+    - [462, 1173.65]
   - - [4, 1024, 1, 128]
-    - [252, 8.89685]
+    - [481, 8.89685]
   - - [4288, 3584, 1, 256]
-    - [246, 9080.26]
+    - [475, 9080.26]
   - - [1408, 704, 1, 128]
-    - [232, 3165.71]
+    - [461, 3165.71]
   - - [64, 256, 1, 3328]
-    - [226, 3126.59]
+    - [455, 3126.59]
   - - [5056, 1856, 1, 1280]
-    - [243, 8857.55]
+    - [472, 8857.55]
   - - [1408, 1024, 1, 3328]
-    - [249, 8177.12]
+    - [478, 8177.12]
   - - [2368, 256, 1, 3328]
-    - [240, 6810.31]
+    - [469, 6810.31]
   - - [5888, 3584, 1, 1280]
-    - [238, 9535.55]
+    - [467, 9535.55]
   - - [1856, 3584, 1, 3328]
-    - [240, 9281.91]
+    - [469, 9281.91]
   - - [5888, 128, 1, 1280]
-    - [246, 8136.82]
+    - [475, 8136.82]
   - - [1024, 2944, 1, 256]
-    - [238, 7247.96]
+    - [467, 7247.96]
   - - [448, 6784, 1, 1280]
-    - [246, 7014.04]
+    - [475, 7014.04]
   - - [256, 3584, 1, 1280]
-    - [240, 7738.64]
+    - [469, 7738.64]
   - - [448, 128, 1, 128]
-    - [170, 496.048]
+    - [399, 496.048]
   - - [704, 5056, 1, 256]
-    - [246, 8609.44]
+    - [475, 8609.44]
   - - [3584, 1024, 1, 3328]
-    - [239, 7765.73]
+    - [468, 7765.73]
   - - [2944, 1856, 1, 1280]
-    - [251, 7776.03]
+    - [480, 7776.03]
   - - [128, 256, 1, 128]
-    - [183, 296.308]
+    - [412, 296.308]
   - - [5056, 256, 1, 256]
-    - [240, 7829.73]
+    - [469, 7829.73]
   - - [2368, 3584, 1, 3328]
-    - [239, 8896.08]
+    - [468, 8896.08]
   - - [2944, 704, 1, 1280]
-    - [249, 6855.83]
+    - [478, 6855.83]
   - - [128, 4, 1, 256]
-    - [258, 24.9242]
+    - [487, 24.9242]
   - - [2944, 3584, 1, 1280]
-    - [251, 9049.22]
+    - [480, 9049.22]
   - - [1856, 5888, 1, 1280]
-    - [246, 9432.06]
+    - [475, 9432.06]
   - - [256, 256, 1, 1280]
-    - [211, 3942.12]
+    - [440, 3942.12]
   - - [5056, 448, 1, 3328]
-    - [251, 4587.83]
+    - [480, 4587.83]
   - - [4288, 1408, 1, 256]
-    - [251, 5408.83]
+    - [480, 5408.83]
   - - [3584, 64, 1, 256]
-    - [220, 2496.71]
+    - [449, 2496.71]
   - - [64, 1856, 1, 3328]
-    - [193, 5896.78]
+    - [422, 5896.78]
   - - [256, 1408, 1, 128]
-    - [232, 1643.17]
+    - [461, 1643.17]
   - - [5888, 1408, 1, 128]
-    - [231, 4436.37]
+    - [460, 4436.37]
   - - [4288, 2368, 1, 1280]
-    - [240, 9433.04]
+    - [469, 9433.04]
   - - [4, 4288, 1, 256]
-    - [255, 442.732]
+    - [484, 442.732]
   - - [256, 4288, 1, 128]
-    - [232, 2814.79]
+    - [461, 2814.79]
   - - [256, 128, 1, 3328]
-    - [221, 3951.26]
+    - [450, 3951.26]
   - - [6784, 2368, 1, 256]
-    - [240, 9169.99]
+    - [469, 9169.99]
   - - [5888, 128, 1, 128]
-    - [169, 3156.81]
+    - [398, 3156.81]
   - - [4288, 1856, 1, 256]
-    - [246, 5658.23]
+    - [475, 5658.23]
   - - [1856, 256, 1, 3328]
-    - [240, 7646.37]
+    - [469, 7646.37]
   - - [1856, 2944, 1, 256]
-    - [247, 6444.98]
+    - [476, 6444.98]
   - - [5056, 1024, 1, 128]
-    - [231, 4607.3]
+    - [460, 4607.3]
   - - [64, 5888, 1, 1280]
-    - [246, 5842.46]
+    - [475, 5842.46]
   - - [1760, 7133, 1, 1760]
-    - [239, 9097.84]
+    - [468, 9097.84]
   - - [6784, 256, 1, 128]
-    - [232, 3685.41]
+    - [461, 3685.41]
   - - [5888, 704, 1, 128]
-    - [231, 3656.23]
+    - [460, 3656.23]
   - - [6784, 64, 1, 128]
-    - [182, 2191.52]
+    - [411, 2191.52]
   - - [1024, 4288, 1, 1280]
-    - [246, 9199.32]
+    - [475, 9199.32]
   - - [2368, 5056, 1, 3328]
-    - [242, 9072.88]
+    - [471, 9072.88]
   - - [448, 4, 1, 128]
-    - [253, 5.42937]
+    - [482, 5.42937]
   - - [4, 256, 1, 3328]
-    - [263, 311.037]
+    - [492, 311.037]
   - - [4288, 1024, 1, 3328]
-    - [244, 8660.33]
+    - [473, 8660.33]
   - - [1024, 5056, 1, 3328]
-    - [240, 8886.76]
+    - [469, 8886.76]
   - - [1024, 1856, 1, 3328]
-    - [245, 8426.24]
+    - [474, 8426.24]
   - - [704, 704, 1, 1280]
-    - [240, 7661.8]
+    - [469, 7661.8]
   - - [128, 2368, 1, 1280]
-    - [214, 5746.15]
+    - [443, 5746.15]
   - - [1408, 128, 1, 3328]
-    - [222, 6530.87]
+    - [451, 6530.87]
   - - [3584, 256, 1, 1280]
-    - [246, 7634.04]
+    - [475, 7634.04]
   - - [4, 128, 1, 128]
-    - [253, 2.07874]
+    - [482, 2.07874]
   - - [704, 6784, 1, 128]
-    - [235, 4589.59]
+    - [464, 4589.59]
   - - [3584, 128, 1, 1280]
-    - [240, 7078.24]
+    - [469, 7078.24]
   - - [4, 256, 1, 1280]
-    - [209, 178.187]
+    - [438, 178.187]
   - - [128, 704, 1, 3328]
-    - [214, 5959.81]
+    - [443, 5959.81]
   - - [4288, 6784, 1, 256]
-    - [240, 9326.54]
+    - [469, 9326.54]
   - - [3584, 2944, 1, 3328]
-    - [242, 9114.16]
+    - [471, 9114.16]
   - - [128, 1856, 1, 256]
-    - [246, 3672.65]
+    - [475, 3672.65]
   - - [64, 4288, 1, 256]
-    - [240, 3457.51]
+    - [469, 3457.51]
   - - [4, 3584, 1, 3328]
-    - [189, 694.37]
+    - [418, 694.37]
   - - [64, 4, 1, 3328]
-    - [209, 71.5738]
+    - [438, 71.5738]
   - - [4, 64, 1, 3328]
-    - [209, 91.9069]
+    - [438, 91.9069]
   - - [5888, 2944, 1, 256]
-    - [239, 7241.55]
+    - [468, 7241.55]
   - - [2368, 6784, 1, 128]
-    - [235, 5229.63]
+    - [464, 5229.63]
   - - [448, 4288, 1, 1280]
-    - [240, 8416.4]
+    - [469, 8416.4]
   - - [448, 1856, 1, 3328]
-    - [240, 7161.56]
+    - [469, 7161.56]
   - - [4, 1024, 1, 256]
-    - [206, 187.346]
+    - [435, 187.346]
   - - [5056, 4288, 1, 256]
-    - [251, 8947.26]
+    - [480, 8947.26]
   - - [1024, 448, 1, 256]
-    - [246, 5318.96]
+    - [475, 5318.96]
   - - [1024, 3584, 1, 256]
-    - [241, 6152.04]
+    - [470, 6152.04]
   - - [2944, 128, 1, 1280]
-    - [222, 6053.63]
+    - [451, 6053.63]
   - - [1856, 5056, 1, 128]
-    - [232, 5091.42]
+    - [461, 5091.42]
   - - [64, 256, 1, 256]
-    - [195, 771.112]
+    - [424, 771.112]
   - - [1408, 4, 1, 128]
-    - [252, 40.8758]
+    - [481, 40.8758]
   - - [128, 2368, 1, 128]
-    - [180, 1520.37]
+    - [409, 1520.37]
   - - [256, 704, 1, 1280]
-    - [240, 4329.81]
+    - [469, 4329.81]
   - - [64, 2368, 1, 128]
-    - [171, 1212.52]
+    - [400, 1212.52]
   - - [6784, 6784, 1, 3328]
-    - [251, 8310.67]
+    - [480, 8310.67]
   - - [448, 5888, 1, 1280]
-    - [246, 8502.33]
+    - [475, 8502.33]
   - - [5056, 448, 1, 128]
-    - [232, 4161.0]
+    - [461, 4161.0]
   - - [3584, 2944, 1, 128]
-    - [232, 4363.51]
+    - [461, 4363.51]
   - - [6784, 256, 1, 1280]
-    - [246, 8629.67]
+    - [475, 8629.67]
   - - [256, 2944, 1, 1280]
-    - [246, 7277.48]
+    - [475, 7277.48]
   - - [64, 4288, 1, 128]
-    - [171, 1822.06]
+    - [400, 1822.06]
   - - [2368, 5888, 1, 3328]
-    - [240, 9017.52]
+    - [469, 9017.52]
   - - [4, 64, 1, 256]
-    - [206, 16.1627]
+    - [435, 16.1627]
   - - [704, 1024, 1, 3328]
-    - [246, 8059.55]
+    - [475, 8059.55]
   - - [2368, 1856, 1, 1280]
-    - [246, 8813.24]
+    - [475, 8813.24]
   - - [128, 448, 1, 128]
-    - [167, 588.244]
+    - [396, 588.244]
   - - [128, 6784, 1, 256]
-    - [246, 6538.28]
+    - [475, 6538.28]
   - - [3584, 4288, 1, 128]
-    - [232, 5025.46]
+    - [461, 5025.46]
   - - [64, 448, 1, 128]
-    - [184, 231.793]
+    - [413, 231.793]
   - - [5888, 4288, 1, 3328]
-    - [240, 9515.88]
+    - [469, 9515.88]
   - - [2368, 704, 1, 256]
-    - [246, 7642.84]
+    - [475, 7642.84]
   - - [256, 1856, 1, 3328]
-    - [246, 6547.17]
+    - [475, 6547.17]
   - - [1856, 128, 1, 256]
-    - [240, 3782.28]
+    - [469, 3782.28]
   - - [6784, 128, 1, 128]
-    - [174, 2835.54]
+    - [403, 2835.54]
   - - [3584, 1408, 1, 128]
-    - [231, 3049.21]
+    - [460, 3049.21]
   - - [1856, 5056, 1, 1280]
-    - [247, 8863.3]
+    - [476, 8863.3]
   - - [2944, 1024, 1, 1280]
-    - [251, 8873.25]
+    - [480, 8873.25]
   - - [5056, 4, 1, 256]
-    - [187, 494.121]
+    - [416, 494.121]
   - - [3584, 5888, 1, 3328]
-    - [239, 9585.25]
+    - [468, 9585.25]
   - - [2368, 4288, 1, 256]
-    - [251, 6419.05]
+    - [480, 6419.05]
   - - [1024, 2368, 1, 3328]
-    - [246, 8645.36]
+    - [475, 8645.36]
   - - [64, 704, 1, 3328]
-    - [228, 4399.93]
+    - [457, 4399.93]
   - - [704, 1408, 1, 256]
-    - [240, 7428.54]
+    - [469, 7428.54]
   - - [6784, 1856, 1, 3328]
-    - [251, 9163.66]
+    - [480, 9163.66]
   - - [1024, 2944, 1, 128]
-    - [235, 3551.98]
+    - [464, 3551.98]
   - - [1024, 3584, 1, 1280]
-    - [249, 9112.47]
+    - [478, 9112.47]
   - - [4288, 5888, 1, 3328]
-    - [239, 8524.05]
+    - [468, 8524.05]
   - - [4288, 4, 1, 3328]
-    - [206, 620.016]
+    - [435, 620.016]
   - - [256, 1408, 1, 256]
-    - [240, 4505.7]
+    - [469, 4505.7]
   - - [448, 2944, 1, 1280]
-    - [240, 7612.87]
+    - [469, 7612.87]
   - - [4, 5888, 1, 128]
-    - [252, 174.564]
+    - [481, 174.564]
   - - [1024, 2944, 1, 3328]
-    - [245, 9136.74]
+    - [474, 9136.74]
   - - [3584, 6784, 1, 256]
-    - [245, 7253.89]
+    - [474, 7253.89]
   - - [256, 6784, 1, 1280]
-    - [240, 8637.72]
+    - [469, 8637.72]
   - - [1856, 3584, 1, 256]
-    - [246, 8199.67]
+    - [475, 8199.67]
   - - [128, 448, 1, 3328]
-    - [227, 4799.92]
+    - [456, 4799.92]
   - - [6784, 1856, 1, 128]
-    - [232, 5185.62]
+    - [461, 5185.62]
   - - [4, 448, 1, 256]
-    - [206, 86.9848]
+    - [435, 86.9848]
   - - [2944, 704, 1, 128]
-    - [235, 3798.64]
+    - [464, 3798.64]
   - - [256, 5888, 1, 1280]
-    - [240, 8678.47]
+    - [469, 8678.47]
   - - [4, 128, 1, 1280]
-    - [209, 102.5]
+    - [438, 102.5]
   - - [4288, 6784, 1, 3328]
-    - [245, 8209.4]
+    - [474, 8209.4]
   - - [6784, 128, 1, 1280]
-    - [222, 6562.99]
+    - [451, 6562.99]
   - - [64, 1408, 1, 256]
-    - [212, 2059.8]
+    - [441, 2059.8]
   - - [7680, 5481, 1, 2560]
-    - [251, 9426.79]
+    - [480, 9426.79]
   - - [2368, 1408, 1, 128]
-    - [232, 4532.5]
+    - [461, 4532.5]
   - - [1856, 448, 1, 256]
-    - [240, 6275.48]
+    - [469, 6275.48]
   - - [1408, 1024, 1, 128]
-    - [232, 3604.58]
+    - [461, 3604.58]
   - - [128, 64, 1, 128]
-    - [167, 87.4813]
+    - [396, 87.4813]
   - - [6784, 3584, 1, 3328]
-    - [247, 8991.92]
+    - [476, 8991.92]
   - - [2944, 64, 1, 3328]
-    - [216, 6043.36]
+    - [445, 6043.36]
   - - [64, 64, 1, 128]
-    - [172, 36.309]
+    - [401, 36.309]
   - - [2368, 5056, 1, 1280]
-    - [246, 9438.48]
+    - [475, 9438.48]
   - - [64, 4, 1, 1280]
-    - [209, 40.2569]
+    - [438, 40.2569]
   - - [1408, 2368, 1, 1280]
-    - [242, 7738.16]
+    - [471, 7738.16]
   - - [128, 1408, 1, 1280]
-    - [214, 4937.74]
+    - [443, 4937.74]
   - - [256, 64, 1, 3328]
-    - [224, 2683.46]
+    - [453, 2683.46]
   - - [2944, 4288, 1, 128]
-    - [232, 5173.81]
+    - [461, 5173.81]
   - - [2944, 2944, 1, 256]
-    - [240, 8943.92]
+    - [469, 8943.92]
   - - [2944, 4, 1, 1280]
-    - [189, 617.857]
+    - [418, 617.857]
   - - [5888, 4, 1, 256]
-    - [255, 483.218]
+    - [484, 483.218]
   - - [6784, 256, 1, 256]
-    - [246, 7916.7]
+    - [475, 7916.7]
   - - [256, 5056, 1, 3328]
-    - [240, 8953.25]
+    - [469, 8953.25]
   - - [128, 4288, 1, 1280]
-    - [193, 6015.05]
+    - [422, 6015.05]
   - - [5056, 1856, 1, 128]
-    - [234, 4221.15]
+    - [463, 4221.15]
   - - [5888, 1408, 1, 256]
-    - [245, 9144.85]
+    - [474, 9144.85]
   - - [128, 128, 1, 256]
-    - [195, 759.938]
+    - [424, 759.938]
   - - [5056, 4, 1, 3328]
-    - [255, 642.818]
+    - [484, 642.818]
   - - [4288, 3584, 1, 3328]
-    - [241, 9300.05]
+    - [470, 9300.05]
   - - [448, 704, 1, 3328]
-    - [247, 4481.08]
+    - [476, 4481.08]
   - - [448, 448, 1, 128]
-    - [171, 1360.81]
+    - [400, 1360.81]
   - - [1024, 2368, 1, 1280]
-    - [240, 8570.29]
+    - [469, 8570.29]
   - - [1856, 704, 1, 3328]
-    - [240, 8448.26]
+    - [469, 8448.26]
   - - [4, 2368, 1, 128]
-    - [252, 64.5902]
+    - [481, 64.5902]
   - - [5888, 6784, 1, 3328]
-    - [247, 9447.12]
+    - [476, 9447.12]
   - - [704, 4288, 1, 1280]
-    - [249, 7476.87]
+    - [478, 7476.87]
   - - [704, 256, 1, 256]
-    - [240, 2957.62]
+    - [469, 2957.62]
   - - [6784, 448, 1, 3328]
-    - [243, 8886.22]
+    - [472, 8886.22]
   - - [4288, 1024, 1, 128]
-    - [231, 3864.49]
+    - [460, 3864.49]
   - - [49, 512, 128, 2048]
-    - [274, 7112.78]
+    - [503, 7112.78]
   - - [196, 256, 256, 1024]
-    - [268, 8302.7]
+    - [497, 8302.7]
   - - [784, 512, 256, 128]
-    - [266, 9061.36]
+    - [495, 9061.36]
   - - [49, 2048, 128, 512]
-    - [264, 6963.36]
-  - - [784, 512, 64, 128]
-    - [266, 8822.62]
+    - [493, 6963.36]
   - - [784, 128, 128, 512]
-    - [273, 8983.63]
+    - [502, 8983.63]
   - - [196, 256, 64, 1024]
-    - [272, 7823.5]
+    - [501, 7823.5]
   - - [3136, 256, 256, 64]
-    - [269, 9051.38]
+    - [498, 9051.38]
   - - [3136, 64, 128, 64]
-    - [265, 8581.35]
+    - [494, 8581.35]
   - - [49, 2048, 256, 512]
-    - [264, 7049.64]
-  - - [196, 1024, 64, 256]
-    - [267, 7953.69]
+    - [493, 7049.64]
   - - [784, 128, 256, 512]
-    - [275, 9102.99]
+    - [504, 9102.99]
   - - [196, 256, 128, 1024]
-    - [267, 8085.89]
-  - - [3136, 64, 64, 256]
-    - [271, 9266.13]
-  - - [784, 128, 64, 512]
-    - [272, 8809.39]
-  - - [49, 2048, 64, 512]
-    - [264, 6843.95]
+    - [496, 8085.89]
   - - [3136, 64, 128, 256]
-    - [271, 9381.39]
+    - [500, 9381.39]
   - - [3136, 256, 128, 64]
-    - [269, 8982.64]
+    - [498, 8982.64]
   - - [784, 512, 128, 128]
-    - [266, 8965.99]
-  - - [3136, 256, 64, 64]
-    - [269, 8879.8]
+    - [495, 8965.99]
   - - [3136, 64, 256, 256]
-    - [271, 9566.43]
-  - - [3136, 64, 64, 64]
-    - [270, 8314.05]
+    - [500, 9566.43]
   - - [3136, 64, 256, 64]
-    - [265, 8743.8]
+    - [494, 8743.8]
   - - [196, 1024, 128, 256]
-    - [268, 8119.43]
-  - - [49, 512, 64, 2048]
-    - [276, 7055.41]
+    - [497, 8119.43]
   - - [49, 512, 256, 2048]
-    - [277, 7166.41]
+    - [506, 7166.41]
   - - [196, 1024, 256, 256]
-    - [268, 8210.66]
+    - [497, 8210.66]
   - - [5329, 160, 64, 64]
-    - [284, 8156.89]
+    - [513, 8156.89]
   - - [1225, 288, 64, 48]
-    - [288, 6926.23]
+    - [517, 6926.23]
   - - [1225, 192, 64, 64]
-    - [290, 7840.1]
+    - [519, 7840.1]
   - - [64, 1280, 64, 384]
-    - [291, 9276.11]
+    - [520, 9276.11]
   - - [1225, 384, 64, 192]
-    - [281, 9162.35]
+    - [510, 9162.35]
   - - [1225, 288, 64, 64]
-    - [282, 7495.27]
+    - [511, 7495.27]
   - - [5329, 64, 64, 80]
-    - [283, 8480.13]
+    - [512, 8480.13]
   - - [289, 1024, 64, 256]
-    - [281, 8483.83]
+    - [510, 8483.83]
   - - [289, 768, 64, 192]
-    - [287, 8234.84]
+    - [516, 8234.84]
   - - [289, 768, 64, 128]
-    - [287, 7988.81]
+    - [516, 7988.81]
   - - [64, 1536, 64, 384]
-    - [291, 9323.65]
+    - [520, 9323.65]
   - - [1225, 384, 64, 64]
-    - [290, 8158.8]
+    - [519, 8158.8]
   - - [64, 2048, 64, 192]
-    - [287, 8818.61]
+    - [516, 8818.61]
   - - [64, 1280, 64, 320]
-    - [283, 9202.17]
+    - [512, 9202.17]
   - - [1225, 384, 64, 96]
-    - [281, 8540.7]
+    - [510, 8540.7]
   - - [64, 1280, 64, 448]
-    - [287, 9317.82]
+    - [516, 9317.82]
   - - [289, 768, 64, 160]
-    - [291, 8128.81]
+    - [520, 8128.81]
   - - [1225, 192, 64, 32]
-    - [290, 6495.37]
+    - [519, 6495.37]
   - - [64, 1536, 64, 256]
-    - [287, 9143.0]
+    - [516, 9143.0]
   - - [1225, 256, 64, 48]
-    - [285, 7545.36]
+    - [514, 7545.36]
   - - [1225, 256, 64, 64]
-    - [286, 7972.45]
+    - [515, 7972.45]
   - - [1225, 192, 64, 48]
-    - [289, 7348.9]
+    - [518, 7348.9]
   - - [289, 1024, 64, 384]
-    - [279, 8725.66]
+    - [508, 8725.66]
   - - [289, 1024, 64, 192]
-    - [281, 8313.16]
+    - [510, 8313.16]
   - - [64, 1280, 64, 192]
-    - [283, 8768.68]
+    - [512, 8768.68]
   - - [64, 2048, 64, 320]
-    - [280, 9147.98]
+    - [509, 9147.98]
   - - [64, 2048, 64, 448]
-    - [278, 9304.16]
+    - [507, 9304.16]
   - - [64, 2048, 64, 384]
-    - [280, 9235.28]
+    - [509, 9235.28]
   - - [289, 1024, 64, 128]
-    - [287, 7989.51]
+    - [516, 7989.51]
   - - [4096, 1024, 1, 2984]
-    - [326, 9846.39]
+    - [555, 9846.39]
   - - [1024, 4096, 1, 3437]
-    - [327, 9915.8]
+    - [556, 9915.8]
   - - [1024, 4096, 1, 3235]
-    - [320, 9914.02]
+    - [549, 9914.02]
   - - [4096, 1024, 1, 4032]
-    - [326, 9926.06]
+    - [555, 9926.06]
   - - [1024, 4096, 1, 3334]
-    - [327, 9918.27]
+    - [556, 9918.27]
   - - [4096, 1024, 1, 3288]
-    - [327, 9854.67]
+    - [556, 9854.67]
   - - [1024, 4096, 1, 3515]
-    - [327, 9924.03]
+    - [556, 9924.03]
   - - [4096, 1024, 1, 3437]
-    - [327, 9869.63]
+    - [556, 9869.63]
   - - [1024, 4096, 1, 3259]
-    - [327, 9907.65]
+    - [556, 9907.65]
   - - [1024, 4096, 1, 3384]
-    - [319, 9921.21]
+    - [548, 9921.21]
   - - [64, 92, 688, 92]
-    - [297, 6137.89]
+    - [526, 6137.89]
   - - [4096, 1024, 1, 3458]
-    - [326, 9887.69]
+    - [555, 9887.69]
   - - [1024, 4096, 1, 3412]
-    - [326, 9930.56]
+    - [555, 9930.56]
   - - [1024, 4096, 1, 3529]
-    - [320, 9924.54]
+    - [549, 9924.54]
   - - [1024, 4096, 1, 4032]
-    - [327, 9963.48]
+    - [556, 9963.48]
   - - [4096, 1024, 1, 3999]
-    - [327, 9895.0]
+    - [556, 9895.0]
   - - [1024, 4096, 1, 3079]
-    - [320, 9894.58]
+    - [549, 9894.58]
   - - [1024, 4096, 1, 3876]
-    - [319, 9949.39]
+    - [548, 9949.39]
   - - [1024, 4096, 1, 3450]
-    - [327, 9915.65]
+    - [556, 9915.65]
   - - [1024, 4096, 1, 3256]
-    - [327, 9911.18]
+    - [556, 9911.18]
   - - [4096, 1024, 1, 3403]
-    - [326, 9858.93]
+    - [555, 9858.93]
   - - [1024, 1024, 1, 3975]
-    - [317, 8990.81]
+    - [546, 8990.81]
   - - [1024, 4096, 1, 3359]
-    - [327, 9915.0]
+    - [556, 9915.0]
   - - [4096, 1024, 1, 3549]
-    - [326, 9870.66]
+    - [555, 9870.66]
   - - [4096, 1024, 1, 3176]
-    - [327, 9855.92]
+    - [556, 9855.92]
   - - [1024, 4096, 1, 3504]
-    - [319, 9934.17]
+    - [548, 9934.17]
   - - [4096, 1024, 1, 3314]
-    - [326, 9873.9]
+    - [555, 9873.9]
   - - [4096, 1024, 1, 3183]
-    - [326, 9843.84]
+    - [555, 9843.84]
   - - [1024, 4096, 1, 3209]
-    - [320, 9904.97]
+    - [549, 9904.97]
   - - [1024, 4096, 1, 3720]
-    - [319, 9934.16]
+    - [548, 9934.16]
   - - [1024, 4096, 1, 3859]
-    - [319, 9952.53]
+    - [548, 9952.53]
   - - [1024, 33708, 1, 4059]
-    - [319, 10321.5]
+    - [548, 10321.5]
   - - [1024, 4096, 1, 3968]
-    - [319, 9955.96]
+    - [548, 9955.96]
   - - [64, 123, 528, 123]
-    - [292, 6916.21]
+    - [521, 6916.21]
   - - [4096, 1024, 1, 3477]
-    - [327, 9872.03]
+    - [556, 9872.03]
   - - [4096, 1024, 1, 3233]
-    - [327, 9862.35]
+    - [556, 9862.35]
   - - [4096, 1024, 1, 3409]
-    - [327, 9876.86]
+    - [556, 9876.86]
   - - [4096, 1024, 1, 3564]
-    - [327, 9870.49]
+    - [556, 9870.49]
   - - [64, 102, 624, 100]
-    - [292, 5773.16]
+    - [521, 5773.16]
   - - [4096, 1024, 1, 3190]
-    - [326, 9850.97]
+    - [555, 9850.97]
   - - [64, 112, 576, 111]
-    - [292, 6517.35]
+    - [521, 6517.35]
   - - [1024, 4096, 1, 3288]
-    - [326, 9911.9]
+    - [555, 9911.9]
   - - [4096, 1024, 1, 3451]
-    - [326, 9859.61]
+    - [555, 9859.61]
   - - [1024, 4096, 1, 3348]
-    - [319, 9915.47]
+    - [548, 9915.47]
   - - [64, 102, 624, 102]
-    - [292, 5783.7]
+    - [521, 5783.7]
   - - [1024, 4096, 1, 3465]
-    - [320, 9913.12]
+    - [549, 9913.12]
   - - [1024, 33708, 1, 4032]
-    - [319, 10340.4]
+    - [548, 10340.4]
   - - [1024, 33708, 1, 3840]
-    - [319, 10341.8]
+    - [548, 10341.8]
   - - [4096, 1024, 1, 3391]
-    - [327, 9861.77]
+    - [556, 9861.77]
   - - [1024, 4096, 1, 3530]
-    - [319, 9920.44]
+    - [548, 9920.44]
   - - [4096, 1024, 1, 3209]
-    - [326, 9847.0]
+    - [555, 9847.0]
   - - [1024, 4096, 1, 3457]
-    - [320, 9917.29]
+    - [549, 9917.29]
   - - [1024, 4096, 1, 3386]
-    - [319, 9917.65]
+    - [548, 9917.65]
   - - [4096, 1024, 1, 3350]
-    - [326, 9884.54]
+    - [555, 9884.54]
   - - [1024, 4096, 1, 3184]
-    - [327, 9925.98]
+    - [556, 9925.98]
   - - [1024, 4096, 1, 3093]
-    - [326, 9902.55]
+    - [555, 9902.55]
   - - [64, 133, 480, 135]
-    - [309, 6205.97]
+    - [538, 6205.97]
   - - [1024, 4096, 1, 3400]
-    - [319, 9917.1]
+    - [548, 9917.1]
   - - [1024, 1024, 1, 4026]
-    - [325, 9014.39]
+    - [554, 9014.39]
   - - [1024, 4096, 1, 3214]
-    - [319, 9895.94]
+    - [548, 9895.94]
   - - [4096, 1024, 1, 3406]
-    - [327, 9857.82]
+    - [556, 9857.82]
   - - [1024, 4096, 1, 3565]
-    - [326, 9919.37]
+    - [555, 9919.37]
   - - [4096, 1024, 1, 3536]
-    - [327, 9889.06]
+    - [556, 9889.06]
   - - [1024, 4096, 1, 3183]
-    - [326, 9907.55]
+    - [555, 9907.55]
   - - [1024, 4096, 1, 3462]
-    - [327, 9922.4]
+    - [556, 9922.4]
   - - [4096, 1024, 1, 3130]
-    - [320, 9846.04]
+    - [549, 9846.04]
   - - [4096, 1024, 1, 3381]
-    - [327, 9868.27]
+    - [556, 9868.27]
   - - [4096, 1024, 1, 3298]
-    - [326, 9870.54]
+    - [555, 9870.54]
   - - [1024, 4096, 1, 3292]
-    - [319, 9906.3]
+    - [548, 9906.3]
   - - [4096, 1024, 1, 3289]
-    - [326, 9856.55]
+    - [555, 9856.55]
   - - [64, 160, 400, 159]
-    - [312, 7427.84]
+    - [541, 7427.84]
   - - [1024, 4096, 1, 3379]
-    - [319, 9917.09]
+    - [548, 9917.09]
   - - [1024, 4096, 1, 3990]
-    - [320, 9947.37]
+    - [549, 9947.37]
   - - [1024, 4096, 1, 3540]
-    - [327, 9935.76]
+    - [556, 9935.76]
   - - [4096, 1024, 1, 3412]
-    - [327, 9867.56]
+    - [556, 9867.56]
   - - [1024, 1024, 1, 3780]
-    - [322, 9036.26]
+    - [551, 9036.26]
   - - [1024, 4096, 1, 3555]
-    - [326, 9927.37]
+    - [555, 9927.37]
   - - [1024, 4096, 1, 3518]
-    - [320, 9925.55]
+    - [549, 9925.55]
   - - [4096, 1024, 1, 3189]
-    - [326, 9861.24]
+    - [555, 9861.24]
   - - [1024, 4096, 1, 3298]
-    - [320, 9923.22]
+    - [549, 9923.22]
   - - [4096, 1024, 1, 3072]
-    - [326, 9872.08]
+    - [555, 9872.08]
   - - [1024, 4096, 1, 3393]
-    - [327, 9929.28]
+    - [556, 9929.28]
   - - [1024, 4096, 1, 3207]
-    - [319, 9912.81]
+    - [548, 9912.81]
   - - [64, 228, 272, 232]
-    - [315, 7350.14]
+    - [544, 7350.14]
   - - [64, 23, 2720, 23]
-    - [296, 2640.25]
+    - [525, 2640.25]
   - - [4096, 1024, 1, 3487]
-    - [327, 9860.91]
+    - [556, 9860.91]
   - - [1024, 1024, 1, 3822]
-    - [325, 8993.96]
+    - [554, 8993.96]
   - - [64, 77, 816, 77]
-    - [297, 5273.19]
+    - [526, 5273.19]
   - - [4096, 1024, 1, 3431]
-    - [327, 9867.53]
+    - [556, 9867.53]
   - - [4096, 1024, 1, 3378]
-    - [326, 9888.14]
+    - [555, 9888.14]
   - - [4096, 1024, 1, 3529]
-    - [320, 9879.5]
+    - [549, 9879.5]
   - - [4096, 1024, 1, 3460]
-    - [327, 9877.25]
+    - [556, 9877.25]
   - - [1024, 4096, 1, 3336]
-    - [319, 9912.41]
+    - [548, 9912.41]
   - - [1024, 4096, 1, 3501]
-    - [320, 9914.4]
+    - [549, 9914.4]
   - - [64, 159, 400, 159]
-    - [310, 7016.51]
+    - [539, 7016.51]
   - - [1024, 4096, 1, 3584]
-    - [327, 9940.59]
+    - [556, 9940.59]
   - - [64, 135, 480, 134]
-    - [310, 6241.39]
+    - [539, 6241.39]
   - - [64, 99, 624, 99]
-    - [301, 5617.39]
+    - [530, 5617.39]
   - - [4096, 1024, 1, 2499]
-    - [326, 9813.57]
+    - [555, 9813.57]
   - - [1024, 1024, 1, 3942]
-    - [322, 9060.01]
+    - [551, 9060.01]
   - - [4096, 1024, 1, 3352]
-    - [326, 9867.12]
+    - [555, 9867.12]
   - - [1024, 4096, 1, 3543]
-    - [327, 9928.77]
+    - [556, 9928.77]
   - - [1024, 4096, 1, 3476]
-    - [326, 9931.58]
+    - [555, 9931.58]
   - - [1024, 33708, 1, 3822]
-    - [319, 10324.7]
+    - [548, 10324.7]
   - - [1024, 4096, 1, 3436]
-    - [319, 9917.28]
+    - [548, 9917.28]
   - - [1024, 1024, 1, 3861]
-    - [318, 8998.49]
+    - [547, 8998.49]
   - - [1024, 1024, 1, 4000]
-    - [323, 9058.3]
+    - [552, 9058.3]
   - - [1024, 4096, 1, 3594]
-    - [319, 9927.88]
+    - [548, 9927.88]
   - - [4096, 1024, 1, 3514]
-    - [327, 9872.3]
+    - [556, 9872.3]
   - - [1024, 4096, 1, 3064]
-    - [326, 9907.1]
+    - [555, 9907.1]
   - - [4096, 1024, 1, 3371]
-    - [319, 9857.74]
+    - [548, 9857.74]
   - - [4096, 1024, 1, 3558]
-    - [327, 9876.31]
+    - [556, 9876.31]
   - - [4096, 1024, 1, 3517]
-    - [326, 9866.45]
+    - [555, 9866.45]
   - - [4096, 1024, 1, 3144]
-    - [326, 9846.36]
+    - [555, 9846.36]
   - - [1024, 4096, 1, 3312]
-    - [319, 9932.85]
+    - [548, 9932.85]
   - - [4096, 1024, 1, 3079]
-    - [326, 9851.1]
+    - [555, 9851.1]
   - - [1024, 4096, 1, 3415]
-    - [319, 9919.47]
+    - [548, 9919.47]
   - - [1024, 4096, 1, 3221]
-    - [326, 9908.18]
+    - [555, 9908.18]
   - - [1024, 4096, 1, 3978]
-    - [320, 9944.41]
+    - [549, 9944.41]
   - - [4096, 1024, 1, 3876]
-    - [326, 9898.99]
+    - [555, 9898.99]
   - - [1024, 4096, 1, 3528]
-    - [319, 9919.6]
+    - [548, 9919.6]
   - - [1024, 4096, 1, 3181]
-    - [327, 9894.86]
+    - [556, 9894.86]
   - - [4096, 1024, 1, 3445]
-    - [326, 9878.54]
+    - [555, 9878.54]
   - - [4096, 1024, 1, 3450]
-    - [319, 9864.82]
+    - [548, 9864.82]
   - - [4096, 1024, 1, 3377]
-    - [326, 9879.69]
+    - [555, 9879.69]
   - - [1024, 4096, 1, 3532]
-    - [320, 9928.19]
+    - [549, 9928.19]
   - - [1024, 33708, 1, 3944]
-    - [319, 10329.7]
+    - [548, 10329.7]
   - - [4096, 1024, 1, 3483]
-    - [326, 9861.83]
+    - [555, 9861.83]
   - - [1024, 4096, 1, 3358]
-    - [319, 9903.69]
+    - [548, 9903.69]
   - - [4096, 1024, 1, 3464]
-    - [326, 9876.84]
+    - [555, 9876.84]
   - - [4096, 1024, 1, 3282]
-    - [319, 9859.23]
+    - [548, 9859.23]
   - - [4096, 1024, 1, 3256]
-    - [327, 9855.1]
+    - [556, 9855.1]
   - - [1024, 4096, 1, 3057]
-    - [326, 9910.75]
+    - [555, 9910.75]
   - - [4096, 1024, 1, 3481]
-    - [326, 9866.29]
+    - [555, 9866.29]
   - - [4096, 1024, 1, 3340]
-    - [326, 9862.25]
+    - [555, 9862.25]
   - - [1024, 1024, 1, 3870]
-    - [325, 9082.45]
+    - [554, 9082.45]
   - - [1024, 4096, 1, 3273]
-    - [319, 9916.29]
+    - [548, 9916.29]
   - - [64, 65, 992, 65]
-    - [310, 4683.01]
+    - [539, 4683.01]
   - - [4096, 1024, 1, 3392]
-    - [320, 9881.12]
+    - [549, 9881.12]
   - - [4096, 1024, 1, 3337]
-    - [326, 9864.5]
+    - [555, 9864.5]
   - - [4096, 1024, 1, 3359]
-    - [326, 9874.42]
+    - [555, 9874.42]
   - - [4096, 1024, 1, 3498]
-    - [327, 9864.35]
+    - [556, 9864.35]
   - - [4096, 1024, 1, 3169]
-    - [326, 9851.1]
+    - [555, 9851.1]
   - - [1024, 33708, 1, 3859]
-    - [320, 10332.6]
+    - [549, 10332.6]
   - - [64, 19, 3264, 19]
-    - [296, 2182.14]
+    - [525, 2182.14]
   - - [1024, 4096, 1, 3103]
-    - [319, 9898.9]
+    - [548, 9898.9]
   - - [4096, 1024, 1, 3900]
-    - [326, 9897.12]
+    - [555, 9897.12]
   - - [1024, 4096, 1, 3442]
-    - [326, 9938.97]
+    - [555, 9938.97]
   - - [1024, 4096, 1, 3248]
-    - [326, 9939.92]
+    - [555, 9939.92]
   - - [1024, 4096, 1, 3351]
-    - [327, 9923.23]
+    - [556, 9923.23]
   - - [4096, 1024, 1, 3593]
-    - [326, 9894.36]
+    - [555, 9894.36]
   - - [1024, 4096, 1, 3780]
-    - [326, 9941.96]
+    - [555, 9941.96]
   - - [64, 133, 480, 133]
-    - [310, 6180.79]
+    - [539, 6180.79]
   - - [1024, 33708, 1, 3681]
-    - [319, 10332.3]
+    - [548, 10332.3]
   - - [4096, 1024, 1, 3374]
-    - [320, 9859.36]
+    - [549, 9859.36]
   - - [1024, 4096, 1, 3557]
-    - [319, 9928.2]
+    - [548, 9928.2]
   - - [4096, 1024, 1, 3906]
-    - [326, 9907.07]
+    - [555, 9907.07]
   - - [4096, 1024, 1, 3504]
-    - [326, 9886.05]
+    - [555, 9886.05]
   - - [1024, 4096, 1, 3270]
-    - [326, 9916.37]
+    - [555, 9916.37]
   - - [4096, 1024, 1, 3098]
-    - [319, 9854.76]
+    - [548, 9854.76]
   - - [64, 232, 272, 232]
-    - [315, 7394.1]
+    - [544, 7394.1]
   - - [4096, 1024, 1, 3216]
-    - [327, 9876.57]
+    - [556, 9876.57]
   - - [64, 148, 432, 148]
-    - [312, 6663.85]
+    - [541, 6663.85]
   - - [1024, 4096, 1, 3550]
-    - [326, 9920.28]
+    - [555, 9920.28]
   - - [4096, 1024, 1, 3449]
-    - [320, 9870.57]
+    - [549, 9870.57]
   - - [1024, 4096, 1, 3403]
-    - [327, 9908.21]
+    - [556, 9908.21]
   - - [1024, 4096, 1, 3523]
-    - [326, 9932.71]
+    - [555, 9932.71]
   - - [1024, 4096, 1, 3486]
-    - [326, 9917.46]
+    - [555, 9917.46]
   - - [1024, 4096, 1, 3564]
-    - [326, 9923.44]
+    - [555, 9923.44]
   - - [1024, 33708, 1, 4005]
-    - [319, 10339.5]
+    - [548, 10339.5]
   - - [4096, 1024, 1, 3296]
-    - [326, 9879.78]
+    - [555, 9879.78]
   - - [1024, 4096, 1, 3263]
-    - [319, 9907.17]
+    - [548, 9907.17]
   - - [64, 25, 2512, 25]
-    - [296, 2848.17]
+    - [525, 2848.17]
   - - [1024, 4096, 1, 3130]
-    - [327, 9900.1]
+    - [556, 9900.1]
   - - [1024, 4096, 1, 3295]
-    - [327, 9895.45]
+    - [556, 9895.45]
   - - [1024, 33708, 1, 3925]
-    - [320, 10342.3]
+    - [549, 10342.3]
   - - [1024, 4096, 1, 3378]
-    - [319, 9921.37]
+    - [548, 9921.37]
   - - [4096, 1024, 1, 3720]
-    - [327, 9885.82]
+    - [556, 9885.82]
   - - [4096, 1024, 1, 3399]
-    - [326, 9880.65]
+    - [555, 9880.65]
   - - [4096, 1024, 1, 3543]
-    - [327, 9870.73]
+    - [556, 9870.73]
   - - [64, 9, 6544, 9]
-    - [299, 955.17]
+    - [528, 955.17]
   - - [4096, 1024, 1, 3497]
-    - [326, 9868.43]
+    - [555, 9868.43]
   - - [4096, 1024, 1, 3594]
-    - [327, 9876.88]
+    - [556, 9876.88]
   - - [1024, 4096, 1, 3144]
-    - [327, 9901.96]
+    - [556, 9901.96]
   - - [1024, 4096, 1, 3975]
-    - [320, 9950.19]
+    - [549, 9950.19]
   - - [4096, 1024, 1, 3205]
-    - [327, 9856.07]
+    - [556, 9856.07]
   - - [1024, 33708, 1, 3995]
-    - [319, 10331.1]
+    - [548, 10331.1]
   - - [1024, 4096, 1, 3392]
-    - [319, 9935.78]
+    - [548, 9935.78]
   - - [1024, 4096, 1, 3055]
-    - [327, 9893.25]
+    - [556, 9893.25]
   - - [1024, 4096, 1, 4026]
-    - [327, 9940.22]
+    - [556, 9940.22]
   - - [4096, 1024, 1, 3557]
-    - [326, 9884.0]
+    - [555, 9884.0]
   - - [4096, 1024, 1, 3515]
-    - [326, 9871.94]
+    - [555, 9871.94]
   - - [4096, 1024, 1, 3486]
-    - [327, 9860.74]
+    - [556, 9860.74]
   - - [4096, 1024, 1, 3457]
-    - [327, 9885.37]
+    - [556, 9885.37]
   - - [1024, 4096, 1, 3511]
-    - [319, 9928.24]
+    - [548, 9928.24]
   - - [4096, 1024, 1, 3138]
-    - [326, 9854.06]
+    - [555, 9854.06]
   - - [1024, 4096, 1, 3339]
-    - [320, 9912.89]
+    - [549, 9912.89]
   - - [1024, 4096, 1, 3939]
-    - [320, 9952.26]
+    - [549, 9952.26]
   - - [4096, 1024, 1, 3500]
-    - [320, 9863.62]
+    - [549, 9863.62]
   - - [4096, 1024, 1, 3395]
-    - [327, 9883.82]
+    - [556, 9883.82]
   - - [4096, 1024, 1, 3968]
-    - [327, 9920.36]
+    - [556, 9920.36]
   - - [4096, 1024, 1, 4020]
-    - [327, 9912.81]
+    - [556, 9912.81]
   - - [4096, 1024, 1, 3942]
-    - [326, 9910.17]
+    - [555, 9910.17]
   - - [1024, 1024, 1, 4032]
-    - [316, 9024.74]
+    - [545, 9024.74]
   - - [4096, 1024, 1, 3349]
-    - [327, 9866.04]
+    - [556, 9866.04]
   - - [1024, 4096, 1, 3322]
-    - [320, 9908.43]
+    - [549, 9908.43]
   - - [4096, 1024, 1, 3452]
-    - [326, 9872.69]
+    - [555, 9872.69]
   - - [1024, 4096, 1, 3417]
-    - [326, 9912.64]
+    - [555, 9912.64]
   - - [1024, 1024, 1, 4012]
-    - [324, 9085.47]
+    - [553, 9085.47]
   - - [1024, 4096, 1, 3526]
-    - [320, 9920.36]
+    - [549, 9920.36]
   - - [4096, 1024, 1, 3485]
-    - [320, 9861.64]
+    - [549, 9861.64]
   - - [1024, 1024, 1, 3681]
-    - [324, 8991.46]
+    - [553, 8991.46]
   - - [4096, 1024, 1, 3303]
-    - [327, 9861.3]
+    - [556, 9861.3]
   - - [4096, 1024, 1, 3344]
-    - [327, 9892.44]
+    - [556, 9892.44]
   - - [1024, 4096, 1, 3479]
-    - [327, 9921.77]
+    - [556, 9921.77]
   - - [4096, 1024, 1, 3300]
-    - [326, 9868.64]
+    - [555, 9868.64]
   - - [1024, 4096, 1, 3439]
-    - [320, 9918.29]
+    - [549, 9918.29]
   - - [4096, 1024, 1, 3280]
-    - [327, 9875.29]
+    - [556, 9875.29]
   - - [1024, 4096, 1, 3245]
-    - [319, 9910.49]
+    - [548, 9910.49]
   - - [1024, 4096, 1, 3328]
-    - [319, 9941.6]
+    - [548, 9941.6]
   - - [4096, 1024, 1, 3418]
-    - [319, 9870.76]
+    - [548, 9870.76]
   - - [1024, 4096, 1, 3493]
-    - [327, 9938.45]
+    - [556, 9938.45]
   - - [1024, 4096, 1, 3500]
-    - [319, 9916.93]
+    - [548, 9916.93]
   - - [1024, 4096, 1, 3166]
-    - [319, 9898.12]
+    - [548, 9898.12]
   - - [4096, 1024, 1, 3126]
-    - [320, 9847.04]
+    - [549, 9847.04]
   - - [1024, 4096, 1, 3277]
-    - [327, 9898.66]
+    - [556, 9898.66]
   - - [1024, 4096, 1, 3315]
-    - [326, 9923.11]
+    - [555, 9923.11]
   - - [1024, 1024, 1, 3927]
-    - [317, 8987.71]
+    - [546, 8987.71]
   - - [1024, 4096, 1, 3414]
-    - [319, 9916.01]
+    - [548, 9916.01]
   - - [4096, 1024, 1, 3531]
-    - [326, 9871.92]
+    - [555, 9871.92]
   - - [4096, 1024, 1, 3484]
-    - [319, 9867.86]
+    - [548, 9867.86]
   - - [1024, 4096, 1, 3180]
-    - [326, 9904.09]
+    - [555, 9904.09]
   - - [4096, 1024, 1, 3360]
-    - [326, 9879.57]
+    - [555, 9879.57]
   - - [1024, 33708, 1, 3990]
-    - [319, 10335.0]
+    - [548, 10335.0]
   - - [4096, 1024, 1, 3466]
-    - [326, 9875.02]
+    - [555, 9875.02]
   - - [1024, 4096, 1, 3428]
-    - [319, 9916.02]
+    - [548, 9916.02]
   - - [1024, 4096, 1, 3137]
-    - [326, 9913.27]
+    - [555, 9913.27]
   - - [4096, 1024, 1, 4059]
-    - [326, 9901.86]
+    - [555, 9901.86]
   - - [1024, 4096, 1, 3353]
-    - [326, 9914.6]
+    - [555, 9914.6]
   - - [1024, 4096, 1, 3942]
-    - [326, 9944.5]
+    - [555, 9944.5]
   - - [4096, 1024, 1, 3506]
-    - [319, 9875.75]
+    - [548, 9875.75]
   - - [1024, 1024, 1, 3894]
-    - [317, 8946.55]
+    - [546, 8946.55]
   - - [4096, 1024, 1, 3508]
-    - [327, 9877.67]
+    - [556, 9877.67]
   - - [64, 132, 480, 135]
-    - [310, 6164.86]
+    - [539, 6164.86]
   - - [4096, 1024, 1, 3956]
-    - [319, 9907.83]
+    - [548, 9907.83]
   - - [64, 7, 8192, 7]
-    - [298, 813.078]
+    - [527, 813.078]
   - - [1024, 4096, 1, 3272]
-    - [320, 9909.82]
+    - [549, 9909.82]
   - - [1024, 4096, 1, 3443]
-    - [327, 9929.83]
+    - [556, 9929.83]
   - - [1024, 4096, 1, 3375]
-    - [327, 9909.23]
+    - [556, 9909.23]
   - - [1024, 4096, 1, 3525]
-    - [327, 9929.27]
+    - [556, 9929.27]
   - - [4096, 1024, 1, 3472]
-    - [326, 9889.97]
+    - [555, 9889.97]
   - - [1024, 4096, 1, 3520]
-    - [319, 9947.79]
+    - [548, 9947.79]
   - - [4096, 1024, 1, 3322]
-    - [326, 9862.98]
+    - [555, 9862.98]
   - - [4096, 1024, 1, 3387]
-    - [326, 9861.62]
+    - [555, 9861.62]
   - - [64, 8, 7280, 8]
-    - [304, 1024.1]
+    - [533, 1024.1]
   - - [1024, 33708, 1, 3939]
-    - [319, 10339.9]
+    - [548, 10339.9]
   - - [4096, 1024, 1, 3345]
-    - [327, 9873.68]
+    - [556, 9873.68]
   - - [4096, 1024, 1, 2967]
-    - [326, 9839.21]
+    - [555, 9839.21]
   - - [1024, 4096, 1, 3453]
-    - [319, 9905.81]
+    - [548, 9905.81]
   - - [1024, 4096, 1, 3640]
-    - [326, 9934.05]
+    - [555, 9934.05]
   - - [4096, 1024, 1, 3291]
-    - [320, 9860.84]
+    - [549, 9860.84]
   - - [1024, 4096, 1, 3350]
-    - [327, 9918.03]
+    - [556, 9918.03]
   - - [4096, 1024, 1, 3417]
-    - [326, 9864.61]
+    - [555, 9864.61]
   - - [64, 135, 480, 135]
-    - [310, 6265.45]
+    - [539, 6265.45]
   - - [1024, 4096, 1, 3467]
-    - [320, 9906.95]
+    - [549, 9906.95]
   - - [1024, 4096, 1, 3491]
-    - [326, 9933.3]
+    - [555, 9933.3]
   - - [1024, 4096, 1, 3822]
-    - [326, 9938.75]
+    - [555, 9938.75]
   - - [4096, 1024, 1, 3292]
-    - [326, 9849.21]
+    - [555, 9849.21]
   - - [1024, 4096, 1, 3231]
-    - [319, 9905.82]
+    - [548, 9905.82]
   - - [1024, 4096, 1, 3364]
-    - [320, 9930.32]
+    - [549, 9930.32]
   - - [1024, 4096, 1, 3995]
-    - [320, 9943.76]
+    - [549, 9943.76]
   - - [1024, 4096, 1, 3545]
-    - [319, 9928.53]
+    - [548, 9928.53]
   - - [1024, 1024, 1, 3876]
-    - [317, 9003.04]
+    - [546, 9003.04]
   - - [1024, 4096, 1, 3186]
-    - [319, 9921.01]
+    - [548, 9921.01]
   - - [4096, 1024, 1, 3432]
-    - [326, 9875.29]
+    - [555, 9875.29]
   - - [64, 84, 752, 85]
-    - [297, 5704.51]
+    - [526, 5704.51]
   - - [4096, 1024, 1, 3367]
-    - [320, 9868.06]
+    - [549, 9868.06]
   - - [4096, 1024, 1, 3503]
-    - [327, 9871.01]
+    - [556, 9871.01]
   - - [1024, 4096, 1, 3095]
-    - [320, 9902.9]
+    - [549, 9902.9]
   - - [4096, 1024, 1, 3465]
-    - [327, 9872.17]
+    - [556, 9872.17]
   - - [1024, 4096, 1, 3402]
-    - [326, 9914.66]
+    - [555, 9914.66]
   - - [4096, 1024, 1, 3140]
-    - [326, 9847.95]
+    - [555, 9847.95]
   - - [1024, 1024, 1, 4050]
-    - [323, 9055.75]
+    - [552, 9055.75]
   - - [4096, 1024, 1, 3424]
-    - [320, 9894.62]
+    - [549, 9894.62]
   - - [4096, 1024, 1, 3257]
-    - [319, 9860.97]
+    - [548, 9860.97]
   - - [4096, 1024, 1, 2917]
-    - [326, 9845.91]
+    - [555, 9845.91]
   - - [1024, 33708, 1, 3640]
-    - [319, 10321.7]
+    - [548, 10321.7]
   - - [1024, 4096, 1, 3456]
-    - [319, 9950.35]
+    - [548, 9950.35]
   - - [1024, 4096, 1, 3014]
-    - [319, 9907.97]
+    - [548, 9907.97]
   - - [4096, 1024, 1, 3372]
-    - [327, 9868.37]
+    - [556, 9868.37]
   - - [64, 132, 480, 132]
-    - [310, 6121.62]
+    - [539, 6121.62]
   - - [1024, 4096, 1, 3294]
-    - [327, 9903.23]
+    - [556, 9903.23]
   - - [4096, 1024, 1, 3446]
-    - [327, 9871.69]
+    - [556, 9871.69]
   - - [1024, 4096, 1, 3389]
-    - [320, 9909.27]
+    - [549, 9909.27]
   - - [4096, 1024, 1, 3259]
-    - [326, 9860.76]
+    - [555, 9860.76]
   - - [4096, 1024, 1, 3544]
-    - [326, 9878.76]
+    - [555, 9878.76]
   - - [4096, 1024, 1, 3479]
-    - [327, 9873.97]
+    - [556, 9873.97]
   - - [4096, 1024, 1, 3542]
-    - [326, 9878.97]
+    - [555, 9878.97]
   - - [4096, 1024, 1, 3321]
-    - [319, 9861.13]
+    - [548, 9861.13]
   - - [1024, 4096, 1, 3147]
-    - [319, 9894.77]
+    - [548, 9894.77]
   - - [1024, 4096, 1, 3944]
-    - [319, 9950.51]
+    - [548, 9950.51]
   - - [4096, 1024, 1, 3870]
-    - [327, 9881.74]
+    - [556, 9881.74]
   - - [1024, 4096, 1, 3308]
-    - [319, 9907.26]
+    - [548, 9907.26]
   - - [4096, 1024, 1, 3401]
-    - [326, 9864.59]
+    - [555, 9864.59]
   - - [1024, 4096, 1, 3395]
-    - [319, 9929.03]
+    - [548, 9929.03]
   - - [64, 99, 624, 102]
-    - [295, 5651.36]
+    - [524, 5651.36]
   - - [1024, 4096, 1, 3563]
-    - [326, 9922.76]
+    - [555, 9922.76]
   - - [1024, 33708, 1, 3870]
-    - [319, 10325.4]
+    - [548, 10325.4]
   - - [4096, 1024, 1, 3494]
-    - [326, 9875.37]
+    - [555, 9875.37]
   - - [1024, 4096, 1, 3271]
-    - [319, 9913.09]
+    - [548, 9913.09]
   - - [1024, 33708, 1, 3910]
-    - [319, 10341.5]
+    - [548, 10341.5]
   - - [1024, 4096, 1, 3287]
-    - [327, 9924.87]
+    - [556, 9924.87]
   - - [1024, 33708, 1, 3860]
-    - [319, 10330.7]
+    - [548, 10330.7]
   - - [64, 143, 432, 148]
-    - [312, 6571.78]
+    - [541, 6571.78]
   - - [1024, 1024, 1, 3584]
-    - [324, 8975.31]
+    - [553, 8975.31]
   - - [64, 162, 400, 162]
-    - [314, 6822.26]
+    - [543, 6822.26]
   - - [4096, 1024, 1, 3341]
-    - [326, 9854.66]
+    - [555, 9854.66]
   - - [1024, 4096, 1, 3136]
-    - [319, 9926.86]
+    - [548, 9926.86]
   - - [4096, 1024, 1, 3439]
-    - [326, 9854.33]
+    - [555, 9854.33]
   - - [64, 148, 432, 147]
-    - [310, 6677.61]
+    - [539, 6677.61]
   - - [1024, 4096, 1, 3751]
-    - [326, 9938.48]
+    - [555, 9938.48]
   - - [1024, 4096, 1, 3301]
-    - [326, 9919.15]
+    - [555, 9919.15]
   - - [4096, 1024, 1, 3468]
-    - [327, 9859.83]
+    - [556, 9859.83]
   - - [1024, 4096, 1, 3416]
-    - [327, 9918.52]
+    - [556, 9918.52]
   - - [4096, 1024, 1, 3163]
-    - [326, 9854.65]
+    - [555, 9854.65]
   - - [1024, 4096, 1, 3230]
-    - [320, 9897.54]
+    - [549, 9897.54]
   - - [1024, 4096, 1, 3581]
-    - [320, 9915.48]
+    - [549, 9915.48]
   - - [1024, 1024, 1, 3960]
-    - [322, 9045.86]
+    - [551, 9045.86]
   - - [4096, 1024, 1, 3463]
-    - [327, 9884.74]
+    - [556, 9884.74]
   - - [1024, 4096, 1, 3478]
-    - [320, 9927.02]
+    - [549, 9927.02]
   - - [4096, 1024, 1, 3262]
-    - [326, 9852.22]
+    - [555, 9852.22]
   - - [1024, 4096, 1, 3438]
-    - [326, 9912.68]
+    - [555, 9912.68]
   - - [1024, 4096, 1, 3244]
-    - [319, 9900.51]
+    - [548, 9900.51]
   - - [1024, 4096, 1, 3445]
-    - [319, 9920.32]
+    - [548, 9920.32]
   - - [4096, 1024, 1, 3328]
-    - [326, 9888.07]
+    - [555, 9888.07]
   - - [1024, 4096, 1, 3492]
-    - [320, 9937.22]
+    - [549, 9937.22]
   - - [4096, 1024, 1, 3211]
-    - [320, 9847.95]
+    - [549, 9847.95]
   - - [1024, 4096, 1, 3910]
-    - [327, 9946.57]
+    - [556, 9946.57]
   - - [1024, 4096, 1, 3314]
-    - [319, 9932.6]
+    - [548, 9932.6]
   - - [4096, 1024, 1, 3859]
-    - [326, 9902.84]
+    - [555, 9902.84]
   - - [4096, 1024, 1, 3383]
-    - [326, 9875.2]
+    - [555, 9875.2]
   - - [1024, 4096, 1, 3409]
-    - [327, 9926.79]
+    - [556, 9926.79]
   - - [1024, 4096, 1, 4020]
-    - [319, 9941.8]
+    - [548, 9941.8]
   - - [4096, 1024, 1, 3530]
-    - [326, 9872.81]
+    - [555, 9872.81]
   - - [4096, 1024, 1, 3411]
-    - [327, 9875.02]
+    - [556, 9875.02]
   - - [1024, 4096, 1, 3566]
-    - [327, 9921.1]
+    - [556, 9921.1]
   - - [4096, 1024, 1, 3493]
-    - [319, 9875.74]
+    - [548, 9875.74]
   - - [4096, 1024, 1, 3184]
-    - [326, 9873.14]
+    - [555, 9873.14]
   - - [1024, 4096, 1, 3072]
-    - [319, 9923.79]
+    - [548, 9923.79]
   - - [1024, 4096, 1, 3431]
-    - [320, 9911.03]
+    - [549, 9911.03]
   - - [4096, 1024, 1, 3306]
-    - [327, 9853.42]
+    - [556, 9853.42]
   - - [1024, 4096, 1, 3352]
-    - [327, 9913.32]
+    - [556, 9913.32]
   - - [4096, 1024, 1, 3295]
-    - [326, 9862.68]
+    - [555, 9862.68]
   - - [64, 123, 528, 122]
-    - [292, 6950.25]
+    - [521, 6950.25]
   - - [1024, 4096, 1, 3517]
-    - [320, 9920.06]
+    - [549, 9920.06]
   - - [64, 102, 624, 101]
-    - [300, 5791.49]
+    - [529, 5791.49]
   - - [4096, 1024, 1, 3426]
-    - [326, 9891.14]
+    - [555, 9891.14]
   - - [4096, 1024, 1, 3385]
-    - [326, 9868.41]
+    - [555, 9868.41]
   - - [1024, 1024, 1, 3978]
-    - [317, 9008.48]
+    - [546, 9008.48]
   - - [4096, 1024, 1, 3572]
-    - [319, 9884.81]
+    - [548, 9884.81]
   - - [4096, 1024, 1, 3459]
-    - [326, 9892.17]
+    - [555, 9892.17]
   - - [1024, 4096, 1, 3374]
-    - [327, 9908.52]
+    - [556, 9908.52]
   - - [4096, 1024, 1, 3166]
-    - [326, 9832.45]
+    - [555, 9832.45]
   - - [4096, 1024, 1, 3093]
-    - [327, 9841.25]
+    - [556, 9841.25]
   - - [4096, 1024, 1, 3523]
-    - [320, 9879.05]
+    - [549, 9879.05]
   - - [4096, 1024, 1, 3413]
-    - [320, 9880.81]
+    - [549, 9880.81]
   - - [1024, 4096, 1, 3996]
-    - [319, 9948.14]
+    - [548, 9948.14]
   - - [1024, 4096, 1, 3452]
-    - [327, 9915.97]
+    - [556, 9915.97]
   - - [4096, 1024, 1, 3232]
-    - [327, 9876.54]
+    - [556, 9876.54]
   - - [4096, 1024, 1, 3400]
-    - [319, 9867.15]
+    - [548, 9867.15]
   - - [4096, 1024, 1, 3334]
-    - [326, 9868.99]
+    - [555, 9868.99]
   - - [1024, 4096, 1, 3345]
-    - [319, 9920.6]
+    - [548, 9920.6]
   - - [1024, 4096, 1, 3538]
-    - [326, 9933.34]
+    - [555, 9933.34]
   - - [1024, 4096, 1, 3466]
-    - [326, 9920.85]
+    - [555, 9920.85]
   - - [4096, 1024, 1, 3315]
-    - [326, 9876.87]
+    - [555, 9876.87]
   - - [4096, 1024, 1, 3214]
-    - [327, 9847.93]
+    - [556, 9847.93]
   - - [1024, 33708, 1, 3900]
-    - [319, 10331.7]
+    - [548, 10331.7]
   - - [64, 160, 400, 160]
-    - [312, 7440.61]
+    - [541, 7440.61]
   - - [1024, 4096, 1, 3367]
-    - [326, 9926.32]
+    - [555, 9926.32]
   - - [1024, 4096, 1, 2917]
-    - [327, 9904.57]
+    - [556, 9904.57]
   - - [1024, 1024, 1, 3995]
-    - [318, 9000.33]
+    - [547, 9000.33]
   - - [64, 132, 480, 134]
-    - [310, 6146.88]
+    - [539, 6146.88]
   - - [1024, 4096, 1, 3544]
-    - [327, 9924.14]
+    - [556, 9924.14]
   - - [4096, 1024, 1, 3414]
-    - [327, 9867.9]
+    - [556, 9867.9]
   - - [4096, 1024, 1, 3565]
-    - [320, 9870.13]
+    - [549, 9870.13]
   - - [1024, 4096, 1, 3512]
-    - [326, 9919.84]
+    - [555, 9919.84]
   - - [1024, 4096, 1, 3191]
-    - [327, 9914.79]
+    - [556, 9914.79]
   - - [64, 27, 2336, 27]
-    - [294, 3054.71]
+    - [523, 3054.71]
   - - [1024, 4096, 1, 3289]
-    - [327, 9917.2]
+    - [556, 9917.2]
   - - [4096, 1024, 1, 3290]
-    - [326, 9858.41]
+    - [555, 9858.41]
   - - [1024, 4096, 1, 3211]
-    - [327, 9897.16]
+    - [556, 9897.16]
   - - [1024, 33708, 1, 3969]
-    - [320, 10336.1]
+    - [549, 10336.1]
   - - [4096, 1024, 1, 3566]
-    - [326, 9863.0]
+    - [555, 9863.0]
   - - [64, 111, 576, 111]
-    - [300, 6400.91]
+    - [529, 6400.91]
   - - [1024, 4096, 1, 3459]
-    - [326, 9923.03]
+    - [555, 9923.03]
   - - [1024, 4096, 1, 3372]
-    - [319, 9909.86]
+    - [548, 9909.86]
   - - [4096, 1024, 1, 3339]
-    - [326, 9859.3]
+    - [555, 9859.3]
   - - [4096, 1024, 1, 3425]
-    - [326, 9889.34]
+    - [555, 9889.34]
   - - [4096, 1024, 1, 3388]
-    - [326, 9871.67]
+    - [555, 9871.67]
   - - [1024, 4096, 1, 3531]
-    - [319, 9919.0]
+    - [548, 9919.0]
   - - [4096, 1024, 1, 3286]
-    - [327, 9868.42]
+    - [556, 9868.42]
   - - [4096, 1024, 1, 3462]
-    - [326, 9881.88]
+    - [555, 9881.88]
   - - [1024, 4096, 1, 3388]
-    - [319, 9904.69]
+    - [548, 9904.69]
   - - [4096, 1024, 1, 3165]
-    - [319, 9836.33]
+    - [548, 9836.33]
   - - [4096, 1024, 1, 3304]
-    - [326, 9857.55]
+    - [555, 9857.55]
   - - [1024, 4096, 1, 2736]
-    - [326, 9901.07]
+    - [555, 9901.07]
   - - [4096, 1024, 1, 3397]
-    - [326, 9872.1]
+    - [555, 9872.1]
   - - [64, 38, 1680, 38]
-    - [293, 3459.52]
+    - [522, 3459.52]
   - - [1024, 4096, 1, 3311]
-    - [327, 9908.32]
+    - [556, 9908.32]
   - - [1024, 4096, 1, 3394]
-    - [327, 9929.43]
+    - [556, 9929.43]
   - - [4096, 1024, 1, 2736]
-    - [326, 9833.88]
+    - [555, 9833.88]
   - - [1024, 4096, 1, 3559]
-    - [320, 9925.33]
+    - [549, 9925.33]
   - - [4096, 1024, 1, 3180]
-    - [326, 9838.05]
+    - [555, 9838.05]
   - - [1024, 4096, 1, 3480]
-    - [319, 9922.46]
+    - [548, 9922.46]
   - - [4096, 1024, 1, 3318]
-    - [326, 9867.87]
+    - [555, 9867.87]
   - - [4096, 1024, 1, 3213]
-    - [326, 9846.02]
+    - [555, 9846.02]
   - - [1024, 4096, 1, 3286]
-    - [326, 9912.14]
+    - [555, 9912.14]
   - - [4096, 1024, 1, 3471]
-    - [326, 9874.24]
+    - [555, 9874.24]
   - - [1024, 4096, 1, 3381]
-    - [327, 9922.96]
+    - [556, 9922.96]
   - - [64, 100, 624, 100]
-    - [301, 5705.24]
+    - [530, 5705.24]
   - - [4096, 1024, 1, 3502]
-    - [326, 9872.44]
+    - [555, 9872.44]
   - - [64, 16, 3840, 16]
-    - [307, 2091.67]
+    - [536, 2091.67]
   - - [1024, 4096, 1, 3552]
-    - [319, 9943.89]
+    - [548, 9943.89]
   - - [4096, 1024, 1, 3519]
-    - [327, 9869.95]
+    - [556, 9869.95]
   - - [1024, 4096, 1, 3300]
-    - [320, 9916.15]
+    - [549, 9916.15]
   - - [1024, 4096, 1, 3419]
-    - [319, 9914.06]
+    - [548, 9914.06]
   - - [4096, 1024, 1, 4030]
-    - [320, 9893.73]
+    - [549, 9893.73]
   - - [4096, 1024, 1, 3976]
-    - [327, 9898.35]
+    - [556, 9898.35]
   - - [1024, 4096, 1, 3473]
-    - [327, 9928.42]
+    - [556, 9928.42]
   - - [1024, 1024, 1, 3977]
-    - [324, 9009.33]
+    - [553, 9009.33]
   - - [4096, 1024, 1, 3428]
-    - [326, 9876.79]
+    - [555, 9876.79]
   - - [1024, 4096, 1, 3433]
-    - [320, 9923.92]
+    - [549, 9923.92]
   - - [4096, 1024, 1, 3534]
-    - [320, 9864.0]
+    - [549, 9864.0]
   - - [4096, 1024, 1, 3461]
-    - [326, 9873.12]
+    - [555, 9873.12]
   - - [4096, 1024, 1, 3681]
-    - [326, 9898.57]
+    - [555, 9898.57]
   - - [4096, 1024, 1, 3495]
-    - [327, 9876.08]
+    - [556, 9876.08]
   - - [4096, 1024, 1, 3351]
-    - [326, 9879.71]
+    - [555, 9879.71]
   - - [1024, 4096, 1, 4059]
-    - [319, 9948.61]
+    - [548, 9948.61]
   - - [4096, 1024, 1, 3990]
-    - [326, 9900.76]
+    - [555, 9900.76]
   - - [1024, 4096, 1, 3325]
-    - [320, 9903.3]
+    - [549, 9903.3]
   - - [1024, 4096, 1, 3408]
-    - [326, 9932.15]
+    - [555, 9932.15]
   - - [64, 59, 1088, 59]
-    - [300, 5343.77]
+    - [529, 5343.77]
   - - [4096, 1024, 1, 3394]
-    - [327, 9878.17]
+    - [556, 9878.17]
   - - [1024, 4096, 1, 3573]
-    - [327, 9935.3]
+    - [556, 9935.3]
   - - [4096, 1024, 1, 3386]
-    - [326, 9866.38]
+    - [555, 9866.38]
   - - [4096, 1024, 1, 3540]
-    - [326, 9882.33]
+    - [555, 9882.33]
   - - [1024, 4096, 1, 3182]
-    - [320, 9894.45]
+    - [549, 9894.45]
   - - [1024, 4096, 1, 3430]
-    - [319, 9915.24]
+    - [548, 9915.24]
   - - [1024, 4096, 1, 3236]
-    - [327, 9920.56]
+    - [556, 9920.56]
   - - [4096, 1024, 1, 2977]
-    - [326, 9848.08]
+    - [555, 9848.08]
   - - [1024, 4096, 1, 3355]
-    - [326, 9908.78]
+    - [555, 9908.78]
   - - [4096, 1024, 1, 3139]
-    - [326, 9850.71]
+    - [555, 9850.71]
   - - [4096, 1024, 1, 3516]
-    - [320, 9874.21]
+    - [549, 9874.21]
   - - [4096, 1024, 1, 3368]
-    - [320, 9872.64]
+    - [549, 9872.64]
   - - [4096, 1024, 1, 3559]
-    - [319, 9884.32]
+    - [548, 9884.32]
   - - [64, 11, 5456, 11]
-    - [307, 1382.67]
+    - [536, 1382.67]
   - - [1024, 4096, 1, 3506]
-    - [326, 9937.69]
+    - [555, 9937.69]
   - - [1024, 4096, 1, 3145]
-    - [319, 9905.11]
+    - [548, 9905.11]
   - - [1024, 4096, 1, 3369]
-    - [326, 9912.71]
+    - [555, 9912.71]
   - - [64, 112, 576, 112]
-    - [292, 6583.56]
+    - [521, 6583.56]
   - - [4096, 1024, 1, 3522]
-    - [326, 9889.47]
+    - [555, 9889.47]
   - - [1024, 33708, 1, 3894]
-    - [319, 10337.5]
+    - [548, 10337.5]
   - - [64, 159, 400, 162]
-    - [310, 7057.09]
+    - [539, 7057.09]
   - - [4096, 1024, 1, 3336]
-    - [326, 9867.67]
+    - [555, 9867.67]
   - - [1024, 4096, 1, 3382]
-    - [320, 9915.9]
+    - [549, 9915.9]
   - - [4096, 1024, 1, 3533]
-    - [326, 9878.56]
+    - [555, 9878.56]
   - - [4096, 1024, 1, 4050]
-    - [327, 9916.82]
+    - [556, 9916.82]
   - - [4096, 1024, 1, 3480]
-    - [320, 9869.32]
+    - [549, 9869.32]
   - - [1024, 4096, 1, 3344]
-    - [319, 9935.61]
+    - [548, 9935.61]
   - - [64, 122, 528, 122]
-    - [292, 6871.14]
+    - [521, 6871.14]
   - - [1024, 4096, 1, 3509]
-    - [320, 9925.8]
+    - [549, 9925.8]
   - - [1024, 4096, 1, 3956]
-    - [319, 9958.26]
+    - [548, 9958.26]
   - - [4096, 1024, 1, 3616]
-    - [326, 9904.63]
+    - [555, 9904.63]
   - - [1024, 4096, 1, 3366]
-    - [319, 9919.47]
+    - [548, 9919.47]
   - - [4096, 1024, 1, 2935]
-    - [319, 9833.23]
+    - [548, 9833.23]
   - - [4096, 1024, 1, 3393]
-    - [326, 9877.45]
+    - [555, 9877.45]
   - - [4096, 1024, 1, 3547]
-    - [320, 9865.1]
+    - [549, 9865.1]
   - - [1024, 4096, 1, 3499]
-    - [327, 9912.49]
+    - [556, 9912.49]
   - - [4096, 1024, 1, 3357]
-    - [326, 9855.28]
+    - [555, 9855.28]
   - - [4096, 1024, 1, 3272]
-    - [326, 9861.97]
+    - [555, 9861.97]
   - - [4096, 1024, 1, 3207]
-    - [326, 9847.78]
+    - [555, 9847.78]
   - - [4096, 1024, 1, 3894]
-    - [326, 9918.86]
+    - [555, 9918.86]
   - - [1024, 4096, 1, 3444]
-    - [326, 9932.71]
+    - [555, 9932.71]
   - - [4096, 1024, 1, 3561]
-    - [326, 9872.61]
+    - [555, 9872.61]
   - - [4096, 1024, 1, 3376]
-    - [326, 9885.59]
+    - [555, 9885.59]
   - - [1024, 4096, 1, 3458]
-    - [326, 9929.39]
+    - [555, 9929.39]
   - - [4096, 1024, 1, 3231]
-    - [320, 9847.08]
+    - [549, 9847.08]
   - - [64, 228, 272, 228]
-    - [321, 7302.69]
+    - [550, 7302.69]
   - - [1024, 4096, 1, 3505]
-    - [327, 9931.63]
+    - [556, 9931.63]
   - - [4096, 1024, 1, 3277]
-    - [326, 9857.2]
+    - [555, 9857.2]
   - - [64, 21, 2976, 21]
-    - [296, 2436.14]
+    - [525, 2436.14]
   - - [1024, 4096, 1, 3391]
-    - [326, 9911.25]
+    - [555, 9911.25]
   - - [64, 32, 1984, 32]
-    - [308, 3572.17]
+    - [537, 3572.17]
   - - [1024, 4096, 1, 3536]
-    - [327, 9946.9]
+    - [556, 9946.9]
   - - [1024, 4096, 1, 3063]
-    - [326, 9906.92]
+    - [555, 9906.92]
   - - [1024, 1024, 1, 3925]
-    - [318, 9011.45]
+    - [547, 9011.45]
   - - [1024, 4096, 1, 3189]
-    - [320, 9900.95]
+    - [549, 9900.95]
   - - [1024, 4096, 1, 2505]
-    - [326, 9854.85]
+    - [555, 9854.85]
   - - [4096, 1024, 1, 3454]
-    - [319, 9864.96]
+    - [548, 9864.96]
   - - [1024, 4096, 1, 3405]
-    - [327, 9906.33]
+    - [556, 9906.33]
   - - [1024, 33708, 1, 4050]
-    - [320, 10343.7]
+    - [549, 10343.7]
   - - [4096, 1024, 1, 3520]
-    - [326, 9887.03]
+    - [555, 9887.03]
   - - [64, 93, 688, 93]
-    - [303, 6222.86]
+    - [532, 6222.86]
   - - [1024, 4096, 1, 3487]
-    - [327, 9918.69]
+    - [556, 9918.69]
   - - [1024, 4096, 1, 3558]
-    - [327, 9930.99]
+    - [556, 9930.99]
   - - [4096, 1024, 1, 3297]
-    - [326, 9874.31]
+    - [555, 9874.31]
   - - [1024, 1024, 1, 3840]
-    - [322, 9075.42]
+    - [551, 9075.42]
   - - [1024, 4096, 1, 3483]
-    - [326, 9915.38]
+    - [555, 9915.38]
   - - [1024, 1024, 1, 3956]
-    - [325, 9010.03]
+    - [554, 9010.03]
   - - [1024, 33708, 1, 3751]
-    - [320, 10325.9]
+    - [549, 10325.9]
   - - [4096, 1024, 1, 3380]
-    - [326, 9888.47]
+    - [555, 9888.47]
   - - [1024, 4096, 1, 3380]
-    - [319, 9927.25]
+    - [548, 9927.25]
   - - [1024, 4096, 1, 3396]
-    - [327, 9931.96]
+    - [556, 9931.96]
   - - [1024, 4096, 1, 3497]
-    - [320, 9914.86]
+    - [549, 9914.86]
   - - [1024, 4096, 1, 3502]
-    - [327, 9921.52]
+    - [556, 9921.52]
   - - [1024, 1024, 1, 3976]
-    - [322, 9060.3]
+    - [551, 9060.3]
   - - [1024, 4096, 1, 3138]
-    - [320, 9908.66]
+    - [549, 9908.66]
   - - [4096, 1024, 1, 3939]
-    - [319, 9910.23]
+    - [548, 9910.23]
   - - [1024, 4096, 1, 3303]
-    - [320, 9916.64]
+    - [549, 9916.64]
   - - [64, 111, 576, 112]
-    - [300, 6495.19]
+    - [529, 6495.19]
   - - [1024, 4096, 1, 3418]
-    - [326, 9913.35]
+    - [555, 9913.35]
   - - [1024, 4096, 1, 3224]
-    - [320, 9904.05]
+    - [549, 9904.05]
   - - [4096, 1024, 1, 3978]
-    - [326, 9896.28]
+    - [555, 9896.28]
   - - [1024, 4096, 1, 3472]
-    - [319, 9937.48]
+    - [548, 9937.48]
   - - [4096, 1024, 1, 3353]
-    - [327, 9863.97]
+    - [556, 9863.97]
   - - [4096, 1024, 1, 3362]
-    - [326, 9871.06]
+    - [555, 9871.06]
   - - [1024, 33708, 1, 3978]
-    - [319, 10325.4]
+    - [548, 10325.4]
   - - [64, 100, 624, 102]
-    - [295, 5695.67]
+    - [524, 5695.67]
   - - [1024, 4096, 1, 3432]
-    - [327, 9915.56]
+    - [556, 9915.56]
   - - [1024, 4096, 1, 3139]
-    - [326, 9914.21]
+    - [555, 9914.21]
   - - [1024, 4096, 1, 3341]
-    - [327, 9912.1]
+    - [556, 9912.1]
   - - [1024, 4096, 1, 3494]
-    - [320, 9924.6]
+    - [549, 9924.6]
   - - [1024, 4096, 1, 3969]
-    - [319, 9952.28]
+    - [548, 9952.28]
   - - [1024, 4096, 1, 3163]
-    - [327, 9911.79]
+    - [556, 9911.79]
   - - [1024, 1024, 1, 3955]
-    - [317, 9097.86]
+    - [546, 9097.86]
   - - [4096, 1024, 1, 3405]
-    - [326, 9853.84]
+    - [555, 9853.84]
   - - [1024, 1024, 1, 4030]
-    - [317, 9083.86]
+    - [546, 9083.86]
   - - [4096, 1024, 1, 3453]
-    - [326, 9858.88]
+    - [555, 9858.88]
   - - [1024, 4096, 1, 3411]
-    - [327, 9926.54]
+    - [556, 9926.54]
   - - [1024, 4096, 1, 3527]
-    - [320, 9922.65]
+    - [549, 9922.65]
   - - [4096, 1024, 1, 3474]
-    - [326, 9878.49]
+    - [555, 9878.49]
   - - [1024, 4096, 1, 3572]
-    - [326, 9932.0]
+    - [555, 9932.0]
   - - [4096, 1024, 1, 3293]
-    - [326, 9848.26]
+    - [555, 9848.26]
   - - [4096, 1024, 1, 3247]
-    - [326, 9861.45]
+    - [555, 9861.45]
   - - [64, 15, 4096, 15]
-    - [307, 1955.75]
+    - [536, 1955.75]
   - - [1024, 4096, 1, 3425]
-    - [327, 9936.4]
+    - [556, 9936.4]
   - - [1024, 4096, 1, 3354]
-    - [319, 9917.55]
+    - [548, 9917.55]
   - - [4096, 1024, 1, 3382]
-    - [326, 9885.49]
+    - [555, 9885.49]
   - - [4096, 1024, 1, 3236]
-    - [326, 9860.6]
+    - [555, 9860.6]
   - - [1024, 4096, 1, 3519]
-    - [327, 9919.3]
+    - [556, 9919.3]
   - - [4096, 1024, 1, 3354]
-    - [326, 9854.75]
+    - [555, 9854.75]
   - - [4096, 1024, 1, 3501]
-    - [327, 9869.62]
+    - [556, 9869.62]
   - - [1024, 1024, 1, 3906]
-    - [325, 9104.99]
+    - [554, 9104.99]
   - - [4096, 1024, 1, 3266]
-    - [326, 9873.97]
+    - [555, 9873.97]
   - - [64, 101, 624, 102]
-    - [295, 5765.52]
+    - [524, 5765.52]
   - - [1024, 4096, 1, 3368]
-    - [326, 9909.77]
+    - [555, 9909.77]
   - - [1024, 4096, 1, 4030]
-    - [327, 9940.27]
+    - [556, 9940.27]
   - - [1024, 4096, 1, 3533]
-    - [320, 9916.64]
+    - [549, 9916.64]
   - - [4096, 1024, 1, 3332]
-    - [327, 9876.45]
+    - [556, 9876.45]
   - - [4096, 1024, 1, 3584]
-    - [326, 9896.6]
+    - [555, 9896.6]
   - - [1024, 4096, 1, 3616]
-    - [326, 9957.18]
+    - [555, 9957.18]
   - - [4096, 1024, 1, 3265]
-    - [326, 9877.78]
+    - [555, 9877.78]
   - - [4096, 1024, 1, 3361]
-    - [326, 9888.61]
+    - [555, 9888.61]
   - - [4096, 1024, 1, 3467]
-    - [326, 9863.4]
+    - [555, 9863.4]
   - - [1024, 4096, 1, 3454]
-    - [320, 9904.89]
+    - [549, 9904.89]
   - - [1024, 4096, 1, 3101]
-    - [327, 9893.12]
+    - [556, 9893.12]
   - - [1024, 4096, 1, 3508]
-    - [327, 9931.54]
+    - [556, 9931.54]
   - - [4096, 1024, 1, 3267]
-    - [326, 9864.48]
+    - [555, 9864.48]
   - - [64, 54, 1184, 54]
-    - [292, 4906.02]
+    - [521, 4906.02]
   - - [4096, 1024, 1, 3419]
-    - [326, 9872.56]
+    - [555, 9872.56]
   - - [4096, 1024, 1, 3822]
-    - [326, 9892.63]
+    - [555, 9892.63]
   - - [1024, 4096, 1, 3266]
-    - [326, 9918.58]
+    - [555, 9918.58]
   - - [4096, 1024, 1, 3440]
-    - [327, 9890.16]
+    - [556, 9890.16]
   - - [1024, 4096, 1, 3361]
-    - [326, 9930.97]
+    - [555, 9930.97]
   - - [1024, 4096, 1, 3546]
-    - [320, 9926.56]
+    - [549, 9926.56]
   - - [4096, 1024, 1, 3473]
-    - [326, 9889.06]
+    - [555, 9889.06]
   - - [4096, 1024, 1, 3546]
-    - [327, 9872.27]
+    - [556, 9872.27]
   - - [1024, 4096, 1, 3088]
-    - [320, 9918.03]
+    - [549, 9918.03]
   - - [1024, 4096, 1, 3535]
-    - [327, 9921.2]
+    - [556, 9921.2]
   - - [1024, 4096, 1, 3447]
-    - [327, 9920.63]
+    - [556, 9920.63]
   - - [1024, 4096, 1, 3560]
-    - [326, 9925.48]
+    - [555, 9925.48]
   - - [1024, 4096, 1, 3422]
-    - [320, 9922.21]
+    - [549, 9922.21]
   - - [1024, 4096, 1, 3469]
-    - [319, 9906.18]
+    - [548, 9906.18]
   - - [4096, 1024, 1, 3488]
-    - [326, 9903.26]
+    - [555, 9903.26]
   - - [1024, 4096, 1, 3110]
-    - [326, 9906.76]
+    - [555, 9906.76]
   - - [1024, 4096, 1, 3265]
-    - [327, 9916.69]
+    - [556, 9916.69]
   - - [1024, 4096, 1, 3291]
-    - [326, 9902.73]
+    - [555, 9902.73]
   - - [1024, 4096, 1, 3390]
-    - [327, 9907.22]
+    - [556, 9907.22]
   - - [4096, 1024, 1, 3046]
-    - [326, 9847.68]
+    - [555, 9847.68]
   - - [1024, 4096, 1, 3539]
-    - [327, 9933.49]
+    - [556, 9933.49]
   - - [4096, 1024, 1, 3221]
-    - [327, 9860.74]
+    - [556, 9860.74]
   - - [4096, 1024, 1, 3433]
-    - [326, 9872.74]
+    - [555, 9872.74]
   - - [4096, 1024, 1, 3364]
-    - [327, 9881.91]
+    - [556, 9881.91]
   - - [4096, 1024, 1, 3470]
-    - [326, 9858.56]
+    - [555, 9858.56]
   - - [1024, 4096, 1, 3404]
-    - [319, 9907.27]
+    - [548, 9907.27]
   - - [1024, 33708, 1, 3968]
-    - [320, 10350.3]
+    - [549, 10350.3]
   - - [4096, 1024, 1, 3088]
-    - [326, 9869.06]
+    - [555, 9869.06]
   - - [1024, 4096, 1, 3247]
-    - [326, 9901.02]
+    - [555, 9901.02]
   - - [1024, 33708, 1, 3996]
-    - [319, 10328.5]
+    - [548, 10328.5]
   - - [4096, 1024, 1, 3482]
-    - [327, 9866.99]
+    - [556, 9866.99]
   - - [1024, 1024, 1, 3796]
-    - [322, 9031.68]
+    - [551, 9031.68]
   - - [4096, 1024, 1, 3995]
-    - [327, 9896.78]
+    - [556, 9896.78]
   - - [1024, 1024, 1, 3859]
-    - [324, 9097.36]
+    - [553, 9097.36]
   - - [1024, 4096, 1, 3280]
-    - [320, 9934.05]
+    - [549, 9934.05]
   - - [4096, 1024, 1, 3271]
-    - [327, 9860.09]
+    - [556, 9860.09]
   - - [64, 10, 5952, 10]
-    - [307, 1221.02]
+    - [536, 1221.02]
   - - [4096, 1024, 1, 3545]
-    - [326, 9877.35]
+    - [555, 9877.35]
   - - [4096, 1024, 1, 3476]
-    - [319, 9882.57]
+    - [548, 9882.57]
   - - [4096, 1024, 1, 3496]
-    - [320, 9880.5]
+    - [549, 9880.5]
   - - [4096, 1024, 1, 3191]
-    - [320, 9858.7]
+    - [549, 9858.7]
   - - [4096, 1024, 1, 3311]
-    - [327, 9853.2]
+    - [556, 9853.2]
   - - [1024, 4096, 1, 3302]
-    - [327, 9919.32]
+    - [556, 9919.32]
   - - [1024, 4096, 1, 3681]
-    - [326, 9944.99]
+    - [555, 9944.99]
   - - [4096, 1024, 1, 3582]
-    - [319, 9869.77]
+    - [548, 9869.77]
   - - [4096, 1024, 1, 3421]
-    - [327, 9856.08]
+    - [556, 9856.08]
   - - [4096, 1024, 1, 3560]
-    - [320, 9884.48]
+    - [549, 9884.48]
   - - [1024, 4096, 1, 3495]
-    - [327, 9930.13]
+    - [556, 9930.13]
   - - [4096, 1024, 1, 3186]
-    - [326, 9870.59]
+    - [555, 9870.59]
   - - [4096, 1024, 1, 3925]
-    - [326, 9904.0]
+    - [555, 9904.0]
   - - [64, 71, 896, 71]
-    - [311, 5004.79]
+    - [540, 5004.79]
   - - [1024, 4096, 1, 3435]
-    - [327, 9916.58]
+    - [556, 9916.58]
   - - [4096, 1024, 1, 3434]
-    - [326, 9871.29]
+    - [555, 9871.29]
   - - [1024, 33708, 1, 4012]
-    - [319, 10332.5]
+    - [548, 10332.5]
   - - [1024, 4096, 1, 3340]
-    - [319, 9918.11]
+    - [548, 9918.11]
   - - [1024, 1024, 1, 3860]
-    - [317, 8999.36]
+    - [546, 8999.36]
   - - [4096, 1024, 1, 3489]
-    - [326, 9882.02]
+    - [555, 9882.02]
   - - [1024, 4096, 1, 3162]
-    - [327, 9906.28]
+    - [556, 9906.28]
   - - [4096, 1024, 1, 3436]
-    - [326, 9858.12]
+    - [555, 9858.12]
   - - [1024, 1024, 1, 4005]
-    - [323, 9043.06]
+    - [552, 9043.06]
   - - [64, 84, 752, 84]
-    - [296, 5629.93]
+    - [525, 5629.93]
   - - [4096, 1024, 1, 3574]
-    - [326, 9886.7]
+    - [555, 9886.7]
   - - [4096, 1024, 1, 3469]
-    - [319, 9856.26]
+    - [548, 9856.26]
   - - [1024, 4096, 1, 3410]
-    - [320, 9924.74]
+    - [549, 9924.74]
   - - [1024, 4096, 1, 3216]
-    - [319, 9930.67]
+    - [548, 9930.67]
   - - [4096, 1024, 1, 3095]
-    - [326, 9847.01]
+    - [555, 9847.01]
   - - [1024, 1024, 1, 3990]
-    - [325, 9089.04]
+    - [554, 9089.04]
   - - [4096, 1024, 1, 3448]
-    - [326, 9863.94]
+    - [555, 9863.94]
   - - [1024, 4096, 1, 3176]
-    - [327, 9914.01]
+    - [556, 9914.01]
   - - [64, 49, 1296, 49]
-    - [292, 4437.46]
+    - [521, 4437.46]
   - - [4096, 1024, 1, 2918]
-    - [326, 9830.93]
+    - [555, 9830.93]
   - - [64, 14, 4368, 14]
-    - [306, 1802.47]
+    - [535, 1802.47]
   - - [1024, 4096, 1, 3424]
-    - [326, 9934.05]
+    - [555, 9934.05]
   - - [4096, 1024, 1, 3402]
-    - [319, 9863.12]
+    - [548, 9863.12]
   - - [4096, 1024, 1, 3145]
-    - [320, 9856.56]
+    - [549, 9856.56]
   - - [64, 134, 480, 134]
-    - [312, 6184.05]
+    - [541, 6184.05]
   - - [1024, 33708, 1, 3976]
-    - [320, 10330.1]
+    - [549, 10330.1]
   - - [4096, 1024, 1, 3518]
-    - [319, 9856.07]
+    - [548, 9856.07]
   - - [4096, 1024, 1, 3110]
-    - [326, 9856.46]
+    - [555, 9856.46]
   - - [4096, 1024, 1, 3325]
-    - [326, 9852.36]
+    - [555, 9852.36]
   - - [1024, 33708, 1, 3999]
-    - [319, 10329.7]
+    - [548, 10329.7]
   - - [4096, 1024, 1, 2985]
-    - [326, 9837.3]
+    - [555, 9837.3]
   - - [1024, 4096, 1, 3371]
-    - [319, 9913.03]
+    - [548, 9913.03]
   - - [4096, 1024, 1, 3342]
-    - [326, 9863.16]
+    - [555, 9863.16]
   - - [4096, 1024, 1, 3141]
-    - [320, 9849.91]
+    - [549, 9849.91]
   - - [4096, 1024, 1, 3532]
-    - [320, 9866.3]
+    - [549, 9866.3]
   - - [64, 78, 816, 78]
-    - [297, 5316.88]
+    - [526, 5316.88]
   - - [1024, 4096, 1, 3169]
-    - [327, 9910.45]
+    - [556, 9910.45]
   - - [1024, 4096, 1, 3514]
-    - [326, 9918.0]
+    - [555, 9918.0]
   - - [4096, 1024, 1, 3780]
-    - [327, 9899.75]
+    - [556, 9899.75]
   - - [1024, 4096, 1, 3098]
-    - [319, 9901.62]
+    - [548, 9901.62]
   - - [1024, 4096, 1, 3449]
-    - [327, 9919.85]
+    - [556, 9919.85]
   - - [1024, 4096, 1, 3222]
-    - [319, 9917.66]
+    - [548, 9917.66]
   - - [1024, 4096, 1, 3346]
-    - [320, 9912.91]
+    - [549, 9912.91]
   - - [4096, 1024, 1, 3064]
-    - [327, 9848.79]
+    - [556, 9848.79]
   - - [4096, 1024, 1, 3511]
-    - [326, 9873.39]
+    - [555, 9873.39]
   - - [4096, 1024, 1, 3384]
-    - [326, 9870.98]
+    - [555, 9870.98]
   - - [4096, 1024, 1, 3356]
-    - [320, 9853.45]
+    - [549, 9853.45]
   - - [1024, 4096, 1, 3796]
-    - [319, 9940.66]
+    - [548, 9940.66]
   - - [4096, 1024, 1, 3427]
-    - [326, 9883.14]
+    - [555, 9883.14]
   - - [4096, 1024, 1, 3390]
-    - [326, 9863.79]
+    - [555, 9863.79]
   - - [4096, 1024, 1, 3573]
-    - [327, 9886.02]
+    - [556, 9886.02]
   - - [4096, 1024, 1, 3456]
-    - [320, 9890.61]
+    - [549, 9890.61]
   - - [1024, 4096, 1, 3360]
-    - [327, 9938.1]
+    - [556, 9938.1]
   - - [1024, 33708, 1, 3977]
-    - [320, 10327.2]
+    - [549, 10327.2]
   - - [1024, 4096, 1, 2918]
-    - [319, 9902.84]
+    - [548, 9902.84]
   - - [4096, 1024, 1, 3975]
-    - [326, 9905.27]
+    - [555, 9905.27]
   - - [4096, 1024, 1, 3525]
-    - [327, 9879.91]
+    - [556, 9879.91]
   - - [4096, 1024, 1, 3398]
-    - [319, 9873.91]
+    - [548, 9873.91]
   - - [4096, 1024, 1, 3640]
-    - [326, 9885.16]
+    - [555, 9885.16]
   - - [1024, 1024, 1, 3999]
-    - [318, 8995.42]
+    - [547, 8995.42]
   - - [4096, 1024, 1, 3014]
-    - [326, 9841.32]
+    - [555, 9841.32]
   - - [1024, 4096, 1, 3446]
-    - [319, 9917.21]
+    - [548, 9917.21]
   - - [1024, 33708, 1, 3796]
-    - [319, 10339.0]
+    - [548, 10339.0]
   - - [4096, 1024, 1, 3101]
-    - [319, 9827.34]
+    - [548, 9827.34]
   - - [4096, 1024, 1, 3563]
-    - [327, 9863.03]
+    - [556, 9863.03]
   - - [4096, 1024, 1, 3539]
-    - [319, 9889.54]
+    - [548, 9889.54]
   - - [4096, 1024, 1, 3182]
-    - [326, 9833.79]
+    - [555, 9833.79]
   - - [1024, 4096, 1, 3468]
-    - [320, 9913.05]
+    - [549, 9913.05]
   - - [4096, 1024, 1, 3312]
-    - [326, 9889.85]
+    - [555, 9889.85]
   - - [4096, 1024, 1, 3215]
-    - [326, 9853.88]
+    - [555, 9853.88]
   - - [4096, 1024, 1, 3910]
-    - [326, 9894.72]
+    - [555, 9894.72]
   - - [1024, 33708, 1, 3780]
-    - [320, 10332.0]
+    - [549, 10332.0]
   - - [1024, 4096, 1, 3290]
-    - [326, 9915.08]
+    - [555, 9915.08]
   - - [1024, 4096, 1, 4012]
-    - [326, 9942.65]
+    - [555, 9942.65]
   - - [1024, 4096, 1, 3385]
-    - [326, 9915.83]
+    - [555, 9915.83]
   - - [1024, 33708, 1, 3975]
-    - [319, 10330.1]
+    - [548, 10330.1]
   - - [4096, 1024, 1, 3996]
-    - [326, 9891.31]
+    - [555, 9891.31]
   - - [4096, 1024, 1, 2765]
-    - [327, 9800.38]
+    - [556, 9800.38]
   - - [4096, 1024, 1, 3538]
-    - [327, 9886.22]
+    - [556, 9886.22]
   - - [4096, 1024, 1, 3415]
-    - [327, 9874.6]
+    - [556, 9874.6]
   - - [1024, 4096, 1, 3554]
-    - [326, 9931.99]
+    - [555, 9931.99]
   - - [4096, 1024, 1, 3513]
-    - [320, 9874.25]
+    - [549, 9874.25]
   - - [1024, 4096, 1, 3304]
-    - [320, 9907.73]
+    - [549, 9907.73]
   - - [4096, 1024, 1, 3294]
-    - [326, 9851.25]
+    - [555, 9851.25]
   - - [4096, 1024, 1, 3396]
-    - [327, 9880.7]
+    - [556, 9880.7]
   - - [1024, 4096, 1, 3213]
-    - [320, 9891.12]
+    - [549, 9891.12]
   - - [4096, 1024, 1, 3137]
-    - [320, 9857.41]
+    - [549, 9857.41]
   - - [4096, 1024, 1, 3552]
-    - [326, 9904.22]
+    - [555, 9904.22]
   - - [1024, 1024, 1, 4020]
-    - [325, 9098.87]
+    - [554, 9098.87]
   - - [64, 13, 4672, 13]
-    - [307, 1693.54]
+    - [536, 1693.54]
   - - [1024, 4096, 1, 3461]
-    - [326, 9918.45]
+    - [555, 9918.45]
   - - [4096, 1024, 1, 3263]
-    - [319, 9843.89]
+    - [548, 9843.89]
   - - [4096, 1024, 1, 3430]
-    - [326, 9885.26]
+    - [555, 9885.26]
   - - [4096, 1024, 1, 3389]
-    - [326, 9859.23]
+    - [555, 9859.23]
   - - [4096, 1024, 1, 3528]
-    - [326, 9873.01]
+    - [555, 9873.01]
   - - [1024, 4096, 1, 3463]
-    - [327, 9929.61]
+    - [556, 9929.61]
   - - [4096, 1024, 1, 3526]
-    - [327, 9876.9]
+    - [556, 9876.9]
   - - [4096, 1024, 1, 3154]
-    - [326, 9858.25]
+    - [555, 9858.25]
   - - [4096, 1024, 1, 3499]
-    - [327, 9862.92]
+    - [556, 9862.92]
   - - [1024, 1024, 1, 3939]
-    - [325, 9107.41]
+    - [554, 9107.41]
   - - [4096, 1024, 1, 3955]
-    - [327, 9906.28]
+    - [556, 9906.28]
   - - [1024, 4096, 1, 3297]
-    - [320, 9925.34]
+    - [549, 9925.34]
   - - [1024, 4096, 1, 3233]
-    - [326, 9920.65]
+    - [555, 9920.65]
   - - [1024, 4096, 1, 3226]
-    - [326, 9911.35]
+    - [555, 9911.35]
   - - [4096, 1024, 1, 3404]
-    - [326, 9867.28]
+    - [555, 9867.28]
   - - [4096, 1024, 1, 3355]
-    - [326, 9862.66]
+    - [555, 9862.66]
   - - [1024, 4096, 1, 3542]
-    - [326, 9926.49]
+    - [555, 9926.49]
   - - [4096, 1024, 1, 3181]
-    - [327, 9831.86]
+    - [556, 9831.86]
   - - [1024, 4096, 1, 3474]
-    - [326, 9928.03]
+    - [555, 9928.03]
   - - [4096, 1024, 1, 3319]
-    - [326, 9870.28]
+    - [555, 9870.28]
   - - [1024, 4096, 1, 3434]
-    - [319, 9917.51]
+    - [548, 9917.51]
   - - [1024, 4096, 1, 3860]
-    - [326, 9945.32]
+    - [555, 9945.32]
   - - [1024, 4096, 1, 3343]
-    - [319, 9914.66]
+    - [548, 9914.66]
   - - [64, 77, 816, 78]
-    - [297, 5276.97]
+    - [526, 5276.97]
   - - [1024, 4096, 1, 3488]
-    - [326, 9945.81]
+    - [555, 9945.81]
   - - [1024, 4096, 1, 3046]
-    - [326, 9908.78]
+    - [555, 9908.78]
   - - [1024, 4096, 1, 3141]
-    - [327, 9909.18]
+    - [556, 9909.18]
   - - [1024, 4096, 1, 3516]
-    - [327, 9911.38]
+    - [556, 9911.38]
   - - [4096, 1024, 1, 3147]
-    - [326, 9840.47]
+    - [555, 9840.47]
   - - [1024, 1024, 1, 4059]
-    - [318, 9009.78]
+    - [547, 9009.78]
   - - [1024, 1024, 1, 3944]
-    - [318, 9006.17]
+    - [547, 9006.17]
   - - [1024, 4096, 1, 3421]
-    - [327, 9919.86]
+    - [556, 9919.86]
   - - [4096, 1024, 1, 3944]
-    - [320, 9899.53]
+    - [549, 9899.53]
   - - [64, 45, 1424, 45]
-    - [305, 4068.67]
+    - [534, 4068.67]
   - - [1024, 4096, 1, 3574]
-    - [320, 9930.19]
+    - [549, 9930.19]
   - - [1024, 4096, 1, 3977]
-    - [319, 9944.28]
+    - [548, 9944.28]
   - - [1024, 1024, 1, 3968]
-    - [324, 9045.22]
+    - [553, 9045.22]
   - - [1024, 4096, 1, 2985]
-    - [326, 9887.65]
+    - [555, 9887.65]
   - - [64, 193, 320, 193]
-    - [313, 6631.35]
+    - [542, 6631.35]
   - - [1024, 4096, 1, 3427]
-    - [327, 9933.41]
+    - [556, 9933.41]
   - - [64, 12, 5040, 12]
-    - [307, 1552.53]
+    - [536, 1552.53]
   - - [1024, 4096, 1, 3482]
-    - [327, 9942.22]
+    - [556, 9942.22]
   - - [1024, 4096, 1, 3332]
-    - [319, 9923.58]
+    - [548, 9923.58]
   - - [1024, 1024, 1, 3720]
-    - [323, 9039.56]
+    - [552, 9039.56]
   - - [4096, 1024, 1, 3308]
-    - [327, 9852.66]
+    - [556, 9852.66]
   - - [1024, 4096, 1, 3513]
-    - [327, 9919.99]
+    - [556, 9919.99]
   - - [1024, 4096, 1, 3154]
-    - [320, 9908.46]
+    - [549, 9908.46]
   - - [1024, 4096, 1, 3955]
-    - [327, 9950.01]
+    - [556, 9950.01]
   - - [1024, 4096, 1, 2967]
-    - [327, 9897.44]
+    - [556, 9897.44]
   - - [1024, 33708, 1, 3942]
-    - [319, 10336.1]
+    - [548, 10336.1]
   - - [1024, 4096, 1, 3319]
-    - [327, 9912.45]
+    - [556, 9912.45]
   - - [4096, 1024, 1, 3860]
-    - [326, 9909.29]
+    - [555, 9909.29]
   - - [1024, 4096, 1, 3548]
-    - [319, 9924.21]
+    - [548, 9924.21]
   - - [4096, 1024, 1, 3977]
-    - [327, 9891.44]
+    - [556, 9891.44]
   - - [4096, 1024, 1, 3535]
-    - [326, 9867.84]
+    - [555, 9867.84]
   - - [1024, 4096, 1, 3541]
-    - [327, 9923.16]
+    - [556, 9923.16]
   - - [1024, 1024, 1, 3910]
-    - [324, 9080.4]
+    - [553, 9080.4]
   - - [1024, 33708, 1, 3584]
-    - [319, 10333.0]
+    - [548, 10333.0]
   - - [1024, 4096, 1, 3168]
-    - [320, 9926.27]
+    - [549, 9926.27]
   - - [1024, 4096, 1, 3448]
-    - [327, 9922.42]
+    - [556, 9922.42]
   - - [4096, 1024, 1, 3343]
-    - [326, 9857.23]
+    - [555, 9857.23]
   - - [64, 35, 1808, 35]
-    - [309, 3175.44]
+    - [538, 3175.44]
   - - [1024, 4096, 1, 3357]
-    - [320, 9902.41]
+    - [549, 9902.41]
   - - [64, 143, 432, 143]
-    - [310, 6489.7]
+    - [539, 6489.7]
   - - [4096, 1024, 1, 3510]
-    - [326, 9867.4]
+    - [555, 9867.4]
   - - [4096, 1024, 1, 3369]
-    - [326, 9863.44]
+    - [555, 9863.44]
   - - [64, 92, 688, 93]
-    - [297, 6188.3]
+    - [526, 6188.3]
   - - [4096, 1024, 1, 3379]
-    - [326, 9870.12]
+    - [555, 9870.12]
   - - [1024, 4096, 1, 3276]
-    - [326, 9904.77]
+    - [555, 9904.77]
   - - [1024, 4096, 1, 3363]
-    - [326, 9925.13]
+    - [555, 9925.13]
   - - [4096, 1024, 1, 3055]
-    - [326, 9831.92]
+    - [555, 9831.92]
   - - [1024, 4096, 1, 3524]
-    - [319, 9923.79]
+    - [548, 9923.79]
   - - [4096, 1024, 1, 3057]
-    - [326, 9852.87]
+    - [555, 9852.87]
   - - [1024, 33708, 1, 3720]
-    - [320, 10327.1]
+    - [549, 10327.1]
   - - [1024, 4096, 1, 3383]
-    - [319, 9919.39]
+    - [548, 9919.39]
   - - [1024, 4096, 1, 3522]
-    - [320, 9932.56]
+    - [549, 9932.56]
   - - [1024, 33708, 1, 3956]
-    - [319, 10333.8]
+    - [548, 10333.8]
   - - [1024, 4096, 1, 3481]
-    - [319, 9922.08]
+    - [548, 9922.08]
   - - [4096, 1024, 1, 3562]
-    - [327, 9874.86]
+    - [556, 9874.86]
   - - [4096, 1024, 1, 3299]
-    - [326, 9872.97]
+    - [555, 9872.97]
   - - [1024, 4096, 1, 3262]
-    - [320, 9924.83]
+    - [549, 9924.83]
   - - [1024, 4096, 1, 3840]
-    - [319, 9961.84]
+    - [548, 9961.84]
   - - [1024, 33708, 1, 4026]
-    - [319, 10334.3]
+    - [548, 10334.3]
   - - [4096, 1024, 1, 3168]
-    - [320, 9878.45]
+    - [549, 9878.45]
   - - [64, 101, 624, 101]
-    - [300, 5734.72]
+    - [529, 5734.72]
   - - [1024, 4096, 1, 3999]
-    - [319, 9947.1]
+    - [548, 9947.1]
   - - [1024, 4096, 1, 3549]
-    - [319, 9923.3]
+    - [548, 9923.3]
   - - [4096, 1024, 1, 3375]
-    - [326, 9868.89]
+    - [555, 9868.89]
   - - [1024, 4096, 1, 3496]
-    - [327, 9928.67]
+    - [556, 9928.67]
   - - [64, 29, 2176, 29]
-    - [296, 3290.02]
+    - [525, 3290.02]
   - - [1024, 4096, 1, 3190]
-    - [327, 9897.61]
+    - [556, 9897.61]
   - - [4096, 1024, 1, 3273]
-    - [327, 9853.65]
+    - [556, 9853.65]
   - - [1024, 4096, 1, 3406]
-    - [326, 9907.04]
+    - [555, 9907.04]
   - - [4096, 1024, 1, 4005]
-    - [319, 9907.97]
+    - [548, 9907.97]
   - - [4096, 1024, 1, 3555]
-    - [326, 9878.96]
+    - [555, 9878.96]
   - - [4096, 1024, 1, 2505]
-    - [326, 9785.1]
+    - [555, 9785.1]
   - - [1024, 4096, 1, 3460]
-    - [326, 9930.24]
+    - [555, 9930.24]
   - - [64, 17, 3632, 17]
-    - [297, 1917.27]
+    - [526, 1917.27]
   - - [1024, 4096, 1, 3579]
-    - [320, 9920.94]
+    - [549, 9920.94]
   - - [1024, 33708, 1, 4030]
-    - [320, 10327.7]
+    - [549, 10327.7]
   - - [1024, 4096, 1, 3510]
-    - [320, 9931.31]
+    - [549, 9931.31]
   - - [1024, 1024, 1, 3969]
-    - [317, 9020.83]
+    - [546, 9020.83]
   - - [1024, 4096, 1, 3282]
-    - [327, 9920.05]
+    - [556, 9920.05]
   - - [1024, 4096, 1, 3377]
-    - [319, 9927.34]
+    - [548, 9927.34]
   - - [1024, 4096, 1, 2935]
-    - [327, 9903.48]
+    - [556, 9903.48]
   - - [64, 41, 1552, 41]
-    - [297, 3740.48]
+    - [526, 3740.48]
   - - [1024, 4096, 1, 3498]
-    - [319, 9915.01]
+    - [548, 9915.01]
   - - [1024, 4096, 1, 3593]
-    - [326, 9925.64]
+    - [555, 9925.64]
   - - [1024, 1024, 1, 3948]
-    - [325, 9009.03]
+    - [554, 9009.03]
   - - [4096, 1024, 1, 3226]
-    - [327, 9854.75]
+    - [556, 9854.75]
   - - [1024, 4096, 1, 2499]
-    - [326, 9904.82]
+    - [555, 9904.82]
   - - [1024, 4096, 1, 3296]
-    - [319, 9926.89]
+    - [548, 9926.89]
   - - [1024, 4096, 1, 3455]
-    - [326, 9917.52]
+    - [555, 9917.52]
   - - [1024, 4096, 1, 3399]
-    - [320, 9919.7]
+    - [549, 9919.7]
   - - [1024, 4096, 1, 3205]
-    - [319, 9917.74]
+    - [548, 9917.74]
   - - [4096, 1024, 1, 4026]
-    - [327, 9897.81]
+    - [556, 9897.81]
   - - [1024, 4096, 1, 3484]
-    - [319, 9915.53]
+    - [548, 9915.53]
   - - [4096, 1024, 1, 3302]
-    - [327, 9862.8]
+    - [556, 9862.8]
   - - [1024, 4096, 1, 3485]
-    - [327, 9913.0]
+    - [556, 9913.0]
   - - [1024, 1024, 1, 3996]
-    - [325, 9008.77]
+    - [554, 9008.77]
   - - [1024, 4096, 1, 3126]
-    - [320, 9910.16]
+    - [549, 9910.16]
   - - [1024, 4096, 1, 4050]
-    - [319, 9951.21]
+    - [548, 9951.21]
   - - [4096, 1024, 1, 3235]
-    - [320, 9870.74]
+    - [549, 9870.74]
   - - [1024, 33708, 1, 3955]
-    - [319, 10336.1]
+    - [548, 10336.1]
   - - [1024, 4096, 1, 3342]
-    - [319, 9903.85]
+    - [548, 9903.85]
   - - [1024, 1024, 1, 3900]
-    - [324, 9082.92]
+    - [553, 9082.92]
   - - [1024, 4096, 1, 3397]
-    - [327, 9922.7]
+    - [556, 9922.7]
   - - [4096, 1024, 1, 3491]
-    - [327, 9880.75]
+    - [556, 9880.75]
   - - [1024, 4096, 1, 3503]
-    - [319, 9923.28]
+    - [548, 9923.28]
   - - [1024, 4096, 1, 3140]
-    - [320, 9908.41]
+    - [549, 9908.41]
   - - [4096, 1024, 1, 3121]
-    - [326, 9860.32]
+    - [555, 9860.32]
   - - [4096, 1024, 1, 3276]
-    - [326, 9854.19]
+    - [555, 9854.19]
   - - [1024, 4096, 1, 3321]
-    - [327, 9917.86]
+    - [556, 9917.86]
   - - [1024, 4096, 1, 3870]
-    - [327, 9931.07]
+    - [556, 9931.07]
   - - [4096, 1024, 1, 3475]
-    - [326, 9877.58]
+    - [555, 9877.58]
   - - [1024, 4096, 1, 2984]
-    - [326, 9895.59]
+    - [555, 9895.59]
   - - [4096, 1024, 1, 3363]
-    - [320, 9873.44]
+    - [549, 9873.44]
   - - [1024, 4096, 1, 3582]
-    - [326, 9920.87]
+    - [555, 9920.87]
   - - [4096, 1024, 1, 3509]
-    - [326, 9886.86]
+    - [555, 9886.86]
   - - [1024, 4096, 1, 3426]
-    - [319, 9928.86]
+    - [548, 9928.86]
   - - [4096, 1024, 1, 3136]
-    - [326, 9872.61]
+    - [555, 9872.61]
   - - [1024, 4096, 1, 3232]
-    - [327, 9926.29]
+    - [556, 9926.29]
   - - [4096, 1024, 1, 3103]
-    - [326, 9839.03]
+    - [555, 9839.03]
   - - [1024, 4096, 1, 3335]
-    - [320, 9913.37]
+    - [549, 9913.37]
   - - [1024, 4096, 1, 3900]
-    - [319, 9938.01]
+    - [548, 9938.01]
   - - [4096, 1024, 1, 3512]
-    - [320, 9877.26]
+    - [549, 9877.26]
   - - [4096, 1024, 1, 3222]
-    - [326, 9859.77]
+    - [555, 9859.77]
   - - [1024, 4096, 1, 3165]
-    - [326, 9899.71]
+    - [555, 9899.71]
   - - [4096, 1024, 1, 3408]
-    - [326, 9899.68]
+    - [555, 9899.68]
   - - [4096, 1024, 1, 3751]
-    - [326, 9891.49]
+    - [555, 9891.49]
   - - [1024, 4096, 1, 3318]
-    - [319, 9913.42]
+    - [548, 9913.42]
   - - [4096, 1024, 1, 3442]
-    - [327, 9880.21]
+    - [556, 9880.21]
   - - [1024, 4096, 1, 3413]
-    - [326, 9921.9]
+    - [555, 9921.9]
   - - [4096, 1024, 1, 3524]
-    - [326, 9879.22]
+    - [555, 9879.22]
   - - [1024, 4096, 1, 3976]
-    - [327, 9945.57]
+    - [556, 9945.57]
   - - [1024, 4096, 1, 3475]
-    - [327, 9932.51]
+    - [556, 9932.51]
   - - [1024, 4096, 1, 3534]
-    - [319, 9911.49]
+    - [548, 9911.49]
   - - [4096, 1024, 1, 3301]
-    - [326, 9872.75]
+    - [555, 9872.75]
   - - [4096, 1024, 1, 3248]
-    - [326, 9878.22]
+    - [555, 9878.22]
   - - [1024, 4096, 1, 2977]
-    - [320, 9899.93]
+    - [549, 9899.93]
   - - [4096, 1024, 1, 3346]
-    - [326, 9876.07]
+    - [555, 9876.07]
   - - [1024, 4096, 1, 3451]
-    - [319, 9920.16]
+    - [548, 9920.16]
   - - [1024, 4096, 1, 3257]
-    - [320, 9905.02]
+    - [549, 9905.02]
   - - [1024, 1024, 1, 3640]
-    - [318, 8983.39]
+    - [547, 8983.39]
   - - [1024, 4096, 1, 3356]
-    - [319, 9904.48]
+    - [548, 9904.48]
   - - [4096, 1024, 1, 3348]
-    - [327, 9872.53]
+    - [556, 9872.53]
   - - [4096, 1024, 1, 3335]
-    - [326, 9865.82]
+    - [555, 9865.82]
   - - [4096, 1024, 1, 3505]
-    - [326, 9888.88]
+    - [555, 9888.88]
   - - [1024, 4096, 1, 3490]
-    - [319, 9938.0]
+    - [548, 9938.0]
   - - [4096, 1024, 1, 3447]
-    - [326, 9865.39]
+    - [555, 9865.39]
   - - [1024, 4096, 1, 3267]
-    - [327, 9919.32]
+    - [556, 9919.32]
   - - [4096, 1024, 1, 3230]
-    - [326, 9853.2]
+    - [555, 9853.2]
   - - [4096, 1024, 1, 3455]
-    - [326, 9862.44]
+    - [555, 9862.44]
   - - [1024, 4096, 1, 3925]
-    - [319, 9945.64]
+    - [548, 9945.64]
   - - [1024, 4096, 1, 3362]
-    - [320, 9921.63]
+    - [549, 9921.63]
   - - [4096, 1024, 1, 3969]
-    - [327, 9911.98]
+    - [556, 9911.98]
   - - [4096, 1024, 1, 3527]
-    - [326, 9882.87]
+    - [555, 9882.87]
   - - [1024, 4096, 1, 3585]
-    - [320, 9946.52]
+    - [549, 9946.52]
   - - [4096, 1024, 1, 3063]
-    - [326, 9854.03]
+    - [555, 9854.03]
   - - [4096, 1024, 1, 3435]
-    - [326, 9867.13]
+    - [555, 9867.13]
   - - [4096, 1024, 1, 3366]
-    - [327, 9864.02]
+    - [556, 9864.02]
   - - [4096, 1024, 1, 3581]
-    - [319, 9868.57]
+    - [548, 9868.57]
   - - [1024, 33708, 1, 3906]
-    - [319, 10339.3]
+    - [548, 10339.3]
   - - [1024, 4096, 1, 3464]
-    - [327, 9916.21]
+    - [556, 9916.21]
   - - [1024, 4096, 1, 3440]
-    - [326, 9945.25]
+    - [555, 9945.25]
   - - [4096, 1024, 1, 3143]
-    - [326, 9846.76]
+    - [555, 9846.76]
   - - [1024, 4096, 1, 3349]
-    - [320, 9912.83]
+    - [549, 9912.83]
   - - [4096, 1024, 1, 3416]
-    - [326, 9885.13]
+    - [555, 9885.13]
   - - [4096, 1024, 1, 3365]
-    - [326, 9876.0]
+    - [555, 9876.0]
   - - [1024, 4096, 1, 3470]
-    - [327, 9914.98]
+    - [556, 9914.98]
   - - [4096, 1024, 1, 3287]
-    - [326, 9860.69]
+    - [555, 9860.69]
   - - [1024, 4096, 1, 3441]
-    - [327, 9928.98]
+    - [556, 9928.98]
   - - [4096, 1024, 1, 3224]
-    - [326, 9857.83]
+    - [555, 9857.83]
   - - [1024, 4096, 1, 3387]
-    - [319, 9911.72]
+    - [548, 9911.72]
   - - [1024, 4096, 1, 3547]
-    - [319, 9920.36]
+    - [548, 9920.36]
   - - [4096, 1024, 1, 3478]
-    - [320, 9882.9]
+    - [549, 9882.9]
   - - [4096, 1024, 1, 3548]
-    - [327, 9869.45]
+    - [556, 9869.45]
   - - [1024, 33708, 1, 4020]
-    - [319, 10345.3]
+    - [548, 10345.3]
   - - [4096, 1024, 1, 3320]
-    - [326, 9863.74]
+    - [555, 9863.74]
   - - [1024, 4096, 1, 3906]
-    - [326, 9942.67]
+    - [555, 9942.67]
   - - [4096, 1024, 1, 3796]
-    - [326, 9899.13]
+    - [555, 9899.13]
   - - [1024, 4096, 1, 3306]
-    - [319, 9902.4]
+    - [548, 9902.4]
   - - [1024, 4096, 1, 3401]
-    - [327, 9913.95]
+    - [556, 9913.95]
   - - [64, 147, 432, 147]
-    - [310, 6626.6]
+    - [539, 6626.6]
   - - [1024, 4096, 1, 3215]
-    - [327, 9911.24]
+    - [556, 9911.24]
   - - [4096, 1024, 1, 4012]
-    - [327, 9898.2]
+    - [556, 9898.2]
   - - [1024, 4096, 1, 2765]
-    - [327, 9863.73]
+    - [556, 9863.73]
   - - [4096, 1024, 1, 3554]
-    - [320, 9883.52]
+    - [549, 9883.52]
   - - [4096, 1024, 1, 3423]
-    - [326, 9866.72]
+    - [555, 9866.72]
   - - [1024, 1024, 1, 3751]
-    - [324, 9006.36]
+    - [553, 9006.36]
   - - [1024, 4096, 1, 3562]
-    - [320, 9922.08]
+    - [549, 9922.08]
   - - [1024, 4096, 1, 3489]
-    - [319, 9936.78]
+    - [548, 9936.78]
   - - [4096, 1024, 1, 3358]
-    - [326, 9858.22]
+    - [555, 9858.22]
   - - [4096, 1024, 1, 3270]
-    - [327, 9850.84]
+    - [556, 9850.84]
   - - [1024, 4096, 1, 3293]
-    - [319, 9905.33]
+    - [548, 9905.33]
   - - [1024, 4096, 1, 3376]
-    - [319, 9934.98]
+    - [548, 9934.98]
   - - [4096, 1024, 1, 3245]
-    - [326, 9852.52]
+    - [555, 9852.52]
   - - [4096, 1024, 1, 3541]
-    - [326, 9887.22]
+    - [555, 9887.22]
   - - [4096, 1024, 1, 3443]
-    - [326, 9871.73]
+    - [555, 9871.73]
   - - [4096, 1024, 1, 3438]
-    - [327, 9863.86]
+    - [556, 9863.86]
   - - [4096, 1024, 1, 3244]
-    - [326, 9859.76]
+    - [555, 9859.76]
   - - [1024, 4096, 1, 3365]
-    - [326, 9922.1]
+    - [555, 9922.1]
   - - [1024, 4096, 1, 3299]
-    - [320, 9923.38]
+    - [549, 9923.38]
   - - [4096, 1024, 1, 3840]
-    - [326, 9914.75]
+    - [555, 9914.75]
   - - [1024, 4096, 1, 3471]
-    - [327, 9918.38]
+    - [556, 9918.38]
   - - [1024, 4096, 1, 3398]
-    - [319, 9918.99]
+    - [548, 9918.99]
   - - [4096, 1024, 1, 3162]
-    - [326, 9843.93]
+    - [555, 9843.93]
   - - [1024, 4096, 1, 4005]
-    - [320, 9947.87]
+    - [549, 9947.87]
   - - [4096, 1024, 1, 3579]
-    - [326, 9868.25]
+    - [555, 9868.25]
   - - [64, 18, 3440, 18]
-    - [302, 2059.33]
+    - [531, 2059.33]
   - - [64, 177, 352, 177]
-    - [321, 7315.4]
+    - [550, 7315.4]
   - - [1024, 4096, 1, 3121]
-    - [327, 9930.34]
+    - [556, 9930.34]
   - - [4096, 1024, 1, 3441]
-    - [326, 9883.28]
+    - [555, 9883.28]
   - - [4096, 1024, 1, 3422]
-    - [326, 9858.41]
+    - [555, 9858.41]
   - - [4096, 1024, 1, 3444]
-    - [326, 9887.03]
+    - [555, 9887.03]
   - - [1024, 4096, 1, 3337]
-    - [320, 9911.45]
+    - [549, 9911.45]
   - - [4096, 1024, 1, 3550]
-    - [319, 9871.87]
+    - [548, 9871.87]
   - - [1024, 4096, 1, 3477]
-    - [319, 9930.65]
+    - [548, 9930.65]
   - - [4096, 1024, 1, 3490]
-    - [326, 9878.45]
+    - [555, 9878.45]
   - - [4096, 1024, 1, 3585]
-    - [326, 9893.63]
+    - [555, 9893.63]
   - - [1024, 4096, 1, 3143]
-    - [319, 9901.19]
+    - [548, 9901.19]
   - - [1024, 33708, 1, 3876]
-    - [320, 10330.8]
+    - [549, 10330.8]
   - - [1024, 4096, 1, 3320]
-    - [327, 9913.18]
+    - [556, 9913.18]
   - - [1024, 4096, 1, 3423]
-    - [327, 9914.14]
+    - [556, 9914.14]
   - - [1024, 4096, 1, 3894]
-    - [319, 9944.47]
+    - [548, 9944.47]
   - - [4096, 1024, 1, 3410]
-    - [326, 9878.67]
+    - [555, 9878.67]
   - - [1024, 4096, 1, 3561]
-    - [319, 9926.68]
+    - [548, 9926.68]
   - - [4096, 1024, 1, 3492]
-    - [320, 9872.92]
+    - [549, 9872.92]
   - - [64, 85, 752, 85]
-    - [297, 5734.35]
+    - [526, 5734.35]
   - - [36548, 1024, 1, 3712]
-    - [329, 10367.6]
+    - [558, 10367.6]
   - - [4096, 2048, 1, 128]
-    - [330, 8743.93]
+    - [559, 8743.93]
   - - [1024, 1024, 1, 3712]
-    - [331, 9976.29]
+    - [560, 9976.29]
   - - [1024, 1024, 1, 128]
-    - [328, 5765.47]
+    - [557, 5765.47]
   - - [4096, 3072, 1, 128]
-    - [330, 8869.11]
+    - [559, 8869.11]
+  - - [768, 3072, 1, 4096]
+    - [571, 10028.8]
+  - - [64, 256, 192, 256]
+    - [565, 8791.65]
+  - - [768, 2, 1, 16]
+    - [568, 5.05484]
+  - - [768, 768, 1, 64]
+    - [564, 3469.65]
+  - - [768, 768, 1, 4096]
+    - [572, 7475.1]
+  - - [768, 30522, 1, 1280]
+    - [575, 10297.0]
+  - - [64, 128, 384, 128]
+    - [565, 7660.93]
+  - - [768, 30522, 1, 320]
+    - [573, 10008.0]
+  - - [768, 768, 1, 32]
+    - [562, 2359.4]
+  - - [3072, 768, 1, 4096]
+    - [571, 10033.8]
+  - - [768, 30522, 1, 640]
+    - [574, 10206.8]
+  - - [64, 64, 768, 64]
+    - [563, 5494.82]
+  - - [768, 768, 1, 640]
+    - [572, 6721.74]
+  - - [768, 768, 1, 16]
+    - [561, 1203.82]
+  - - [768, 768, 1, 1280]
+    - [570, 7138.67]
+  - - [768, 2, 1, 32]
+    - [566, 11.9154]
+  - - [2048, 2048, 1, 512]
+    - [586, 9607.67]
+  - - [512, 32, 1, 200]
+    - [579, 422.368]
+  - - [1024, 1, 1, 200]
+    - [582, 24.7154]
+  - - [1600, 1024, 1, 512]
+    - [577, 8116.01]
+  - - [560, 1024, 1, 200]
+    - [576, 4810.84]
+  - - [1024, 1024, 1, 512]
+    - [585, 8614.84]
+  - - [2048, 1, 1, 512]
+    - [580, 81.0086]
+  - - [512, 512, 1, 200]
+    - [578, 4398.49]
+  - - [100, 2048, 1, 512]
+    - [583, 4443.22]
+  - - [1024, 1024, 1, 200]
+    - [584, 6990.61]
+  - - [1024, 64, 1, 512]
+    - [581, 2853.37]
+  - - [1024, 256, 1, 18944]
+    - [605, 9196.51]
+  - - [256, 3328, 1, 8976]
+    - [595, 8299.36]
+  - - [1024, 256, 1, 4352]
+    - [603, 8813.84]
+  - - [256, 9728, 1, 8976]
+    - [598, 9638.58]
+  - - [1024, 256, 1, 3072]
+    - [605, 8640.73]
+  - - [768, 2048, 1, 256]
+    - [597, 8663.03]
+  - - [1024, 256, 1, 19968]
+    - [602, 9220.96]
+  - - [256, 12800, 1, 8976]
+    - [592, 9418.52]
+  - - [1024, 256, 1, 3328]
+    - [606, 8682.58]
+  - - [256, 10240, 1, 8976]
+    - [599, 10137.8]
+  - - [1024, 256, 1, 15104]
+    - [604, 9167.13]
+  - - [256, 10496, 1, 8976]
+    - [592, 9858.48]
+  - - [1024, 256, 1, 2816]
+    - [607, 8575.81]
+  - - [1024, 256, 1, 4608]
+    - [602, 8861.31]
+  - - [256, 11264, 1, 8976]
+    - [589, 9627.79]
+  - - [1024, 256, 1, 6400]
+    - [602, 8985.33]
+  - - [1024, 256, 1, 16128]
+    - [602, 9170.36]
+  - - [256, 44505, 1, 8976]
+    - [596, 10331.9]
+  - - [256, 6144, 1, 8976]
+    - [599, 10395.1]
+  - - [1024, 256, 1, 5120]
+    - [604, 8881.63]
+  - - [1024, 256, 1, 7936]
+    - [607, 9023.24]
+  - - [256, 3840, 1, 8976]
+    - [594, 9541.38]
+  - - [1024, 256, 1, 21248]
+    - [602, 9209.82]
+  - - [1024, 256, 1, 12032]
+    - [604, 9156.27]
+  - - [256, 8192, 1, 8976]
+    - [601, 10374.5]
+  - - [1024, 256, 1, 3584]
+    - [603, 8712.3]
+  - - [1024, 256, 1, 14336]
+    - [604, 9162.61]
+  - - [256, 7168, 1, 8976]
+    - [590, 9554.96]
+  - - [1024, 256, 1, 13568]
+    - [602, 9165.14]
+  - - [256, 4096, 1, 8976]
+    - [594, 10146.7]
+  - - [1024, 256, 1, 4096]
+    - [603, 8783.98]
+  - - [256, 2560, 1, 8976]
+    - [593, 8381.66]
+  - - [256, 20992, 1, 8976]
+    - [592, 9989.96]
+  - - [256, 4352, 1, 8976]
+    - [593, 9635.02]
+  - - [256, 33536, 1, 8976]
+    - [592, 10218.2]
+  - - [256, 3584, 1, 8976]
+    - [594, 8924.6]
+  - - [256, 26112, 1, 8976]
+    - [593, 10272.4]
+  - - [256, 14336, 1, 8976]
+    - [597, 10217.4]
+  - - [1024, 256, 1, 14848]
+    - [604, 9185.29]
+  - - [1024, 256, 1, 8448]
+    - [605, 9025.99]
+  - - [1024, 256, 1, 28672]
+    - [602, 9256.5]
+  - - [1024, 256, 1, 5632]
+    - [602, 8932.79]
+  - - [256, 22016, 1, 8976]
+    - [597, 10152.0]
+  - - [1024, 256, 1, 33536]
+    - [602, 9243.17]
+  - - [256, 5120, 1, 8976]
+    - [588, 9418.15]
+  - - [256, 11520, 1, 8976]
+    - [595, 9701.1]
+  - - [256, 19968, 1, 8976]
+    - [593, 10228.1]
+  - - [1024, 256, 1, 5376]
+    - [604, 8892.62]
+  - - [1024, 256, 1, 22016]
+    - [602, 9244.34]
+  - - [256, 8960, 1, 8976]
+    - [593, 9841.41]
+  - - [1024, 256, 1, 15872]
+    - [602, 9223.25]
+  - - [256, 17408, 1, 8976]
+    - [597, 9785.87]
+  - - [256, 5632, 1, 8976]
+    - [597, 9564.32]
+  - - [256, 32512, 1, 8976]
+    - [596, 10358.0]
+  - - [256, 11008, 1, 8976]
+    - [589, 9445.23]
+  - - [1024, 256, 1, 6144]
+    - [604, 8955.91]
+  - - [256, 4864, 1, 8976]
+    - [589, 8979.45]
+  - - [256, 15104, 1, 8976]
+    - [592, 10007.1]
+  - - [1024, 256, 1, 9984]
+    - [602, 9110.53]
+  - - [256, 1280, 1, 8976]
+    - [588, 5944.44]
+  - - [1024, 256, 1, 1024]
+    - [604, 7005.2]
+  - - [1024, 256, 1, 9728]
+    - [604, 9066.29]
+  - - [1024, 256, 1, 10496]
+    - [602, 9118.15]
+  - - [256, 11776, 1, 8976]
+    - [599, 9911.74]
+  - - [256, 12544, 1, 8976]
+    - [592, 9235.35]
+  - - [1024, 256, 1, 17152]
+    - [602, 9152.31]
+  - - [1024, 256, 1, 11520]
+    - [604, 9146.87]
+  - - [1024, 256, 1, 21504]
+    - [604, 9207.52]
+  - - [256, 17152, 1, 8976]
+    - [591, 9654.81]
+  - - [1024, 256, 1, 17408]
+    - [602, 9181.27]
+  - - [256, 15872, 1, 8976]
+    - [600, 10086.5]
+  - - [256, 18688, 1, 8976]
+    - [593, 9612.57]
+  - - [256, 5888, 1, 8976]
+    - [597, 9988.43]
+  - - [512, 2048, 1, 256]
+    - [587, 7678.46]
+  - - [1024, 256, 1, 7680]
+    - [605, 9033.06]
+  - - [1024, 256, 1, 1280]
+    - [607, 7767.33]
+  - - [256, 14848, 1, 8976]
+    - [593, 9852.76]
+  - - [256, 9984, 1, 8976]
+    - [599, 9908.97]
+  - - [256, 20480, 1, 8976]
+    - [597, 10337.2]
+  - - [1024, 256, 1, 8192]
+    - [604, 9044.42]
+  - - [1024, 256, 1, 19712]
+    - [603, 9184.28]
+  - - [256, 13568, 1, 8976]
+    - [593, 9927.92]
+  - - [256, 13312, 1, 8976]
+    - [592, 9758.01]
+  - - [256, 2816, 1, 8976]
+    - [592, 9191.53]
+  - - [1024, 256, 1, 2304]
+    - [603, 8445.01]
+  - - [256, 21248, 1, 8976]
+    - [593, 10127.6]
+  - - [256, 16128, 1, 8976]
+    - [601, 10238.5]
+  - - [256, 512, 36, 98]
+    - [624, 7994.95]
+  - - [64, 192, 36, 25088]
+    - [693, 8613.99]
+  - - [128, 128, 64, 25]
+    - [623, 2540.25]
+  - - [256, 256, 64, 56]
+    - [624, 6924.66]
+  - - [512, 486, 36, 800]
+    - [631, 8994.94]
+  - - [512, 512, 36, 1568]
+    - [642, 9872.48]
+  - - [64, 192, 64, 3200]
+    - [687, 9295.99]
+  - - [256, 384, 36, 4096]
+    - [687, 9334.71]
+  - - [128, 256, 64, 32]
+    - [626, 4280.0]
+  - - [64, 128, 64, 23104]
+    - [693, 10103.2]
+  - - [128, 256, 64, 9]
+    - [617, 1709.73]
+  - - [256, 512, 36, 784]
+    - [627, 9520.83]
+  - - [256, 324, 36, 32]
+    - [665, 4473.48]
+  - - [512, 512, 36, 33]
+    - [636, 5925.27]
+  - - [16, 32, 36, 5760]
+    - [640, 1448.9]
+  - - [192, 384, 64, 128]
+    - [687, 8618.53]
+  - - [512, 512, 64, 72]
+    - [643, 8260.22]
+  - - [128, 128, 64, 1600]
+    - [616, 9008.48]
+  - - [512, 512, 36, 128]
+    - [687, 8871.72]
+  - - [192, 384, 64, 2304]
+    - [616, 9657.26]
+  - - [384, 256, 64, 450]
+    - [652, 9539.03]
+  - - [3, 64, 36, 6272]
+    - [640, 509.884]
+  - - [3, 64, 64, 2888]
+    - [669, 708.721]
+  - - [384, 256, 64, 2304]
+    - [652, 10287.6]
+  - - [512, 512, 64, 144]
+    - [687, 9226.8]
+  - - [256, 256, 36, 6272]
+    - [627, 9607.38]
+  - - [80, 192, 64, 4608]
+    - [688, 7348.03]
+  - - [64, 64, 36, 3136]
+    - [675, 5959.15]
+  - - [256, 384, 64, 2304]
+    - [652, 10283.5]
+  - - [512, 512, 36, 66]
+    - [636, 7618.18]
+  - - [128, 256, 64, 800]
+    - [662, 9611.25]
+  - - [64, 128, 36, 30]
+    - [618, 1242.71]
+  - - [192, 256, 36, 512]
+    - [687, 8658.07]
+  - - [256, 512, 64, 200]
+    - [687, 9153.97]
+  - - [256, 512, 64, 25]
+    - [665, 5349.98]
+  - - [3, 64, 64, 46208]
+    - [668, 808.662]
+  - - [128, 256, 36, 1568]
+    - [660, 8528.72]
+  - - [64, 128, 64, 11552]
+    - [693, 9997.1]
+  - - [128, 192, 64, 946]
+    - [687, 9198.48]
+  - - [64, 192, 64, 12800]
+    - [648, 9000.76]
+  - - [224, 224, 64, 128]
+    - [625, 6312.17]
+  - - [128, 256, 64, 288]
+    - [687, 8697.97]
+  - - [64, 64, 64, 826]
+    - [630, 6650.31]
+  - - [256, 384, 64, 1152]
+    - [662, 10106.9]
+  - - [3, 64, 64, 92416]
+    - [668, 812.131]
+  - - [32, 32, 36, 43808]
+    - [609, 2813.19]
+  - - [160, 320, 64, 288]
+    - [619, 8090.96]
+  - - [1, 16, 36, 23040]
+    - [656, 42.7667]
+  - - [128, 256, 36, 128]
+    - [634, 6049.58]
+  - - [128, 128, 64, 3360]
+    - [687, 9200.06]
+  - - [128, 128, 64, 420]
+    - [687, 8131.6]
+  - - [64, 128, 64, 361]
+    - [624, 6938.08]
+  - - [512, 512, 36, 16]
+    - [680, 3797.76]
+  - - [384, 256, 36, 800]
+    - [621, 9151.75]
+  - - [192, 384, 36, 4096]
+    - [621, 8867.67]
+  - - [64, 64, 64, 1600]
+    - [673, 7931.84]
+  - - [256, 384, 64, 576]
+    - [653, 9745.9]
+  - - [512, 512, 64, 14]
+    - [636, 3638.28]
+  - - [512, 512, 36, 8]
+    - [611, 2279.61]
+  - - [512, 486, 64, 128]
+    - [627, 8337.93]
+  - - [1, 16, 64, 640]
+    - [661, 50.0512]
+  - - [64, 96, 64, 288]
+    - [686, 5708.07]
+  - - [96, 96, 36, 1568]
+    - [655, 6866.85]
+  - - [256, 256, 36, 128]
+    - [659, 7703.92]
+  - - [64, 128, 36, 53824]
+    - [647, 6331.41]
+  - - [256, 256, 36, 32]
+    - [643, 4648.96]
+  - - [192, 256, 64, 288]
+    - [687, 8987.89]
+  - - [256, 256, 36, 16]
+    - [657, 2912.81]
+  - - [128, 256, 36, 3200]
+    - [660, 8680.37]
+  - - [160, 320, 64, 512]
+    - [619, 8449.54]
+  - - [128, 160, 36, 512]
+    - [630, 7215.07]
+  - - [96, 96, 36, 2592]
+    - [625, 7104.89]
+  - - [64, 96, 64, 800]
+    - [655, 7268.42]
+  - - [147, 64, 36, 18816]
+    - [671, 7116.36]
+  - - [160, 320, 36, 512]
+    - [625, 7874.92]
+  - - [256, 512, 36, 4]
+    - [664, 1034.88]
+  - - [96, 128, 64, 946]
+    - [647, 7901.17]
+  - - [256, 324, 64, 1568]
+    - [652, 8589.63]
+  - - [128, 128, 64, 50]
+    - [643, 4070.66]
+  - - [35, 96, 36, 8960]
+    - [637, 4207.4]
+  - - [32, 64, 36, 43808]
+    - [678, 4390.91]
+  - - [160, 224, 36, 128]
+    - [625, 5447.02]
+  - - [64, 64, 64, 81]
+    - [650, 2391.28]
+  - - [256, 256, 36, 3200]
+    - [616, 9559.65]
+  - - [256, 256, 36, 210]
+    - [627, 8414.71]
+  - - [192, 384, 64, 576]
+    - [687, 9468.85]
+  - - [512, 512, 64, 800]
+    - [662, 10096.5]
+  - - [512, 24, 36, 800]
+    - [613, 4761.87]
+  - - [64, 64, 64, 13216]
+    - [674, 8491.51]
+  - - [192, 224, 64, 1152]
+    - [630, 8769.16]
+  - - [256, 256, 64, 1152]
+    - [652, 9988.19]
+  - - [512, 486, 64, 512]
+    - [662, 9254.77]
+  - - [128, 128, 36, 784]
+    - [625, 7468.16]
+  - - [256, 512, 64, 1600]
+    - [649, 10232.6]
+  - - [512, 512, 64, 9]
+    - [643, 2599.88]
+  - - [96, 128, 64, 288]
+    - [655, 6599.53]
+  - - [64, 96, 36, 512]
+    - [655, 5073.85]
+  - - [256, 512, 36, 1568]
+    - [687, 9637.91]
+  - - [128, 128, 64, 400]
+    - [687, 8192.1]
+  - - [128, 128, 64, 800]
+    - [687, 8716.44]
+  - - [96, 128, 36, 512]
+    - [675, 6757.03]
+  - - [16, 32, 36, 360]
+    - [638, 754.136]
+  - - [128, 256, 64, 3200]
+    - [652, 10222.6]
+  - - [96, 128, 64, 800]
+    - [655, 7968.0]
+  - - [256, 512, 64, 4]
+    - [617, 1098.09]
+  - - [256, 256, 64, 450]
+    - [662, 9347.55]
+  - - [64, 64, 64, 3200]
+    - [673, 8518.18]
+  - - [192, 224, 64, 128]
+    - [633, 7035.27]
+  - - [128, 128, 64, 288]
+    - [687, 7751.38]
+  - - [256, 256, 64, 72]
+    - [643, 7489.93]
+  - - [96, 208, 36, 512]
+    - [655, 6939.21]
+  - - [128, 256, 36, 3136]
+    - [630, 8669.43]
+  - - [64, 64, 36, 3520]
+    - [625, 6007.57]
+  - - [64, 128, 36, 1568]
+    - [688, 6897.8]
+  - - [160, 320, 64, 242]
+    - [614, 7873.27]
+  - - [192, 192, 36, 512]
+    - [625, 7707.42]
+  - - [512, 512, 36, 512]
+    - [687, 9582.52]
+  - - [1, 16, 64, 10240]
+    - [639, 71.4511]
+  - - [128, 128, 36, 512]
+    - [625, 7149.48]
+  - - [512, 512, 36, 256]
+    - [616, 9384.5]
+  - - [512, 512, 36, 1024]
+    - [610, 9777.99]
+  - - [96, 208, 64, 1152]
+    - [688, 7851.0]
+  - - [128, 192, 64, 3200]
+    - [616, 9490.92]
+  - - [256, 256, 36, 4096]
+    - [621, 9585.56]
+  - - [160, 160, 64, 288]
+    - [655, 7299.9]
+  - - [256, 256, 64, 896]
+    - [652, 9850.43]
+  - - [128, 256, 64, 242]
+    - [687, 8391.48]
+  - - [128, 128, 36, 440]
+    - [630, 6274.82]
+  - - [96, 128, 36, 1568]
+    - [675, 7875.13]
+  - - [192, 384, 36, 1024]
+    - [621, 8715.82]
+  - - [64, 96, 36, 10368]
+    - [692, 7478.69]
+  - - [128, 256, 64, 100]
+    - [636, 7085.07]
+  - - [112, 224, 36, 2048]
+    - [629, 7556.02]
+  - - [384, 256, 64, 1152]
+    - [652, 10102.4]
+  - - [192, 384, 36, 128]
+    - [687, 7543.14]
+  - - [128, 128, 36, 7040]
+    - [660, 7600.7]
+  - - [128, 256, 64, 1568]
+    - [652, 10006.0]
+  - - [128, 128, 36, 1568]
+    - [644, 7848.4]
+  - - [128, 256, 64, 72]
+    - [667, 6553.7]
+  - - [256, 256, 36, 12544]
+    - [681, 9365.14]
+  - - [256, 256, 36, 105]
+    - [643, 7286.16]
+  - - [128, 256, 36, 392]
+    - [630, 7625.79]
+  - - [64, 64, 64, 5408]
+    - [673, 8882.77]
+  - - [3, 64, 36, 25088]
+    - [640, 529.042]
+  - - [384, 256, 36, 1024]
+    - [687, 9182.85]
+  - - [35, 96, 36, 13440]
+    - [694, 4110.39]
+  - - [128, 256, 64, 1152]
+    - [652, 9804.97]
+  - - [256, 324, 64, 32]
+    - [665, 5043.73]
+  - - [160, 224, 64, 128]
+    - [679, 6046.25]
+  - - [192, 224, 36, 2592]
+    - [677, 8878.78]
+  - - [96, 96, 64, 1152]
+    - [655, 8035.55]
+  - - [32, 64, 36, 90]
+    - [612, 964.565]
+  - - [64, 128, 64, 2888]
+    - [627, 9047.33]
+  - - [256, 384, 36, 800]
+    - [687, 9154.12]
+  - - [512, 512, 64, 4]
+    - [684, 1233.72]
+  - - [192, 320, 36, 128]
+    - [624, 7388.29]
+  - - [64, 128, 36, 480]
+    - [688, 5653.37]
+  - - [192, 384, 64, 242]
+    - [687, 9080.09]
+  - - [256, 486, 64, 32]
+    - [680, 5909.28]
+  - - [147, 64, 64, 9702]
+    - [689, 7319.79]
+  - - [512, 512, 64, 64]
+    - [623, 8179.12]
+  - - [64, 192, 64, 3698]
+    - [616, 9287.99]
+  - - [73, 192, 64, 10439]
+    - [647, 6668.12]
+  - - [1, 16, 36, 1440]
+    - [663, 33.5452]
+  - - [128, 256, 36, 512]
+    - [630, 7989.25]
+  - - [512, 512, 64, 576]
+    - [662, 9951.99]
+  - - [64, 64, 36, 12544]
+    - [678, 5872.87]
+  - - [128, 128, 36, 880]
+    - [675, 7597.36]
+  - - [192, 224, 36, 128]
+    - [633, 6451.3]
+  - - [64, 64, 64, 800]
+    - [673, 6916.83]
+  - - [64, 128, 36, 12544]
+    - [651, 6395.98]
+  - - [64, 64, 36, 1568]
+    - [625, 5536.76]
+  - - [160, 160, 36, 512]
+    - [625, 7345.36]
+  - - [512, 24, 64, 512]
+    - [615, 5242.98]
+  - - [3, 64, 36, 3136]
+    - [640, 475.452]
+  - - [256, 256, 64, 9]
+    - [665, 2106.61]
+  - - [3, 64, 64, 11552]
+    - [668, 785.227]
+  - - [128, 256, 36, 12544]
+    - [683, 8792.23]
+  - - [128, 128, 36, 3136]
+    - [644, 8098.56]
+  - - [256, 512, 36, 3136]
+    - [627, 9694.49]
+  - - [64, 64, 36, 196]
+    - [641, 2757.86]
+  - - [144, 288, 36, 512]
+    - [675, 7077.99]
+  - - [256, 24, 64, 32]
+    - [654, 1483.93]
+  - - [384, 384, 36, 800]
+    - [616, 9246.6]
+  - - [512, 512, 64, 1600]
+    - [662, 10277.4]
+  - - [112, 224, 36, 512]
+    - [630, 6744.88]
+  - - [128, 128, 36, 49]
+    - [636, 2716.39]
+  - - [512, 512, 36, 4]
+    - [664, 1156.62]
+  - - [35, 96, 64, 4235]
+    - [625, 4631.38]
+  - - [192, 384, 64, 450]
+    - [616, 9372.3]
+  - - [256, 256, 36, 1024]
+    - [687, 9346.74]
+  - - [112, 224, 64, 1152]
+    - [630, 7524.05]
+  - - [256, 512, 64, 400]
+    - [649, 9598.05]
+  - - [149, 32, 36, 19072]
+    - [694, 5811.9]
+  - - [128, 256, 36, 6272]
+    - [630, 8754.78]
+  - - [128, 192, 36, 1568]
+    - [655, 8195.2]
+  - - [256, 256, 36, 512]
+    - [687, 9074.32]
+  - - [256, 256, 64, 112]
+    - [687, 8305.65]
+  - - [512, 512, 64, 18]
+    - [680, 4324.12]
+  - - [256, 256, 64, 18]
+    - [643, 3547.91]
+  - - [256, 256, 64, 1568]
+    - [652, 10141.8]
+  - - [64, 96, 36, 1568]
+    - [673, 6805.76]
+  - - [384, 256, 36, 4096]
+    - [687, 9311.2]
+  - - [256, 512, 64, 800]
+    - [662, 9998.45]
+  - - [256, 384, 36, 2048]
+    - [687, 9285.44]
+  - - [3, 64, 36, 200704]
+    - [669, 547.475]
+  - - [384, 384, 64, 2304]
+    - [610, 9901.78]
+  - - [160, 320, 64, 128]
+    - [646, 7113.91]
+  - - [512, 512, 36, 528]
+    - [616, 9567.75]
+  - - [160, 320, 36, 128]
+    - [647, 6411.23]
+  - - [96, 96, 64, 800]
+    - [655, 7690.11]
+  - - [256, 512, 36, 49]
+    - [643, 6721.35]
+  - - [384, 384, 64, 450]
+    - [616, 9523.63]
+  - - [3, 64, 64, 23104]
+    - [668, 801.721]
+  - - [256, 256, 64, 3200]
+    - [652, 10300.5]
+  - - [128, 192, 36, 512]
+    - [630, 7499.85]
+  - - [192, 192, 64, 288]
+    - [687, 8774.34]
+  - - [96, 208, 64, 242]
+    - [647, 5902.09]
+  - - [256, 16, 36, 3200]
+    - [676, 3807.87]
+  - - [512, 512, 64, 8]
+    - [654, 2379.85]
+  - - [64, 128, 64, 5776]
+    - [627, 9332.84]
+  - - [512, 512, 64, 288]
+    - [616, 9522.09]
+  - - [256, 16, 36, 32]
+    - [672, 766.105]
+  - - [128, 192, 64, 288]
+    - [687, 8527.68]
+  - - [32, 64, 64, 640]
+    - [655, 4660.44]
+  - - [64, 64, 36, 392]
+    - [655, 3686.5]
+  - - [384, 384, 36, 1024]
+    - [621, 9282.58]
+  - - [64, 64, 36, 11552]
+    - [685, 5904.88]
+  - - [96, 128, 36, 6272]
+    - [675, 8351.09]
+  - - [128, 256, 36, 16]
+    - [657, 2144.91]
+  - - [256, 256, 64, 288]
+    - [687, 9140.23]
+  - - [64, 64, 64, 1652]
+    - [673, 7766.63]
+  - - [256, 384, 36, 1024]
+    - [621, 9203.37]
+  - - [96, 128, 64, 3200]
+    - [690, 8866.3]
+  - - [256, 324, 36, 3200]
+    - [629, 8194.35]
+  - - [128, 192, 64, 800]
+    - [687, 9198.13]
+  - - [64, 128, 64, 10]
+    - [628, 851.217]
+  - - [96, 208, 64, 288]
+    - [655, 6667.68]
+  - - [64, 96, 36, 2592]
+    - [637, 7216.98]
+  - - [64, 128, 64, 160]
+    - [666, 5191.07]
+  - - [192, 384, 64, 512]
+    - [616, 9446.14]
+  - - [64, 64, 36, 6272]
+    - [625, 6212.11]
+  - - [512, 24, 36, 288]
+    - [622, 3922.57]
+  - - [128, 128, 64, 1568]
+    - [616, 9037.96]
+  - - [112, 224, 64, 242]
+    - [686, 6399.36]
+  - - [128, 256, 64, 1600]
+    - [652, 10010.4]
+  - - [32, 32, 64, 20000]
+    - [620, 4378.51]
+  - - [160, 192, 64, 288]
+    - [647, 7803.73]
+  - - [512, 24, 64, 128]
+    - [608, 3733.9]
+  - - [512, 512, 36, 32]
+    - [643, 5935.44]
+  - - [3, 64, 36, 100352]
+    - [640, 542.883]
+  - - [3, 64, 64, 1444]
+    - [669, 674.259]
+  - - [512, 512, 36, 3136]
+    - [610, 9921.2]
+  - - [128, 256, 64, 6400]
+    - [670, 10349.4]
+  - - [256, 256, 36, 2048]
+    - [687, 9519.09]
+  - - [128, 160, 64, 288]
+    - [630, 7549.85]
+  - - [256, 256, 64, 6400]
+    - [652, 10392.7]
+  - - [32, 64, 64, 20000]
+    - [678, 6493.96]
+  - - [256, 256, 36, 1680]
+    - [627, 9513.39]
+  - - [128, 128, 64, 210]
+    - [687, 7094.2]
+  - - [192, 384, 36, 2048]
+    - [616, 8818.75]
+  - - [256, 256, 64, 144]
+    - [687, 8608.71]
+  - - [384, 384, 36, 4096]
+    - [621, 9357.04]
+  - - [160, 320, 64, 1152]
+    - [647, 8749.58]
+  - - [384, 256, 36, 2048]
+    - [687, 9279.73]
+  - - [256, 512, 36, 392]
+    - [687, 9252.24]
+  - - [256, 512, 64, 50]
+    - [643, 7511.39]
+  - - [73, 192, 36, 23360]
+    - [691, 5803.03]
+  - - [3, 64, 36, 50176]
+    - [640, 542.137]
+  - - [384, 384, 36, 2048]
+    - [616, 9325.9]
+  - - [256, 384, 64, 450]
+    - [662, 9528.76]
+  - - [192, 320, 64, 128]
+    - [621, 8399.91]
+  - - [128, 256, 36, 32]
+    - [636, 3276.9]
+  - - [160, 192, 36, 512]
+    - [675, 7752.44]
+  - - [512, 512, 64, 256]
+    - [627, 9473.74]
+  - - [256, 512, 64, 32]
+    - [665, 6391.42]
+  - - [384, 384, 64, 576]
+    - [616, 9614.89]
+  - - [64, 64, 64, 648]
+    - [673, 6282.25]
+  - - [512, 486, 36, 288]
+    - [687, 8625.03]
+  - - [32, 64, 36, 1440]
+    - [625, 3961.6]
+  - - [144, 288, 64, 242]
+    - [647, 6347.12]
+  - - [384, 256, 64, 576]
+    - [652, 9775.34]
+  - - [512, 512, 36, 64]
+    - [623, 7791.38]
+  - - [448, 384, 64, 128]
+    - [616, 9132.33]
+  - - [64, 128, 64, 722]
+    - [666, 8047.21]
+  - - [144, 288, 64, 288]
+    - [675, 6859.5]
+  - - [512, 512, 64, 224]
+    - [687, 9427.39]
+  - - [112, 224, 64, 288]
+    - [686, 6737.02]
+  - - [384, 384, 64, 1152]
+    - [610, 9820.56]
+  - - [448, 384, 36, 128]
+    - [687, 8761.41]
+  - - [64, 64, 64, 100]
+    - [633, 2708.2]
+  - - [256, 486, 36, 128]
+    - [659, 7640.14]
+  - - [64, 96, 64, 4608]
+    - [688, 8351.59]
+  - - [16, 32, 64, 160]
+    - [612, 736.46]
+  - - [64, 192, 36, 6272]
+    - [688, 8041.29]
+  - - [64, 64, 64, 200]
+    - [641, 3924.41]
+  - - [256, 256, 36, 800]
+    - [687, 9299.65]
+  - - [64, 128, 36, 6272]
+    - [685, 6816.46]
+  - - [32, 64, 64, 40]
+    - [632, 885.722]
+  - - [256, 16, 64, 32]
+    - [682, 1205.36]
+  - - [192, 384, 36, 800]
+    - [621, 8673.98]
+  - - [128, 128, 36, 3200]
+    - [655, 8538.99]
+  - - [256, 256, 36, 256]
+    - [627, 8454.46]
+  - - [192, 384, 64, 1152]
+    - [616, 9589.11]
+  - - [128, 256, 64, 200]
+    - [626, 8141.22]
+  - - [64, 96, 64, 1152]
+    - [655, 7620.98]
+  - - [128, 128, 36, 392]
+    - [630, 6175.61]
+  - - [80, 192, 36, 10368]
+    - [678, 6497.26]
+  - - [224, 224, 36, 128]
+    - [688, 5826.99]
+  - - [512, 512, 64, 28]
+    - [643, 5728.91]
+  - - [256, 16, 64, 1568]
+    - [658, 4637.3]
+  - - [144, 288, 64, 1152]
+    - [675, 7784.34]
+  - - [256, 256, 64, 576]
+    - [652, 9596.22]
+  - - [64, 128, 36, 784]
+    - [688, 6059.09]
+  - - [256, 24, 36, 128]
+    - [622, 2239.94]
+  - - [256, 256, 64, 2304]
+    - [652, 10225.8]
+  - - [192, 384, 36, 512]
+    - [687, 8549.13]
+  - - [16, 32, 64, 2560]
+    - [640, 2153.23]
+  - - [256, 512, 36, 32]
+    - [665, 5702.33]
+  - - [512, 512, 64, 128]
+    - [687, 9084.21]
+  - - [128, 128, 64, 200]
+    - [624, 6972.01]
+  - - [512, 512, 64, 32]
+    - [636, 6248.6]
+  - - [128, 256, 36, 196]
+    - [636, 6628.86]
+  - - [8, 384, 64, 6600]
+    - [668, 2733.99]
+  - - [149, 32, 64, 8195]
+    - [630, 6051.01]
+  - - [35, 96, 64, 6160]
+    - [675, 4689.45]
+  - - [64, 64, 36, 1760]
+    - [625, 5622.34]
+  - - [196, 528, 32, 32]
+    - [708, 4088.51]
+  - - [5329, 64, 32, 80]
+    - [701, 8331.24]
+  - - [64, 2880, 1, 320]
+    - [752, 4362.7]
+  - - [49, 832, 32, 256]
+    - [715, 5618.73]
+  - - [3136, 64, 64, 64]
+    - [701, 8457.75]
+  - - [196, 512, 32, 24]
+    - [702, 3621.83]
+  - - [289, 1120, 1, 160]
+    - [698, 3302.96]
+  - - [1225, 192, 32, 32]
+    - [706, 6194.67]
+  - - [64, 2048, 32, 384]
+    - [729, 9541.64]
+  - - [1001, 1536, 1, 32]
+    - [700, 3575.77]
+  - - [289, 1792, 1, 320]
+    - [723, 5140.43]
+  - - [3136, 256, 64, 64]
+    - [724, 9310.22]
+  - - [1001, 1024, 1, 32]
+    - [695, 2733.5]
+  - - [196, 480, 32, 64]
+    - [756, 5070.52]
+  - - [64, 1728, 1, 320]
+    - [753, 3205.67]
+  - - [49, 832, 32, 160]
+    - [757, 4988.92]
+  - - [49, 2048, 64, 512]
+    - [727, 7370.41]
+  - - [49, 832, 32, 384]
+    - [715, 5902.05]
+  - - [289, 896, 1, 192]
+    - [741, 3452.69]
+  - - [289, 1024, 32, 384]
+    - [760, 8902.52]
+  - - [784, 192, 32, 96]
+    - [771, 7853.73]
+  - - [50176, 256, 1, 128]
+    - [734, 9041.93]
+  - - [289, 1024, 32, 256]
+    - [769, 8660.82]
+  - - [289, 1024, 32, 192]
+    - [758, 8433.45]
+  - - [12544, 512, 1, 256]
+    - [718, 9187.44]
+  - - [1225, 1728, 1, 192]
+    - [722, 7720.95]
+  - - [196, 480, 32, 96]
+    - [767, 5662.6]
+  - - [196, 512, 32, 144]
+    - [761, 6531.48]
+  - - [784, 400, 1, 32]
+    - [696, 1280.1]
+  - - [289, 768, 32, 128]
+    - [762, 7913.71]
+  - - [5329, 576, 1, 96]
+    - [705, 7563.56]
+  - - [49, 1200, 1, 128]
+    - [749, 1011.71]
+  - - [64, 1536, 32, 256]
+    - [763, 9159.64]
+  - - [289, 2592, 1, 384]
+    - [731, 6002.81]
+  - - [196, 528, 32, 128]
+    - [766, 5987.2]
+  - - [64, 2048, 32, 448]
+    - [729, 9669.97]
+  - - [196, 1024, 64, 256]
+    - [768, 7819.04]
+  - - [5329, 448, 1, 64]
+    - [701, 6201.12]
+  - - [784, 256, 32, 64]
+    - [703, 7623.28]
+  - - [784, 192, 32, 32]
+    - [708, 5874.36]
+  - - [21609, 288, 1, 32]
+    - [721, 5296.6]
+  - - [784, 256, 32, 32]
+    - [699, 6235.56]
+  - - [5041, 720, 1, 192]
+    - [717, 8141.08]
+  - - [289, 2016, 1, 256]
+    - [714, 5404.15]
+  - - [196, 512, 32, 128]
+    - [759, 6366.92]
+  - - [289, 768, 32, 160]
+    - [761, 8253.98]
+  - - [64, 1536, 32, 384]
+    - [732, 9508.6]
+  - - [64, 1280, 32, 320]
+    - [732, 9070.83]
+  - - [289, 896, 1, 128]
+    - [742, 2917.78]
+  - - [289, 3456, 1, 384]
+    - [722, 7275.01]
+  - - [196, 800, 1, 64]
+    - [744, 1393.88]
+  - - [64, 1280, 32, 384]
+    - [728, 9225.11]
+  - - [64, 1344, 1, 512]
+    - [747, 3041.55]
+  - - [1001, 4096, 1, 512]
+    - [728, 9391.87]
+  - - [1225, 192, 32, 64]
+    - [701, 7729.39]
+  - - [64, 1152, 1, 384]
+    - [751, 2440.75]
+  - - [729, 1600, 1, 192]
+    - [713, 6827.81]
+  - - [289, 1344, 1, 192]
+    - [711, 4439.14]
+  - - [784, 192, 32, 16]
+    - [738, 3663.14]
+  - - [3136, 1024, 1, 2048]
+    - [720, 9071.87]
+  - - [64, 1152, 1, 448]
+    - [748, 2564.55]
+  - - [49, 832, 32, 128]
+    - [711, 4733.26]
+  - - [784, 256, 32, 128]
+    - [724, 8471.7]
+  - - [49, 800, 1, 128]
+    - [746, 633.635]
+  - - [196, 512, 32, 32]
+    - [708, 4354.36]
+  - - [1225, 384, 32, 96]
+    - [725, 8751.73]
+  - - [5041, 576, 1, 96]
+    - [707, 7067.73]
+  - - [49, 832, 32, 48]
+    - [740, 3316.82]
+  - - [3136, 64, 64, 256]
+    - [762, 9722.0]
+  - - [5329, 160, 32, 64]
+    - [764, 8159.94]
+  - - [1225, 288, 32, 48]
+    - [754, 6673.75]
+  - - [4096, 9216, 1, 512]
+    - [736, 10117.0]
+  - - [196, 480, 32, 192]
+    - [765, 6388.56]
+  - - [64, 1152, 1, 256]
+    - [752, 1982.7]
+  - - [3136, 1024, 1, 512]
+    - [720, 8745.67]
+  - - [49, 832, 32, 32]
+    - [739, 2717.97]
+  - - [784, 192, 32, 64]
+    - [703, 7216.42]
+  - - [289, 1024, 32, 128]
+    - [726, 7970.6]
+  - - [289, 768, 32, 192]
+    - [770, 8327.37]
+  - - [289, 1120, 1, 192]
+    - [710, 3717.0]
+  - - [196, 512, 32, 112]
+    - [716, 6252.91]
+  - - [1001, 2048, 1, 32]
+    - [704, 4000.19]
+  - - [1225, 288, 32, 64]
+    - [764, 7208.14]
+  - - [196, 600, 1, 64]
+    - [743, 1094.05]
+  - - [1225, 384, 32, 192]
+    - [725, 9332.76]
+  - - [50176, 256, 1, 512]
+    - [735, 9833.64]
+  - - [196, 512, 32, 160]
+    - [762, 6614.44]
+  - - [4096, 4096, 1, 512]
+    - [733, 10032.3]
+  - - [49, 832, 32, 192]
+    - [711, 5244.63]
+  - - [1225, 256, 32, 64]
+    - [701, 7972.45]
+  - - [64, 2048, 32, 320]
+    - [729, 9404.37]
+  - - [196, 480, 32, 16]
+    - [755, 2724.59]
+  - - [1225, 256, 32, 48]
+    - [703, 7100.48]
+  - - [64, 1280, 32, 448]
+    - [728, 9344.51]
+  - - [1225, 1200, 1, 64]
+    - [697, 5157.99]
+  - - [1225, 384, 32, 64]
+    - [701, 8220.06]
+  - - [12544, 512, 1, 1024]
+    - [720, 9672.82]
+  - - [64, 1280, 32, 192]
+    - [716, 8525.11]
+  - - [196, 512, 32, 64]
+    - [701, 5489.44]
+  - - [289, 1792, 1, 256]
+    - [719, 4831.71]
+  - - [196, 528, 32, 256]
+    - [737, 6453.92]
+  - - [49, 512, 64, 2048]
+    - [772, 7549.08]
+  - - [64, 2048, 32, 192]
+    - [724, 8955.91]
+  - - [784, 512, 64, 128]
+    - [724, 9160.83]
+  - - [784, 128, 64, 512]
+    - [731, 9280.79]
+  - - [196, 528, 32, 160]
+    - [765, 6161.25]
+  - - [1225, 192, 32, 48]
+    - [701, 7237.02]
+  - - [64, 1728, 1, 192]
+    - [751, 2480.67]
+  - - [1001, 2048, 1, 64]
+    - [777, 5714.52]
+  - - [5329, 64, 128, 80]
+    - [784, 8835.39]
+  - - [64, 1280, 128, 448]
+    - [782, 10020.6]
+  - - [289, 768, 128, 128]
+    - [785, 8542.81]
+  - - [1225, 192, 128, 64]
+    - [774, 8444.87]
+  - - [1225, 288, 128, 48]
+    - [787, 7244.76]
+  - - [289, 768, 128, 192]
+    - [789, 8794.59]
+  - - [289, 768, 128, 160]
+    - [786, 8705.43]
+  - - [64, 2048, 128, 192]
+    - [780, 9780.36]
+  - - [64, 1280, 128, 384]
+    - [783, 9951.0]
+  - - [1225, 256, 128, 48]
+    - [775, 8273.71]
+  - - [1225, 192, 128, 48]
+    - [775, 8140.42]
+  - - [1225, 288, 128, 64]
+    - [787, 7886.31]
+  - - [64, 1280, 128, 320]
+    - [779, 9894.66]
+  - - [1225, 256, 128, 64]
+    - [780, 8572.61]
+  - - [1001, 2048, 1, 128]
+    - [781, 7289.16]
+  - - [1225, 192, 128, 32]
+    - [776, 7104.67]
+  - - [64, 1280, 128, 192]
+    - [788, 9642.18]
+  - - [1001, 1536, 1, 64]
+    - [778, 5146.66]
 - null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/arcturus_Cijk_Ailk_Bljk_SB.yaml b/library/src/blas3/Tensile/Logic/asm_full/arcturus_Cijk_Ailk_Bljk_SB.yaml
index 34701116d..0596e8cd4 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/arcturus_Cijk_Ailk_Bljk_SB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/arcturus_Cijk_Ailk_Bljk_SB.yaml
@@ -32091,8 +32091,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -32255,8 +32255,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -32419,8 +32419,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -32583,8 +32583,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -32747,8 +32747,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -32911,8 +32911,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -33075,8 +33075,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -33239,8 +33239,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -33399,8 +33399,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -33563,8 +33563,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -33723,8 +33723,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -33887,8 +33887,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -34051,8 +34051,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -34215,8 +34215,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -34379,8 +34379,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -34543,8 +34543,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -34707,8 +34707,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -34871,8 +34871,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -35035,8 +35035,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -35199,8 +35199,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -35363,8 +35363,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -35527,8 +35527,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -35691,8 +35691,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -35855,8 +35855,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -36019,8 +36019,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -36186,8 +36186,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -36349,8 +36349,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -36516,8 +36516,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -36679,8 +36679,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -36846,8 +36846,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -37009,8 +37009,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -37176,8 +37176,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -37339,8 +37339,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -37506,8 +37506,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -37667,8 +37667,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -37828,8 +37828,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -37991,8 +37991,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -38158,8 +38158,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -38323,8 +38323,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -38486,8 +38486,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -38653,8 +38653,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -38816,8 +38816,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -38983,8 +38983,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -39146,8 +39146,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -39309,8 +39309,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -39474,8 +39474,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -39637,8 +39637,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -39800,8 +39800,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -39965,8 +39965,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -40128,8 +40128,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -40291,8 +40291,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -40452,8 +40452,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -40613,8 +40613,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -40774,8 +40774,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -40935,8 +40935,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -41100,8 +41100,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -41263,8 +41263,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -41430,8 +41430,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -41593,8 +41593,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -41756,8 +41756,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -41915,8 +41915,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -42078,8 +42078,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -42239,8 +42239,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -42404,8 +42404,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -42565,8 +42565,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -42726,8 +42726,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -42887,8 +42887,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -43052,8 +43052,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -43213,8 +43213,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -43374,8 +43374,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -43535,8 +43535,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -43696,8 +43696,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -43857,8 +43857,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -44018,8 +44018,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -44179,8 +44179,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -44340,8 +44340,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -44501,8 +44501,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -44662,8 +44662,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -44823,8 +44823,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -44984,8 +44984,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -45145,8 +45145,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -45306,8 +45306,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -45467,8 +45467,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -45628,8 +45628,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -45787,8 +45787,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -45947,8 +45947,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -46107,8 +46107,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -46267,8 +46267,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -46427,8 +46427,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -46587,8 +46587,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -46747,8 +46747,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -46911,8 +46911,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -47071,8 +47071,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -47231,8 +47231,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -47391,8 +47391,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -47551,8 +47551,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -47711,8 +47711,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -47871,8 +47871,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -48035,8 +48035,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -48195,8 +48195,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -48359,8 +48359,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -48519,8 +48519,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -48683,8 +48683,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -48843,8 +48843,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -49003,8 +49003,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -49163,8 +49163,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -49323,8 +49323,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -49483,8 +49483,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -49647,8 +49647,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -49811,8 +49811,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -49975,8 +49975,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -50135,8 +50135,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -50299,8 +50299,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -50463,8 +50463,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -50623,8 +50623,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -50787,8 +50787,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -50951,8 +50951,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -51111,8 +51111,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -51275,8 +51275,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -51439,8 +51439,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -51603,8 +51603,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -51763,8 +51763,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -51927,8 +51927,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -52087,8 +52087,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -52251,8 +52251,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -52415,8 +52415,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -52579,8 +52579,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -52739,8 +52739,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -52903,8 +52903,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -53067,8 +53067,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -53231,8 +53231,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -53395,8 +53395,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -53559,8 +53559,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -53723,8 +53723,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -53887,8 +53887,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -54051,8 +54051,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -54215,8 +54215,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -54375,8 +54375,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -54539,8 +54539,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -54703,8 +54703,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -54867,8 +54867,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -55031,8 +55031,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -55195,8 +55195,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -55359,8 +55359,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -55519,8 +55519,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -55679,8 +55679,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -55839,8 +55839,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -55999,8 +55999,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -56159,8 +56159,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -56319,8 +56319,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -56479,8 +56479,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -56639,8 +56639,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -56799,8 +56799,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -56959,8 +56959,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -57119,8 +57119,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -57279,8 +57279,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -57443,8 +57443,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -57607,8 +57607,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -57767,8 +57767,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -57931,8 +57931,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -58095,8 +58095,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -58259,8 +58259,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -58419,8 +58419,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -58583,8 +58583,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -58743,8 +58743,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -58907,8 +58907,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -59071,8 +59071,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -59231,8 +59231,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -59395,8 +59395,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -59559,8 +59559,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -59723,8 +59723,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -59887,8 +59887,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -60051,8 +60051,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -60215,8 +60215,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -60379,8 +60379,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -60543,8 +60543,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -60707,8 +60707,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -60871,8 +60871,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -61035,8 +61035,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -61199,8 +61199,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -61363,8 +61363,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -61527,8 +61527,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -61691,8 +61691,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -61855,8 +61855,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -62015,8 +62015,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -62179,8 +62179,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -62343,8 +62343,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -62507,8 +62507,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -62671,8 +62671,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -62831,8 +62831,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -62991,8 +62991,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -63155,8 +63155,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -63319,8 +63319,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -63483,8 +63483,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -63647,8 +63647,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -63807,8 +63807,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -63971,8 +63971,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -64135,8 +64135,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -64295,8 +64295,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -64459,8 +64459,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -64619,8 +64619,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -64783,8 +64783,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -64943,8 +64943,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -65103,8 +65103,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -65267,8 +65267,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -65431,8 +65431,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -65595,8 +65595,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -65759,8 +65759,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -65923,8 +65923,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -66087,8 +66087,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -66251,8 +66251,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -66411,8 +66411,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -66575,8 +66575,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -66739,8 +66739,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -66903,8 +66903,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -67067,8 +67067,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -67231,8 +67231,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -67395,8 +67395,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -67559,8 +67559,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -67723,8 +67723,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -67887,8 +67887,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -68051,8 +68051,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -68215,8 +68215,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -68379,8 +68379,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -68543,8 +68543,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -68707,8 +68707,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -68871,8 +68871,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -69035,8 +69035,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -69199,8 +69199,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -69359,8 +69359,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -69519,8 +69519,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -69683,8 +69683,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -69843,8 +69843,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -70003,8 +70003,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -70167,8 +70167,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -70327,8 +70327,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -70491,8 +70491,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -70651,8 +70651,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -70811,8 +70811,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -70975,8 +70975,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -71139,8 +71139,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -71303,8 +71303,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -71467,8 +71467,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -71631,8 +71631,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -71795,8 +71795,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -71959,8 +71959,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -72123,8 +72123,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -72287,8 +72287,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -72451,8 +72451,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -72611,8 +72611,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -72775,8 +72775,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -72939,8 +72939,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -73103,8 +73103,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -73267,8 +73267,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -73431,8 +73431,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -73595,8 +73595,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -73759,8 +73759,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -73923,8 +73923,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -74087,8 +74087,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -74251,8 +74251,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -74415,8 +74415,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -74579,8 +74579,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -74739,8 +74739,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -74903,8 +74903,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -75067,8 +75067,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -75231,8 +75231,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -75395,8 +75395,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -75555,8 +75555,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -75715,8 +75715,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -75879,8 +75879,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -76043,8 +76043,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -76203,8 +76203,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -76363,8 +76363,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -76523,8 +76523,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -76683,8 +76683,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -76843,8 +76843,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -77003,8 +77003,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -77163,8 +77163,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -77327,8 +77327,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -77487,8 +77487,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -77647,8 +77647,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -77811,8 +77811,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -77975,8 +77975,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -78139,8 +78139,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -78303,8 +78303,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -78467,8 +78467,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -78631,8 +78631,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -78795,8 +78795,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -78959,8 +78959,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -79123,8 +79123,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -79292,8 +79292,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -79457,8 +79457,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -79624,8 +79624,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -79791,8 +79791,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -79958,8 +79958,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -80125,8 +80125,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -80294,8 +80294,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -80459,8 +80459,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -80628,8 +80628,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -80795,8 +80795,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -80962,8 +80962,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -81129,8 +81129,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -81296,8 +81296,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -81463,8 +81463,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -81630,8 +81630,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -81795,8 +81795,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -81962,8 +81962,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -82129,8 +82129,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -82296,8 +82296,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -82463,8 +82463,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -82630,8 +82630,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -82797,8 +82797,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -82966,8 +82966,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -83133,8 +83133,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -83300,8 +83300,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -83467,8 +83467,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -83634,8 +83634,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -83801,8 +83801,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -83968,8 +83968,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -84135,8 +84135,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -84300,8 +84300,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -84467,8 +84467,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -84632,8 +84632,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -84799,8 +84799,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -84964,8 +84964,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -85131,8 +85131,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -85300,8 +85300,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -85467,8 +85467,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -85634,8 +85634,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -85801,8 +85801,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -85966,8 +85966,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -86133,8 +86133,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -86300,8 +86300,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -86469,8 +86469,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -86636,8 +86636,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -86803,8 +86803,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -86968,8 +86968,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -87135,8 +87135,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -87304,8 +87304,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -87471,8 +87471,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -87638,8 +87638,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -87805,8 +87805,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -87972,8 +87972,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -88139,8 +88139,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -88186,23 +88186,23 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -88210,37 +88210,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
+    LSCA: 64
+    LSCB: 8
     LSPA: 4
-    LSPB: 16
+    LSPB: 32
     LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -88248,10 +88245,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 16
-    MacroTileA: 128
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88259,26 +88256,34 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -88288,6 +88293,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -88297,6 +88303,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -88311,47 +88318,55 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 559
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT08_02_USFGRO0_VW02_WG16_08_02
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001 
-    ThreadTile0: 8
-    ThreadTile1: 2
-    ThreadTileA: 8
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002 
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -88359,37 +88374,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 32
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
+    LSCA: 64
+    LSCB: 8
     LSPA: 4
-    LSPB: 16
+    LSPB: 32
     LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -88397,10 +88409,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 16
-    MacroTileA: 128
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88408,26 +88420,34 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -88437,6 +88457,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -88446,6 +88467,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -88460,33 +88482,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 560
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT08_02_USFGRO0_VW02_WG16_08_02
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 8
-    ThreadTile1: 2
-    ThreadTileA: 8
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id002
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -88501,7 +88531,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -88509,47 +88539,48 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 32
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 2
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 16
-    MacroTileA: 128
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88557,19 +88588,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -88577,6 +88615,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -88586,6 +88625,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -88595,6 +88635,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -88609,14 +88650,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 561
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005 
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -88627,63 +88675,69 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id004 
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 2560
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -88692,9 +88746,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88702,26 +88756,34 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -88731,6 +88793,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -88740,6 +88803,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -88754,48 +88818,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 562
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x32_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id003 
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id002
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -88803,43 +88875,48 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 2
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 4352
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 8
-    MacroTileA: 128
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88847,26 +88924,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 8
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -88876,6 +88959,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -88885,6 +88969,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -88899,48 +88984,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 563
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x008x32_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT04_02_USFGRO0_VW02_WG32_04_02
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW2_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -88948,43 +89043,48 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 16
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 4352
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 8
-    MacroTileA: 128
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88992,26 +89092,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -89021,6 +89127,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -89030,6 +89137,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -89044,14 +89152,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 564
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x008x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG32_02_04
-    SubGroup0: 32
-    SubGroup1: 2
-    SubGroupA: 32
-    SubGroupB: 2
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -89062,74 +89177,82 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id007 
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 32
     LVCA: 16
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89137,26 +89260,34 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -89166,6 +89297,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -89175,6 +89307,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -89189,96 +89322,105 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 565
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_02_08
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_DTL0_EPS1_FL0_GRVW2_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 2
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 2
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id006 
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89286,19 +89428,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -89306,6 +89453,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -89315,6 +89463,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -89324,6 +89473,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -89338,48 +89488,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 566
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_02_08
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 2
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 2
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id006
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -89387,43 +89547,48 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 32
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 2304
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89431,16 +89596,42405 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
-    PerformanceSyncLocation: -1
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 567
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW2_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 568
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 569
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 570
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 571
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 572
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 512
+    LdsOffsetA: 0
+    LdsOffsetB: 256
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 573
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR0_TT2_2_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 784
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 574
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB2_PGR0_PLR0_TT4_2_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 575
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2080
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 576
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB2_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2112
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 577
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4224
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 578
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2112
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 579
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL1_GRVW4_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 580
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_TT2_2_USFGRO1_VW2_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 581
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 582
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 583
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_DTL0_EPS1_FL0_GRVW4_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 584
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_DTL0_EPS1_FL0_GRVW1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 585
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_DTL0_EPS1_FL1_GRVW2_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 586
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 587
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB0_PGR0_PLR0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 588
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS3_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 2
+    LSPB: 32
+    LVCA: 128
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 589
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO1_VW1_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 590
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 512
+    LdsOffsetA: 0
+    LdsOffsetB: 256
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 591
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB0_PGR0_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1544
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 592
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_LPB1_PGR1_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 520
+    LdsOffsetA: 0
+    LdsOffsetB: 256
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 593
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB1_PGR0_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 1040
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 594
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB1_PGR0_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 595
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR0_TT2_4_USFGRO1_VW1_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 596
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 597
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_AMAS1_EPS0_FL0_GRVW1_GSU8_LPB1_PGR0_PLR1_TT4_4_USFGRO1_VW1_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 256
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 598
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_AMAS1_EPS0_FL0_GRVW2_GSU1_LPB0_PGR0_PLR1_TT4_2_USFGRO1_VW1_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 599
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_AMAS3_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 600
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 601
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 602
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 603
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 604
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 96
+    LVCA: 32
+    LVCB: 2
+    LVPA: 4
+    LVPB: 24
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 605
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 96
+    LVCA: 32
+    LVCB: 2
+    LVPA: 4
+    LVPB: 24
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 606
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 96
+    LVCA: 32
+    LVCB: 2
+    LVPA: 4
+    LVPB: 24
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 607
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 608
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 609
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 610
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 611
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 612
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 613
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 614
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 615
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 616
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 617
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 618
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 619
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 620
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3104
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 621
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3104
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 622
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2112
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 623
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 624
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 625
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2112
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 626
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_GSU1_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 627
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3088
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 628
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 629
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 630
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 631
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 632
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3136
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 8
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 633
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x16_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 634
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 635
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3072
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 636
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW2_GSU1_LPB0_PGR0_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 637
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 638
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 639
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 640
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 641
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 642
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 643
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 644
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 645
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 646
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 647
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 2
+    LSPB: 32
+    LVCA: 128
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 648
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 649
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 650
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 651
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 1824
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 652
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 1824
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 653
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 800
+    LdsOffsetA: 0
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 654
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_EPS0_FL1_GRVW4_GSU1_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 1680
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 192
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 655
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 16
+    LVCB: 2
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 656
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 657
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: true
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 1
+    LSPB: 16
+    LVCA: 128
+    LVCB: 8
+    LVPA: 1
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 1296
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: true
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 8
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 658
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB2_PGR0_PLR1_TT8_4_USFGRO1_VW2_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: true
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 1
+    LSPB: 16
+    LVCA: 128
+    LVCB: 8
+    LVPA: 1
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 1312
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: true
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 659
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: true
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 1
+    LSPB: 16
+    LVCA: 128
+    LVCB: 8
+    LVPA: 1
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 1312
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: true
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 660
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2560
+    LdsOffsetA: 0
+    LdsOffsetB: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 661
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_EPS0_FL0_GRVW2_GSU1_LPB0_PGR0_PLR0_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 662
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 663
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 664
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 665
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 32
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 96
+    LVCA: 32
+    LVCB: 2
+    LVPA: 4
+    LVPB: 24
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 666
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 667
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 668
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 669
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 670
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 671
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 672
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 673
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 674
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG4_16_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 675
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 676
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW2_GSU8_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 677
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_VW2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 678
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_VW2_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 679
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_VW2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 680
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 681
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 682
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 683
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 684
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 685
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 686
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 687
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_NLCA1_PGR1_PLR1_TT2_4_USFGRO0_VW2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 688
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_NLCA1_PGR1_PLR1_TT2_4_USFGRO0_VW2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 689
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 690
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_NLCA1_PGR1_PLR0_TT8_4_USFGRO0_VW4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 691
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 692
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 693
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR0_TT8_4_USFGRO0_VW4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 694
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 16
+    MacroTileA: 128
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 695
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT08_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001 
+    ThreadTile0: 8
+    ThreadTile1: 2
+    ThreadTileA: 8
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id002 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 16
+    MacroTileA: 128
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 696
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT08_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001
+    ThreadTile0: 8
+    ThreadTile1: 2
+    ThreadTileA: 8
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id002
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 16
+    MacroTileA: 128
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 697
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id004 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2560
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 698
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x32_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id003 
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id002
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4352
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 8
+    MacroTileA: 128
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 8
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 699
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x008x32_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT04_02_USFGRO0_VW02_WG32_04_02
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id003
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id004
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4352
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 8
+    MacroTileA: 128
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 700
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x008x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG32_02_04
+    SubGroup0: 32
+    SubGroup1: 2
+    SubGroupA: 32
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id007 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 701
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_02_08
+    SubGroup0: 16
+    SubGroup1: 2
+    SubGroupA: 16
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id006 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 702
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_02_08
+    SubGroup0: 16
+    SubGroup1: 2
+    SubGroupA: 16
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id006
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2304
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 703
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT02_02_USFGRO0_VW02_WG32_04_02
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id008 
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id004
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4352
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 8
+    MacroTileA: 128
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 704
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x008x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG32_02_04
+    SubGroup0: 32
+    SubGroup1: 2
+    SubGroupA: 32
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id007
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 705
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT08_02_USFGRO0_VW02_WG08_04_08
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001
+    ThreadTile0: 8
+    ThreadTile1: 2
+    ThreadTileA: 8
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 4, 8]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 64
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2560
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 706
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x64_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id008
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 64
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4352
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 4
+    MacroTileA: 64
+    MacroTileB: 4
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 8
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 707
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x004x64_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT02_02_USFGRO0_VW02_WG32_02_04
+    SubGroup0: 32
+    SubGroup1: 2
+    SubGroupA: 32
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id008
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id007
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 64
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4352
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 4
+    MacroTileA: 64
+    MacroTileB: 4
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 8
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 708
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x004x64_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT04_02_USFGRO0_VW02_WG16_02_08
+    SubGroup0: 16
+    SubGroup1: 2
+    SubGroupA: 16
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id003
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id006
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 48
+    LSCB: 16
+    LSPA: 4
+    LSPB: 12
+    LVCA: 48
+    LVCB: 16
+    LVPA: 4
+    LVPB: 12
+    LdcEqualsLdd: false
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 48
+    MacroTile1: 36
+    MacroTileA: 48
+    MacroTileB: 36
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 9
+    NumGlobalWriteVectorsPerThread: 9
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 709
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x036x16_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT06_03_USFGRO01_VW01_WG08_12_02
+    SubGroup0: 8
+    SubGroup1: 12
+    SubGroupA: 8
+    SubGroupB: 12
+    SuppresssNoLoadLoop: false
+    ThreadTile: [6, 3]
+    ThreadTile0: 6
+    ThreadTile1: 3
+    ThreadTileA: 6
+    ThreadTileB: 3
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [8, 12, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 12
+    LSCB: 16
+    LSPA: 16
+    LSPB: 12
+    LVCA: 12
+    LVCB: 16
+    LVPA: 16
+    LVPB: 12
+    LdcEqualsLdd: false
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 36
+    MacroTile1: 48
+    MacroTileA: 36
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 9
+    NumGlobalWriteVectorsPerThread: 9
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 710
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT036x048x16_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT03_03_USFGRO01_VW01_WG12_16_01
+    SubGroup0: 12
+    SubGroup1: 16
+    SubGroupA: 12
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009 
+    ThreadTile0: 3
+    ThreadTile1: 3
+    ThreadTileA: 3
+    ThreadTileB: 3
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [12, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 48
+    MacroTile1: 48
+    MacroTileA: 48
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 9
+    NumGlobalWriteVectorsPerThread: 9
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 711
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x048x16_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT03_03_USFGRO01_VW01_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id009
+    ThreadTile0: 3
+    ThreadTile1: 3
+    ThreadTileA: 3
+    ThreadTileB: 3
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 48
+    LSCB: 32
+    LSPA: 8
+    LSPB: 12
+    LVCA: 24
+    LVCB: 16
+    LVPA: 4
+    LVPB: 6
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 48
+    MacroTile1: 24
+    MacroTileA: 48
+    MacroTileB: 24
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 6
+    NumGlobalWriteVectorsPerThread: 3
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 712
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x024x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT06_04_USFGRO0_VW02_WG08_06_04
+    SubGroup0: 8
+    SubGroup1: 6
+    SubGroupA: 8
+    SubGroupB: 6
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id011 
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id010 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 24
+    LSCB: 32
+    LSPA: 8
+    LSPB: 6
+    LVCA: 24
+    LVCB: 32
+    LVPA: 8
+    LVPB: 6
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 24
+    MacroTile1: 24
+    MacroTileA: 24
+    MacroTileB: 24
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 3
+    NumGlobalWriteVectorsPerThread: 3
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 713
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT024x024x32_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT03_04_USFGRO01_VW01_WG08_06_04
+    SubGroup0: 8
+    SubGroup1: 6
+    SubGroupA: 8
+    SubGroupB: 6
+    SuppresssNoLoadLoop: false
+    ThreadTile: [3, 4]
+    ThreadTile0: 3
+    ThreadTile1: 4
+    ThreadTileA: 3
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: *id010
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 48
+    LSCB: 32
+    LSPA: 8
+    LSPB: 12
+    LVCA: 24
+    LVCB: 16
+    LVPA: 4
+    LVPB: 6
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 48
+    MacroTile1: 24
+    MacroTileA: 48
+    MacroTileB: 24
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 6
+    NumGlobalWriteVectorsPerThread: 3
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 714
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x024x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT06_04_USFGRO0_VW02_WG08_06_04
+    SubGroup0: 8
+    SubGroup1: 6
+    SubGroupA: 8
+    SubGroupB: 6
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id011
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id010
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 832
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 715
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012 
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id017 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 16
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 716
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 8
+    LVCB: 2
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 717
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x08_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id016 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 16
+    LVCB: 2
+    LVPA: 1
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 718
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x08_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO00_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 719
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id014 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 720
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015 
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 16
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 721
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 722
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 8
+    LVCB: 2
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 723
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x08_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id016
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id013
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 724
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id014
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 725
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id014
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 726
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG32_04_01
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [32, 4, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 727
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 728
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 8
+    LVCB: 4
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 729
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id016
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 730
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 731
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id016
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 732
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id014
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 24
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 384
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 24
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 6
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 6
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 733
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x24_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 4
+    LSPB: 4
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 8
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 734
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id017
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 735
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018 
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id019 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 736
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x08_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id021 
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id024 
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 737
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id019
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 738
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id019
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 16
+    MacroTileA: 128
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 739
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id020 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id025 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 740
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id020
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 741
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id019
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 742
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022 
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id019
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 743
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id020
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id019
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 744
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id021
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id019
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 745
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id023 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 746
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id023
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 747
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id024
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 16
+    MacroTileA: 128
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 748
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id020
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id025
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 749
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id020
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 128
+    MacroTile1: 16
+    MacroTileA: 128
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 750
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id021
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 751
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id019
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 752
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id020
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id019
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 753
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id021
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id019
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 754
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id023
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 755
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id023
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 756
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id024
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 757
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id024
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 758
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id027 
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id024
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 16
+    MacroTileA: 128
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 759
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id020
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id025
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 760
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id019
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 761
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id020
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id019
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 762
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id021
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id019
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 763
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id023
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 764
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id023
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 765
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id020
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 766
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id020
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id019
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 767
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id023
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 768
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id023
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 24
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 16
+    LVCB: 2
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1536
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 12
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 769
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id027
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id019
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 24
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 16
+    LVCB: 2
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1536
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 12
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 770
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id027
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id019
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 771
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id026
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 772
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id026
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 773
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id027
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 774
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id019
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 775
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id023
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 776
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id020
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id023
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 777
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id021
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id023
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 778
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id024
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 779
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id026
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 780
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id027
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 781
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id023
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 782
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id020
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id023
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 783
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id021
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id023
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 784
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id020
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id024
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 785
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id027
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id024
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 786
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id026
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 787
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id026
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 788
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id020
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id023
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 789
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id026
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 790
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id020
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id023
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 791
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id021
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id023
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 792
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id024
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 793
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id026
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 794
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id026
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 795
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x08_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id028 
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 796
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id029 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id028
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 797
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id029
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id028
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 798
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_08_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id031 
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id028
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsOffsetA: 0
+    LdsOffsetB: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 799
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT06_08_USFGRO00_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id032 
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id028
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3072
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 800
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id030 
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id028
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 801
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id030
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id028
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 802
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id029
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id028
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 803
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id029
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id028
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 804
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_08_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id031
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id028
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsOffsetA: 0
+    LdsOffsetB: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 805
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT06_08_USFGRO00_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id032
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id028
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 806
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id030
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id028
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 807
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id029
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id028
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6144
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 808
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_08_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id031
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id028
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6144
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 809
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id030
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id028
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 810
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id029
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id028
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 811
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id029
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id028
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 812
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x08_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id033 
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 813
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x08_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id033
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 814
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id035 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 815
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id035
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3072
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 816
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_08_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id036 
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 817
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_08_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id036
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 818
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT06_08_USFGRO0_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id038 
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id034
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3072
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 819
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id037 
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 820
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id037
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1536
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 96
+    MacroTileA: 128
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 821
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x096x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT08_06_USFGRO0_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id039 
+    ThreadTile0: 8
+    ThreadTile1: 6
+    ThreadTileA: 8
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id034
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 822
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id033
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 823
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id033
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 824
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id035
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 825
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id035
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3072
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 826
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_08_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id036
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 827
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_08_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id036
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 828
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT06_08_USFGRO0_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id038
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id034
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3072
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 829
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id037
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 830
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id037
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1536
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 96
+    MacroTileA: 128
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 831
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x096x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT08_06_USFGRO0_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id039
+    ThreadTile0: 8
+    ThreadTile1: 6
+    ThreadTileA: 8
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id034
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 832
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id033
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 833
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id033
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 24
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 6144
+    LdsOffsetA: 0
+    LdsOffsetB: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 24
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
@@ -89483,25 +132037,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 567
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT02_02_USFGRO0_VW02_WG32_04_02
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
+    SolutionIndex: 834
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id008 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id033
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id004
+    VectorWidth: 4
+    WorkGroup: *id034
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -89515,7 +132069,156 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 24
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 3072
+    LdsNumElementsAlignedB: 3072
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 3072
+    LdsOffsetB_Blk: 11264
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 24
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 835
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id033
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -89524,7 +132227,7 @@
     ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -89532,43 +132235,43 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 32
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 32
+    LSCB: 8
     LSPA: 8
-    LSPB: 8
+    LSPB: 128
     LVCA: 32
-    LVCB: 32
+    LVCB: 2
     LVPA: 2
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4352
+    LdsNumElements: 6144
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetB: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 24
     MacroTile0: 128
-    MacroTile1: 8
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 8
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89576,13 +132279,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 3
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 3
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -89628,14 +132331,308 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 568
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x008x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG32_02_04
-    SubGroup0: 32
-    SubGroup1: 2
-    SubGroupA: 32
-    SubGroupB: 2
+    SolutionIndex: 836
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: *id033
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 24
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 3072
+    LdsNumElementsAlignedB: 3072
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 3072
+    LdsOffsetB_Blk: 11264
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 24
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 837
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id033
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 838
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id035
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -89646,7 +132643,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id007
+    WorkGroup: *id034
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -89668,35 +132665,35 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 32
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6400
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -89706,18 +132703,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 32
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89725,14 +132722,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -89777,25 +132774,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 569
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT08_02_USFGRO0_VW02_WG08_04_08
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 8
-    ThreadTile1: 2
-    ThreadTileA: 8
-    ThreadTileB: 2
+    SolutionIndex: 839
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id035
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 4, 8]
+    VectorWidth: 4
+    WorkGroup: *id034
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -89809,7 +132806,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 64
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -89817,52 +132814,52 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 4
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2560
+    LdsNumElements: 6144
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 4096
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89870,14 +132867,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 4
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -89922,25 +132919,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 570
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x64_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SolutionIndex: 840
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id008
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id037
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: *id034
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -89954,60 +132951,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 64
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
+    LSCA: 128
+    LSCB: 32
     LSPA: 8
-    LSPB: 4
+    LSPB: 32
     LVCA: 32
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4352
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
     LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 4
-    MacroTileA: 64
-    MacroTileB: 4
+    LoopUnroll: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90015,20 +133016,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 8
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -90067,25 +133068,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 571
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x004x64_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT02_02_USFGRO0_VW02_WG32_02_04
-    SubGroup0: 32
-    SubGroup1: 2
-    SubGroupA: 32
-    SubGroupB: 2
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id008
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 841
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id037
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id007
+    VectorWidth: 4
+    WorkGroup: *id034
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -90099,7 +133100,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 64
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90107,33 +133108,33 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
+    LSCA: 128
+    LSCB: 32
     LSPA: 8
-    LSPB: 4
+    LSPB: 32
     LVCA: 32
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4352
+    LdsNumElements: 8192
     LdsOffsetA: 0
     LdsOffsetB: 4096
     LdsPadA: 0
@@ -90141,18 +133142,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 4
-    MacroTileA: 64
-    MacroTileB: 4
+    LoopUnroll: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90160,14 +133161,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 8
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -90212,25 +133213,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 572
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x004x64_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT04_02_USFGRO0_VW02_WG16_02_08
+    SolutionIndex: 842
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 2
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 2
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: *id033
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id006
+    VectorWidth: 4
+    WorkGroup: *id034
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -90244,7 +133245,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90252,56 +133253,201 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 48
-    LSCB: 16
-    LSPA: 4
-    LSPB: 12
-    LVCA: 48
-    LVCB: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 4096
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 843
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id033
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
-    LVPB: 12
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 48
-    MacroTile1: 36
-    MacroTileA: 48
-    MacroTileB: 36
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90309,20 +133455,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 9
-    NumGlobalWriteVectorsPerThread: 9
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 3
-    NumThreads: 192
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -90361,26 +133507,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 573
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x036x16_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT06_03_USFGRO01_VW01_WG08_12_02
-    SubGroup0: 8
-    SubGroup1: 12
-    SubGroupA: 8
-    SubGroupB: 12
+    SolutionIndex: 844
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: [6, 3]
-    ThreadTile0: 6
-    ThreadTile1: 3
-    ThreadTileA: 6
-    ThreadTileB: 3
+    ThreadTile: *id035
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 12, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -90393,7 +133539,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90401,39 +133547,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 12
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
-    LSPB: 12
-    LVCA: 12
-    LVCB: 16
-    LVPA: 16
-    LVPB: 12
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -90446,11 +133592,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 36
-    MacroTile1: 48
-    MacroTileA: 36
-    MacroTileB: 48
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90458,15 +133604,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 9
-    NumGlobalWriteVectorsPerThread: 9
-    NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
-    NumThreads: 192
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -90510,26 +133656,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 574
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT036x048x16_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT03_03_USFGRO01_VW01_WG12_16_01
-    SubGroup0: 12
+    SolutionIndex: 845
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 12
+    SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009 
-    ThreadTile0: 3
-    ThreadTile1: 3
-    ThreadTileA: 3
-    ThreadTileB: 3
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id035
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [12, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -90542,47 +133688,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 6144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 4096
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -90595,11 +133737,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 48
-    MacroTile1: 48
-    MacroTileA: 48
-    MacroTileB: 48
+    LoopUnroll: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90607,20 +133749,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 9
-    NumGlobalWriteVectorsPerThread: 9
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -90659,26 +133801,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 575
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x048x16_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT03_03_USFGRO01_VW01_WG16_16_01
+    SolutionIndex: 846
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 3
-    ThreadTile1: 3
-    ThreadTileA: 3
-    ThreadTileB: 3
+    ThreadTile: *id037
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -90699,56 +133841,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 48
+    LSCA: 128
     LSCB: 32
     LSPA: 8
-    LSPB: 12
-    LVCA: 24
-    LVCB: 16
-    LVPA: 4
-    LVPB: 6
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 48
-    MacroTile1: 24
-    MacroTileA: 48
-    MacroTileB: 24
+    LoopUnroll: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90756,15 +133898,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 6
-    NumGlobalWriteVectorsPerThread: 3
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
-    NumThreads: 192
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -90808,26 +133950,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 576
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x024x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT06_04_USFGRO0_VW02_WG08_06_04
-    SubGroup0: 8
-    SubGroup1: 6
-    SubGroupA: 8
-    SubGroupB: 6
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id011 
-    ThreadTile0: 6
+    SolutionIndex: 847
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id037
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id010 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -90846,58 +133988,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 24
+    LSCA: 128
     LSCB: 32
     LSPA: 8
-    LSPB: 6
-    LVCA: 24
-    LVCB: 32
-    LVPA: 8
-    LVPB: 6
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 8192
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 4096
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 24
-    MacroTile1: 24
-    MacroTileA: 24
-    MacroTileB: 24
+    LoopUnroll: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90905,20 +134043,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 3
-    NumGlobalWriteVectorsPerThread: 3
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 4
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 4
-    NumThreads: 192
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -90957,26 +134095,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 577
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT024x024x32_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT03_04_USFGRO01_VW01_WG08_06_04
-    SubGroup0: 8
-    SubGroup1: 6
-    SubGroupA: 8
-    SubGroupB: 6
+    SolutionIndex: 848
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: [3, 4]
-    ThreadTile0: 3
-    ThreadTile1: 4
-    ThreadTileA: 3
-    ThreadTileB: 4
+    ThreadTile: *id033
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id010
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -90997,56 +134135,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 48
+    LSCA: 128
     LSCB: 32
     LSPA: 8
-    LSPB: 12
-    LVCA: 24
-    LVCB: 16
-    LVPA: 4
-    LVPB: 6
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 48
-    MacroTile1: 24
-    MacroTileA: 48
-    MacroTileB: 24
+    LoopUnroll: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91054,15 +134192,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 6
-    NumGlobalWriteVectorsPerThread: 3
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 192
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -91106,26 +134244,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 578
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x024x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT06_04_USFGRO0_VW02_WG08_06_04
-    SubGroup0: 8
-    SubGroup1: 6
-    SubGroupA: 8
-    SubGroupB: 6
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id011
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    SolutionIndex: 849
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id033
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id010
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: *id034
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -91138,7 +134276,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 4
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -91146,7 +134284,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -91159,26 +134297,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Source
-    LSCA: 32
-    LSCB: 8
+    LSCA: 16
+    LSCB: 4
     LSPA: 4
-    LSPB: 8
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 832
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
     LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -91191,11 +134329,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91205,11 +134343,11 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 64
     PerformanceSyncLocation: -1
@@ -91255,14 +134393,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 579
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_04_01
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 850
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x04_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012 
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -91273,7 +134411,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id017 
+    WorkGroup: *id040 
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -91287,7 +134425,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 2
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -91295,39 +134433,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Source
-    LSCA: 16
-    LSCB: 8
-    LSPA: 8
-    LSPB: 16
-    LVCA: 8
-    LVCB: 4
-    LVPA: 4
-    LVPB: 8
+    LSCA: 32
+    LSCB: 2
+    LSPA: 2
+    LSPB: 32
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -91340,11 +134478,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91352,8 +134490,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -91404,71 +134542,71 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 580
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
+    SolutionIndex: 851
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x02_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013 
+    VectorWidth: 4
+    WorkGroup: *id040
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 8
-    LVCB: 2
-    LVPA: 2
-    LVPB: 8
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 1024
     LdsNumElementsAlignedA: 256
@@ -91482,18 +134620,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91501,15 +134639,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -91553,79 +134691,79 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 581
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x08_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
+    SolutionIndex: 852
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT02_02_USFGRO01_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id016 
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id041 
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id013
+    VectorWidth: 2
+    WorkGroup: *id044 
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 4
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 8
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 4
     LSPA: 4
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 2
-    LVPA: 1
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -91638,11 +134776,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91650,13 +134788,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 64
     PerformanceSyncLocation: -1
@@ -91702,35 +134840,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 582
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x08_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO00_VW04_WG08_08_01
+    SolutionIndex: 853
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x04_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_01
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: *id041
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id013
+    VectorWidth: 2
+    WorkGroup: *id042 
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -91740,9 +134878,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -91751,47 +134889,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 8
     LSCB: 8
     LSPA: 8
-    LSPB: 16
-    LVCA: 16
+    LSPB: 8
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91799,15 +134937,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -91851,47 +134989,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 583
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_08_01
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SolutionIndex: 854
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT008x008x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: *id041
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014 
+    WorkGroup: *id043 
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 4
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -91900,30 +135038,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 8
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 4
     LSPA: 4
     LSPB: 16
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -91936,10 +135074,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -91948,15 +135086,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -92000,35 +135138,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 584
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 855
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x04_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_01
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015 
-    ThreadTile0: 4
+    ThreadTile: *id041
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: *id042
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -92038,10 +135176,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -92049,47 +135187,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
+    KernelLanguage: Assembly
+    LSCA: 8
     LSCB: 8
     LSPA: 8
-    LSPB: 16
+    LSPB: 8
     LVCA: 8
-    LVCB: 4
-    LVPA: 4
+    LVCB: 8
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92097,8 +135235,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -92149,35 +135287,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 585
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 856
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT008x008x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: *id041
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    WorkGroup: *id043
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -92187,10 +135325,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -92198,46 +135336,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 16
     LSCB: 8
-    LSPA: 4
+    LSPA: 8
     LSPB: 16
     LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
     LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -92246,15 +135384,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -92298,35 +135436,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 586
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG08_08_01
+    SolutionIndex: 857
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 4
+    ThreadTile: *id041
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -92336,58 +135474,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 8
     LSCB: 8
     LSPA: 8
-    LSPB: 32
+    LSPB: 8
     LVCA: 8
-    LVCB: 2
-    LVPA: 2
+    LVCB: 8
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92395,8 +135533,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -92447,47 +135585,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 587
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x08_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 858
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT008x008x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id041
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: *id043
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -92496,26 +135634,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
     LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
+    LVCB: 16
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 896
+    LdsNumElements: 1024
     LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 512
     LdsOffsetB: 256
@@ -92525,17 +135663,17 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -92544,15 +135682,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -92596,35 +135734,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 588
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 859
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: *id041
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
-    WorkGroupMapping: 8
+    WorkGroup: *id044
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -92634,9 +135772,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -92644,33 +135782,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 128
     LSCB: 8
-    LSPA: 4
-    LSPB: 16
+    LSPA: 8
+    LSPB: 32
     LVCA: 32
     LVCB: 8
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3360
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -92682,10 +135820,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92693,15 +135831,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -92745,47 +135883,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 589
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 860
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x08_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG32_08_01
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id045 
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id014
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: *id046 
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -92793,33 +135931,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 8
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
     LVCA: 32
-    LVCB: 16
+    LVCB: 8
     LVPA: 2
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3200
+    LdsNumElements: 3360
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 128
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -92830,11 +135968,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92842,15 +135980,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -92894,35 +136032,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 590
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG32_04_01
+    SolutionIndex: 861
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x08_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG32_08_01
     SubGroup0: 32
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 32
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id045
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 4, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: *id046
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -92932,43 +136070,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
+    KernelLanguage: Assembly
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
     LVPA: 4
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -92980,10 +136118,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92991,15 +136129,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -93043,35 +136181,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 591
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 862
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id045
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -93081,43 +136219,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 128
     LSCB: 16
-    LSPA: 4
-    LSPB: 8
-    LVCA: 16
-    LVCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
     LVPA: 2
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -93129,10 +136267,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -93140,15 +136278,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -93192,35 +136330,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 592
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 863
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_08_USFGRO0_VW04_WG32_08_01
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 32
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
+    VectorWidth: 4
+    WorkGroup: *id046
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -93231,42 +136369,38 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 32
     LSCB: 16
     LSPA: 8
     LSPB: 16
-    LVCA: 8
-    LVCB: 4
-    LVPA: 2
-    LVPB: 4
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2592
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -93279,9 +136413,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -93290,20 +136424,20 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularB: 8
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -93341,35 +136475,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 593
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
+    SolutionIndex: 864
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x128x16_DTL0_EPS0_GRVW01_LPB02_PGR0_SNLL0_TT04_04_USFGRO01_VW01_WG08_32_01
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 32
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 32
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
+    ThreadTile: *id047 
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id013
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -93380,42 +136514,38 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 128
     LSCB: 16
-    LSPA: 4
+    LSPA: 2
     LSPB: 16
-    LVCA: 32
-    LVCB: 8
+    LVCA: 128
+    LVCB: 16
     LVPA: 2
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2592
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -93427,10 +136557,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -93438,21 +136568,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -93490,95 +136620,91 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 594
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 865
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x16_DTL0_EPS0_GRVW01_LPB02_PGR0_SNLL0_TT04_04_USFGRO01_VW02_WG32_08_01
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: *id047
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
-    WorkGroupMapping: 1
+    WorkGroup: *id048 
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 16
-    DirectToLds: false
-    DirectToLdsA: false
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 256
     LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 8
+    LSPA: 1
+    LSPB: 16
+    LVCA: 256
+    LVCB: 16
+    LVPA: 1
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 4096
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 256
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 256
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -93587,21 +136713,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 16
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 16
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -93639,35 +136765,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 595
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 866
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x032x16_DTL1_EPS0_GRVW01_LPB02_PGR0_SNLL0_TT08_04_USFGRO01_VW02_WG32_08_01
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
-    ThreadTile0: 4
+    ThreadTile: *id050 
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id014
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: *id048
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -93678,42 +136804,38 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 32
-    LVCB: 8
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
     LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 1600
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -93726,9 +136848,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -93736,21 +136858,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
     NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -93788,81 +136910,77 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 596
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
+    SolutionIndex: 867
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS0_GRVW01_LPB04_PGR0_SNLL0_TT04_04_USFGRO01_VW01_WG16_08_01
     SubGroup0: 16
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: *id047
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id014
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 8
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
     LSPA: 4
     LSPB: 16
-    LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 8
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3200
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 384
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -93873,11 +136991,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -93885,21 +137003,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 6
-    NumLoadsB: 3
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 6
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -93937,81 +137055,77 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 597
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x24_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 868
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW01_LPB04_PGR0_SNLL0_TT04_04_USFGRO01_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: *id047
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: *id049 
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 32
-    LSPA: 4
-    LSPB: 4
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
-    LVPA: 2
-    LVPB: 2
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -94022,11 +137136,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94034,21 +137148,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -94086,26 +137200,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 598
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_04_01
+    SolutionIndex: 869
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB04_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id047
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id017
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: *id049
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -94118,64 +137232,60 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 8
+    LSCA: 128
+    LSCB: 16
     LSPA: 8
-    LSPB: 16
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3136
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94183,21 +137293,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -94235,31 +137345,30 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 599
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 870
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB04_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id050
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id019 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: *id049
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -94273,9 +137382,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -94283,27 +137391,27 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 8
+    LSPA: 2
     LSPB: 32
-    LVCA: 32
+    LVCA: 128
     LVCB: 8
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -94313,18 +137421,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94332,14 +137440,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -94384,31 +137490,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 600
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x08_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG16_08_02
+    SolutionIndex: 871
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x08_DTL0_GRVW01_GSU08_PGR1_PLR1_TT08_04_USFGRO01_VW01_WG16_16_01_WGM01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id021 
+    SubGroupB: 16
+    ThreadTile: *id051 
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id024 
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: *id052 
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -94417,13 +137523,12 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -94432,48 +137537,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 256
     LSCB: 8
-    LSPA: 8
-    LSPB: 16
-    LVCA: 16
+    LSPA: 1
+    LSPB: 32
+    LVCA: 256
     LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVPA: 1
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 2304
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 256
+    MacroTile1: 32
+    MacroTileA: 256
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94481,20 +137582,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 8
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -94533,31 +137632,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 601
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
-    SubGroup0: 8
+    SolutionIndex: 872
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x032x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT08_04_USFGRO01_VW04_WG32_08_01_WGM08
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 32
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id051
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: *id053 
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -94571,10 +137670,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -94582,47 +137680,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 128
     LSCB: 8
-    LSPA: 8
-    LSPB: 16
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94630,15 +137728,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -94682,31 +137778,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 602
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 873
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x08_DTL0_GRVW02_GSU01_PGR1_PLR1_TT08_04_USFGRO0_VW02_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: *id051
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
+    WorkGroup: *id052
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -94714,53 +137810,52 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -94769,9 +137864,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94779,10 +137874,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -94831,31 +137924,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 603
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
+    SolutionIndex: 874
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x08_DTL0_GRVW02_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW02_WG32_08_01_WGM01
     SubGroup0: 32
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 32
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id020 
+    SubGroupB: 8
+    ThreadTile: *id054 
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id025 
+    VectorWidth: 2
+    WorkGroup: *id053
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -94863,16 +137956,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -94880,47 +137972,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LVCB: 2
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94928,15 +138020,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -94980,31 +138070,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 604
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_04_04
+    SolutionIndex: 875
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG16_08_01_WGM01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    SubGroupB: 8
+    ThreadTile: *id054
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026 
+    WorkGroup: *id055 
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -95012,53 +138102,52 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 16
+    LVCB: 2
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -95066,10 +138155,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95077,10 +138166,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -95129,31 +138216,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 605
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG08_08_02
-    SubGroup0: 8
+    SolutionIndex: 876
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG16_08_01_WGM08
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id054
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: *id055
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -95167,58 +138254,53 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 16
+    LSPA: 16
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95226,20 +138308,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -95278,31 +138358,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 606
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
+    SolutionIndex: 877
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT08_04_USFGRO0_VW04_WG08_32_01_WGM01
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 32
     SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022 
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroupB: 32
+    ThreadTile: *id051
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id019
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -95316,8 +138396,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -95327,7 +138406,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -95335,39 +138414,39 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
-    LVCA: 8
+    LSPB: 64
+    LVCA: 16
     LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95375,15 +138454,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -95427,14 +138504,13 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 607
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    SolutionIndex: 878
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -95445,13 +138521,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: *id052
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -95465,8 +138542,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -95476,7 +138552,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -95486,37 +138562,33 @@
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 32
+    LSPA: 16
+    LSPB: 64
     LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95524,20 +138596,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -95576,31 +138646,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 608
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id021
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SolutionIndex: 879
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT04_08_USFGRO0_VW04_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: *id054
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: *id052
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -95614,58 +138684,53 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95673,20 +138738,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -95725,31 +138788,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 609
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 880
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT08_04_USFGRO0_VW04_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: *id051
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023 
+    VectorWidth: 4
+    WorkGroup: *id052
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -95763,58 +138826,57 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95822,13 +138884,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -95874,31 +138934,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 610
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SolutionIndex: 881
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT08_04_USFGRO0_VW04_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: *id051
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023
+    VectorWidth: 4
+    WorkGroup: *id052
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -95912,58 +138972,57 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
     LSPA: 8
-    LSPB: 16
+    LSPB: 64
     LVCA: 32
-    LVCB: 16
-    LVPA: 4
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95971,10 +139030,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -96023,31 +139080,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 611
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 882
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG32_08_01_WGM01
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: *id054
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id024
+    VectorWidth: 4
+    WorkGroup: *id053
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -96061,10 +139118,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -96072,26 +139128,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 16
     LSPA: 8
-    LSPB: 16
+    LSPB: 64
     LVCA: 32
-    LVCB: 16
+    LVCB: 4
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6400
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -96101,18 +139157,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96120,10 +139176,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -96172,48 +139226,49 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 612
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
+    SolutionIndex: 883
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG32_08_01_WGM08
     SubGroup0: 32
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 32
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    SubGroupB: 8
+    ThreadTile: *id054
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id025
+    WorkGroup: *id053
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -96221,7 +139276,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -96229,18 +139284,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -96250,18 +139305,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96269,15 +139324,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -96321,17 +139379,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 613
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_04_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 884
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -96339,15 +139404,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -96360,9 +139428,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -96370,7 +139438,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -96381,15 +139449,15 @@
     LSCA: 128
     LSCB: 16
     LSPA: 8
-    LSPB: 16
+    LSPB: 64
     LVCA: 32
-    LVCB: 16
+    LVCB: 4
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -96399,18 +139467,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 16
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 16
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96418,15 +139486,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -96470,47 +139541,57 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 614
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG16_04_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 885
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -96518,37 +139599,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 128
+    LSCB: 8
     LSPA: 8
-    LSPB: 16
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -96556,10 +139637,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96567,15 +139648,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -96619,33 +139703,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 615
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 886
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id019
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -96658,7 +139752,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -96668,47 +139762,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 8
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96716,15 +139810,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -96768,33 +139865,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 616
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 887
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -96807,7 +139914,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -96817,47 +139924,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
     LSPA: 8
-    LSPB: 32
-    LVCA: 16
+    LSPB: 64
+    LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96865,15 +139972,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -96917,48 +140027,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 617
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 888
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM32
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -96966,47 +140086,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
+    LVCA: 32
     LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97014,15 +140134,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -97066,96 +140189,106 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 618
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 889
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW2_GSU1_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_8_2_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97163,15 +140296,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -97215,33 +140351,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 619
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 890
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -97254,42 +140400,42 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVCA: 8
+    LVCB: 4
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1792
+    LdsNumElements: 1856
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
     LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -97312,15 +140458,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -97364,33 +140513,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 620
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_08_02
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 891
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_4_2_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id024
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 4, 2]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -97403,57 +140562,57 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
     LSPA: 8
-    LSPB: 16
+    LSPB: 64
     LVCA: 32
-    LVCB: 16
-    LVPA: 4
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97461,15 +140620,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -97513,33 +140675,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 621
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 892
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id024
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -97552,9 +140724,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -97562,32 +140734,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -97599,10 +140771,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97610,15 +140782,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -97662,33 +140837,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 622
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_08_02
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 893
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id027 
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id024
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -97701,9 +140886,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -97711,7 +140896,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -97719,24 +140904,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 2
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -97748,10 +140933,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 16
-    MacroTileA: 128
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97759,15 +140944,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -97811,81 +140999,91 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 623
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 894
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id025
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 32
     LSPA: 8
-    LSPB: 16
-    LVCA: 16
+    LSPB: 8
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -97896,7 +141094,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -97908,15 +141106,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -97960,46 +141161,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 624
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 895
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_4_2_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 4, 2]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -98009,32 +141220,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
     LSPB: 32
-    LVCA: 8
-    LVCB: 4
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -98045,10 +141256,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -98059,13 +141270,16 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -98109,14 +141323,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 625
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 896
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -98127,15 +141348,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -98148,7 +141372,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -98158,47 +141382,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
     LSPA: 8
-    LSPB: 32
-    LVCA: 16
+    LSPB: 64
+    LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -98206,15 +141430,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -98258,14 +141485,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 626
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 897
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -98276,15 +141510,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -98297,57 +141534,57 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 16
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -98355,15 +141592,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -98407,33 +141647,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 627
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 898
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -98446,57 +141696,57 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -98504,15 +141754,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -98556,33 +141809,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 628
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 899
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -98595,9 +141858,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -98605,7 +141868,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -98613,39 +141876,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -98653,15 +141916,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -98705,17 +141971,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 629
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_04_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 900
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -98723,28 +141996,31 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -98754,32 +142030,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
     LSPB: 32
-    LVCA: 8
-    LVCB: 4
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -98790,10 +142066,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -98804,13 +142080,16 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -98854,14 +142133,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 630
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 901
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -98872,15 +142158,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -98893,57 +142182,57 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -98951,15 +142240,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99003,33 +142295,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 631
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 902
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM16
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -99042,57 +142344,57 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 16
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99100,15 +142402,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99152,46 +142457,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 632
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 903
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -99201,32 +142516,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
     LVCA: 16
-    LVCB: 2
-    LVPA: 2
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1536
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -99237,7 +142552,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 12
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -99249,15 +142564,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99301,17 +142619,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 633
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG08_08_02
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 904
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM16
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id027
-    ThreadTile0: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -99319,30 +142644,33 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -99350,32 +142678,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
+    LSCA: 128
+    LSCB: 16
     LSPA: 8
-    LSPB: 64
-    LVCA: 16
-    LVCB: 2
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1536
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -99386,11 +142714,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 12
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99398,15 +142726,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99450,33 +142781,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 634
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG08_08_02
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 905
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_8_2_WGM16
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id027
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -99489,57 +142830,57 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 8
+    LSPB: 32
     LVCA: 16
-    LVCB: 32
-    LVPA: 8
+    LVCB: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99547,15 +142888,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99599,96 +142943,106 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 635
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 906
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 128
+    LSCB: 16
     LSPA: 8
-    LSPB: 8
+    LSPB: 64
     LVCA: 32
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6400
+    LdsNumElements: 7232
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99696,15 +143050,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99748,48 +143105,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 636
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_04_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 907
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM32
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -99797,36 +143164,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 32
-    LVCA: 32
+    LVCA: 16
     LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -99834,9 +143201,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -99845,15 +143212,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99897,33 +143267,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 637
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_04_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 908
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM32
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id027
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -99936,42 +143316,42 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
-    LSPA: 8
-    LSPB: 8
+    LSPA: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
+    LVCB: 8
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -99983,10 +143363,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99994,15 +143374,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -100046,47 +143429,57 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 638
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 909
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM32
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -100094,37 +143487,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -100132,10 +143525,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100143,15 +143536,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -100172,6 +143568,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -100181,6 +143578,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -100195,48 +143593,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 639
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 910
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM2
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 2
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -100244,26 +143652,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -100273,7 +143681,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -100281,10 +143689,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100292,15 +143700,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -100321,6 +143732,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -100330,6 +143742,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -100344,48 +143757,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 640
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 911
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM2
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 32
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 2
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -100393,26 +143816,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
+    LSCA: 256
+    LSCB: 8
+    LSPA: 4
     LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVCA: 64
+    LVCB: 4
+    LVPA: 1
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 6400
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -100422,7 +143845,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -100430,9 +143853,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 256
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 256
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -100441,15 +143864,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -100470,6 +143896,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -100479,6 +143906,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -100493,47 +143921,57 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 641
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id021
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 912
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x32x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG64_4_1_WGM2
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 64
+    SubGroup1: 4
+    SubGroupA: 64
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 1
+    WorkGroup: [64, 4, 1]
+    WorkGroupMapping: 2
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -100541,48 +143979,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 128
+    LSCB: 8
     LSPA: 8
-    LSPB: 16
+    LSPB: 32
     LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100590,15 +144028,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -100619,6 +144060,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -100628,6 +144070,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -100642,75 +144085,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 642
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
-    SubGroup0: 16
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 913
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS1_PGR1_SNLL1_TT4_4_WG32_8_1_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id024
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -100720,7 +144173,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -100728,10 +144181,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100739,15 +144192,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -100768,6 +144224,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -100777,6 +144234,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -100791,48 +144249,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 643
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 914
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM7
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 7
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -100840,36 +144308,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 32
+    LSCB: 8
     LSPA: 8
-    LSPB: 32
+    LSPB: 64
     LVCA: 32
-    LVCB: 8
+    LVCB: 4
     LVPA: 2
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -100878,9 +144346,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100888,15 +144356,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -100917,6 +144388,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -100926,6 +144398,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -100940,17 +144413,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 644
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_04_04
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id027
-    ThreadTile0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 915
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM15
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -100958,29 +144438,32 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 15
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -100988,23 +144471,23 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
@@ -101018,7 +144501,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -101026,10 +144509,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101037,15 +144520,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -101066,6 +144552,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -101075,6 +144562,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -101089,48 +144577,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 645
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 916
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM16
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -101138,26 +144636,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -101167,7 +144665,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -101175,10 +144673,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101186,15 +144684,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -101215,6 +144716,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -101224,6 +144726,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -101238,17 +144741,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 646
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 917
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM17
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -101256,30 +144766,33 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 17
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -101287,36 +144800,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
+    LSCA: 256
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 4
+    LVPA: 1
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -101324,10 +144833,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 256
+    MacroTile1: 16
+    MacroTileA: 256
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101335,20 +144844,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -101364,6 +144876,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -101373,6 +144886,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -101387,17 +144901,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 647
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id021
-    ThreadTile0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 918
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x16x8_SE_EPS0_PGR0_SNLL0_TT4_4_WG64_4_1_WGM17
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 64
+    SubGroup1: 4
+    SubGroupA: 64
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -101405,30 +144926,33 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    WorkGroup: [64, 4, 1]
+    WorkGroupMapping: 17
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -101436,47 +144960,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
-    LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101484,15 +145008,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -101513,6 +145040,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -101522,6 +145050,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -101536,48 +145065,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 648
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_08_02
-    SubGroup0: 16
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 919
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM32
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id024
-    WorkGroupMapping: 8
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -101585,47 +145124,43 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
+    LSCA: 256
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 4
+    LVPA: 1
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 256
+    MacroTile1: 16
+    MacroTileA: 256
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101633,20 +145168,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -101662,6 +145200,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -101671,6 +145210,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -101685,75 +145225,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 649
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_08_02
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id027
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 920
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x16x8_SE_EPS0_PGR0_SNLL0_TT4_4_WG64_4_1_WGM32
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 64
+    SubGroup1: 4
+    SubGroupA: 64
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id024
-    WorkGroupMapping: 8
+    WorkGroup: [64, 4, 1]
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 64
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 64
     LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -101763,18 +145313,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101782,15 +145332,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -101811,6 +145364,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -101820,6 +145374,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -101834,85 +145389,95 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 650
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 921
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM2
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 2
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -101921,9 +145486,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101931,15 +145496,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -101960,6 +145528,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -101969,6 +145538,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -101983,46 +145553,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 651
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_04_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 922
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM2
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 2
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -102032,47 +145612,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -102080,15 +145660,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102109,6 +145692,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -102118,6 +145702,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -102132,75 +145717,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 652
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 923
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_16_1_WGM7
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 7
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 64
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 64
     LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -102210,7 +145805,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -102218,10 +145813,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -102229,15 +145824,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102258,6 +145856,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -102267,6 +145866,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -102281,46 +145881,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 653
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 924
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM7
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 7
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -102330,24 +145940,24 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
@@ -102359,7 +145969,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -102367,10 +145977,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -102378,15 +145988,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102407,6 +146020,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -102416,6 +146030,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -102430,46 +146045,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 654
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 925
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM11
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 11
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -102479,47 +146104,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -102527,15 +146152,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102556,6 +146184,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -102565,6 +146194,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -102579,17 +146209,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 655
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id021
-    ThreadTile0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 926
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM16
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -102597,61 +146234,64 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -102664,11 +146304,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -102676,15 +146316,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102705,6 +146348,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -102714,6 +146358,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -102728,75 +146373,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 656
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 927
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM32
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id024
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 64
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 32
     LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -102806,7 +146461,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -102814,10 +146469,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -102825,15 +146480,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102854,6 +146512,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -102863,6 +146522,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -102877,33 +146537,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 657
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 928
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_8_2_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -102916,57 +146586,57 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 8
+    LSPB: 32
     LVCA: 16
-    LVCB: 32
-    LVPA: 8
+    LVCB: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -102974,15 +146644,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -103003,6 +146676,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -103012,6 +146686,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -103026,35 +146701,45 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 658
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 929
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM32
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -103064,10 +146749,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -103080,21 +146765,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
     LSPA: 8
-    LSPB: 128
+    LSPB: 64
     LVCA: 32
-    LVCB: 2
+    LVCB: 4
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -103109,9 +146798,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103119,20 +146808,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -103148,6 +146840,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -103157,6 +146850,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -103171,35 +146865,45 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 659
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x08_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO00_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 930
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: [8, 8]
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028 
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -103209,8 +146913,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -103225,9 +146929,9 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
     LSPA: 16
@@ -103237,9 +146941,13 @@
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -103266,18 +146974,21 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -103293,6 +147004,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -103302,6 +147014,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -103316,35 +147029,45 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 660
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 931
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id029 
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -103354,8 +147077,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -103370,25 +147093,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -103402,9 +147125,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -103413,15 +147136,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -103442,6 +147168,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -103451,6 +147178,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -103465,35 +147193,45 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 661
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 932
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id029
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -103503,8 +147241,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -103519,25 +147257,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 128
     LSCB: 16
     LSPA: 16
-    LSPB: 64
-    LVCA: 16
+    LSPB: 128
+    LVCA: 32
     LVCB: 4
     LVPA: 4
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -103551,9 +147289,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -103564,13 +147302,16 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 512
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -103591,6 +147332,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -103600,6 +147342,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -103614,35 +147357,45 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 662
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_08_USFGRO00_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 933
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_32_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 32
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id031 
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 32, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -103652,37 +147405,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -103696,10 +147453,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103707,20 +147464,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -103736,6 +147496,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -103745,6 +147506,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -103759,48 +147521,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 663
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT06_08_USFGRO00_VW02_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 934
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id032 
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id028
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -103813,21 +147585,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
     LSPB: 64
     LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -103840,7 +147616,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -103854,24 +147630,30 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -103881,6 +147663,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -103890,6 +147673,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -103904,14 +147688,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 664
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 935
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id030 
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -103922,30 +147713,31 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -103958,25 +147750,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
     LSPB: 64
     LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -103989,7 +147781,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -104003,13 +147795,16 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -104021,6 +147816,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -104030,6 +147826,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -104039,6 +147836,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -104053,14 +147851,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 665
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 936
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id030
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -104071,30 +147876,33 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -104107,21 +147915,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -104134,10 +147946,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -104146,8 +147958,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -104155,17 +147967,23 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -104175,6 +147993,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -104184,6 +148003,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -104198,17 +148018,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 666
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 937
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id029
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
@@ -104216,30 +148043,31 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -104252,21 +148080,21 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -104283,10 +148111,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -104295,15 +148123,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -104315,6 +148146,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -104324,6 +148156,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -104333,6 +148166,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -104347,17 +148181,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 667
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 938
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id029
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
@@ -104365,17 +148206,20 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -104385,8 +148229,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -104401,25 +148245,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -104433,9 +148277,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -104444,15 +148288,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -104464,6 +148313,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -104473,6 +148323,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -104482,6 +148333,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -104496,17 +148348,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 668
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_08_USFGRO00_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 939
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id031
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 0
@@ -104514,17 +148373,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -104534,37 +148394,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -104578,9 +148442,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 96
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -104589,26 +148453,30 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -104618,6 +148486,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -104627,6 +148496,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -104641,35 +148511,45 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 669
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT06_08_USFGRO00_VW02_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 940
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id032
-    ThreadTile0: 6
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id028
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -104679,8 +148559,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -104695,9 +148575,9 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 128
     LSCB: 16
     LSPA: 8
@@ -104707,9 +148587,9 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -104728,9 +148608,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -104738,15 +148618,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -104758,6 +148643,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -104767,6 +148653,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -104776,6 +148663,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -104790,46 +148678,54 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 670
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 941
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id030
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -104844,21 +148740,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -104871,11 +148771,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -104883,26 +148783,30 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -104912,6 +148816,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -104921,6 +148826,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -104935,77 +148841,91 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 671
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 942
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id029
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 16
+    LVCA: 32
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6144
+    LdsNumElements: 3344
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105016,11 +148936,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105028,26 +148948,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -105057,6 +148983,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -105066,6 +148993,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -105080,77 +149008,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 672
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_08_USFGRO00_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 943
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_DTL0_EPS1_FL0_GRVW1_LPB2_PGR1_PLR1_SNLL1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id031
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id028
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 128
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6144
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105161,10 +149097,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -105173,15 +149109,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -105193,6 +149134,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -105202,6 +149144,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -105211,6 +149154,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -105225,77 +149169,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 673
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 944
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id030
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105306,7 +149258,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -105320,13 +149272,18 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -105338,6 +149295,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -105347,6 +149305,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -105356,6 +149315,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -105370,81 +149330,89 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 674
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 945
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id029
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    KernelLanguage: Assembly
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3344
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105455,10 +149423,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -105467,15 +149435,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -105487,6 +149458,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -105496,6 +149468,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -105505,6 +149478,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -105519,39 +149493,49 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 675
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 946
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_LPB2_PGR1_PLR1_SNLL1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id029
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id028
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -105559,41 +149543,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6688
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105604,11 +149588,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105616,26 +149600,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -105645,6 +149635,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -105654,6 +149645,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -105668,39 +149660,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 676
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x08_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 947
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_DTL0_EPS1_FL0_GRVW2_LPB2_PGR1_PLR0_SNLL1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033 
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034 
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -105708,41 +149708,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
+    LSCA: 64
+    LSCB: 16
     LSPA: 8
-    LSPB: 128
+    LSPB: 32
     LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 6688
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 1600
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105753,11 +149753,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105765,26 +149765,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 2
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -105794,6 +149800,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -105803,6 +149810,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -105817,33 +149825,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 677
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x08_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 948
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_DTL0_EPS1_FL0_GRVW2_LPB2_PGR1_PLR0_SNLL1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -105855,39 +149871,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 6688
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1600
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105900,9 +149920,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105910,26 +149930,30 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -105939,6 +149963,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -105948,6 +149973,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -105962,39 +149988,49 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 678
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 949
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_DTL0_EPS1_FL1_GRVW2_LPB2_PGR1_PLR0_SNLL1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id035 
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -106003,7 +150039,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -106016,27 +150052,27 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106047,10 +150083,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -106059,8 +150095,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -106068,6 +150104,11 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -106079,6 +150120,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -106088,6 +150130,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -106097,6 +150140,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -106111,48 +150155,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 679
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 950
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id035
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -106165,23 +150217,27 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106192,11 +150248,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -106206,24 +150262,28 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -106233,6 +150293,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -106242,6 +150303,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -106256,39 +150318,49 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 680
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_08_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 951
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id036 
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -106297,7 +150369,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -106310,27 +150382,27 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106341,11 +150413,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -106356,12 +150428,17 @@
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -106373,6 +150450,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -106382,6 +150460,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -106391,6 +150470,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -106405,47 +150485,55 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 681
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_08_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 952
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id036
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -106453,33 +150541,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106490,11 +150578,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -106502,15 +150590,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -106522,6 +150613,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -106531,6 +150623,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -106540,6 +150633,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -106554,33 +150648,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 682
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT06_08_USFGRO0_VW02_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 953
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id038 
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -106608,23 +150712,23 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106636,9 +150740,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -106647,15 +150751,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -106667,6 +150776,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -106676,6 +150786,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -106685,6 +150796,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -106699,33 +150811,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 683
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 954
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id037 
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -106753,7 +150873,7 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
@@ -106765,15 +150885,15 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 7232
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106805,6 +150925,11 @@
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -106816,6 +150941,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -106825,6 +150951,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -106834,6 +150961,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -106848,33 +150976,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 684
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 955
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id037
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -106887,42 +151023,42 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 16
-    LSPA: 4
-    LSPB: 32
-    LVCA: 64
-    LVCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7680
+    LdsNumElements: 7232
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1536
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106935,9 +151071,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 96
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -106945,15 +151081,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -106965,6 +151104,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -106974,6 +151114,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -106983,6 +151124,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -106997,33 +151139,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 685
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x096x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT08_06_USFGRO0_VW02_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 956
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id039 
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 6
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 6
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id034
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -107051,23 +151203,23 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -107079,10 +151231,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107090,15 +151242,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -107110,6 +151267,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -107119,6 +151277,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -107128,6 +151287,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -107142,33 +151302,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 686
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 957
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -107196,7 +151364,7 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
@@ -107208,15 +151376,15 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 7232
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -107229,9 +151397,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107239,15 +151407,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -107259,6 +151432,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -107268,6 +151442,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -107277,6 +151452,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -107291,33 +151467,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 687
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 958
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -107329,8 +151513,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -107345,23 +151529,27 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -107373,9 +151561,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -107384,26 +151572,30 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -107413,6 +151605,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -107422,6 +151615,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -107436,79 +151630,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 688
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 959
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id035
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LSCB: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -107521,11 +151721,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107534,25 +151734,31 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -107562,6 +151768,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -107571,6 +151778,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -107585,39 +151793,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 689
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 960
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id035
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107625,35 +151841,35 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LSCB: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 640
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -107666,11 +151882,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107678,26 +151894,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -107707,6 +151929,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -107716,6 +151939,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -107730,79 +151954,83 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 690
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_08_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 961
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id036
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LSCB: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -107815,11 +152043,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107827,26 +152055,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -107856,6 +152090,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -107865,6 +152100,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -107879,33 +152115,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 691
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_08_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 962
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id036
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -107917,41 +152161,37 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -107965,10 +152205,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107976,26 +152216,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -108005,6 +152251,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -108014,6 +152261,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -108028,33 +152276,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 692
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT06_08_USFGRO0_VW02_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 963
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id038
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -108068,35 +152324,35 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -108110,10 +152366,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108121,15 +152377,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -108141,6 +152402,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -108150,6 +152412,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -108159,6 +152422,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -108173,39 +152437,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 693
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 964
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id037
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -108214,7 +152486,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -108227,25 +152499,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
+    LSCA: 64
+    LSCB: 8
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -108258,11 +152530,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108270,15 +152542,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -108290,6 +152567,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -108299,6 +152577,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -108308,6 +152587,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -108322,17 +152602,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 694
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 965
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id037
-    ThreadTile0: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -108340,29 +152627,30 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -108370,31 +152658,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 4
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 64
-    LVCB: 8
+    LVCA: 16
+    LVCB: 4
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -108407,11 +152695,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 96
-    MacroTileA: 128
-    MacroTileB: 96
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108419,15 +152707,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 3
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -108439,6 +152730,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -108448,6 +152740,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -108457,6 +152750,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -108471,45 +152765,55 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 695
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x096x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT08_06_USFGRO0_VW02_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 966
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id039
-    ThreadTile0: 8
-    ThreadTile1: 6
-    ThreadTileA: 8
-    ThreadTileB: 6
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -108525,21 +152829,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
+    LSCA: 64
+    LSCB: 8
     LSPA: 8
     LSPB: 64
-    LVCA: 32
-    LVCB: 4
+    LVCA: 16
+    LVCB: 2
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -108552,11 +152860,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108564,26 +152872,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -108593,6 +152907,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -108602,6 +152917,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -108616,17 +152932,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 696
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 967
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -108634,30 +152957,31 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -108670,25 +152994,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
+    LSCA: 64
+    LSCB: 8
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -108701,11 +153025,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108713,15 +153037,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -108733,6 +153060,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -108742,6 +153070,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -108751,6 +153080,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -108765,39 +153095,49 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 697
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 968
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -108819,21 +153159,21 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
+    LSCA: 64
+    LSCB: 16
     LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6144
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetB: 3072
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -108846,11 +153186,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108858,15 +153198,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -108878,6 +153223,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -108887,6 +153233,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -108896,6 +153243,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -108910,46 +153258,54 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 698
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 969
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW4_LPB0_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -108964,25 +153320,21 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
+    LSCA: 64
+    LSCB: 16
     LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 3072
-    LdsNumElementsAlignedB: 3072
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 3072
-    LdsOffsetB_Blk: 11264
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -108995,11 +153347,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109007,26 +153359,30 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -109036,6 +153392,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -109045,6 +153402,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -109059,39 +153417,49 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 699
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 970
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL1_GRVW4_LPB0_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -109099,37 +153467,37 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6144
+    LdsNumElements: 1032
     LdsOffsetA: 0
-    LdsOffsetB: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -109140,11 +153508,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109152,26 +153520,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -109181,6 +153555,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -109190,6 +153565,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -109204,81 +153580,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 700
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 971
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 3072
-    LdsNumElementsAlignedB: 3072
+    LdsNumElements: 1032
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 3072
-    LdsOffsetB_Blk: 11264
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -109289,11 +153669,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109301,26 +153681,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -109330,6 +153716,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -109339,6 +153726,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -109353,77 +153741,89 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 701
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 972
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
+    LSCB: 8
+    LSPA: 4
     LSPB: 32
-    LVCA: 16
+    LVCA: 64
     LVCB: 8
     LVPA: 4
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3080
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -109434,7 +153834,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -109447,7 +153847,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -109455,17 +153855,23 @@
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -109475,6 +153881,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -109484,6 +153891,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -109498,81 +153906,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 702
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 973
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_LPB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id035
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
+    LSCB: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 776
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -109583,11 +153995,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109596,25 +154008,31 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -109624,6 +154042,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -109633,6 +154052,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -109647,39 +154067,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 703
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 974
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id035
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -109687,37 +154115,37 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
+    LSCA: 64
+    LSCB: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
     LVCB: 8
     LVPA: 2
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6144
+    LdsNumElements: 648
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -109728,11 +154156,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109740,26 +154168,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -109769,6 +154203,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -109778,6 +154213,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -109792,81 +154228,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 704
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 975
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id037
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
+    LSCA: 64
+    LSCB: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
     LVCB: 8
     LVPA: 2
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 648
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -109877,11 +154317,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109889,26 +154329,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -109918,6 +154364,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -109927,6 +154374,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -109941,77 +154389,89 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 705
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 976
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id037
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
     LSPB: 32
-    LVCA: 32
+    LVCA: 64
     LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 3080
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110022,11 +154482,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -110034,26 +154494,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -110063,6 +154529,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -110072,6 +154539,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -110086,81 +154554,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 706
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 977
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_LPB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
+    LSCA: 64
+    LSCB: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
     LVCB: 8
     LVPA: 2
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 4096
+    LdsNumElements: 776
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110171,11 +154643,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -110183,26 +154655,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -110212,6 +154690,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -110221,6 +154700,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -110235,39 +154715,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 707
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 978
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -110275,37 +154763,37 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
+    LSCB: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 648
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110316,11 +154804,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -110328,15 +154816,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -110348,6 +154841,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -110357,6 +154851,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -110366,6 +154861,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -110380,81 +154876,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 708
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 979
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id035
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2064
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110465,7 +154965,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -110478,25 +154978,31 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -110506,6 +155012,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -110515,6 +155022,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -110529,39 +155037,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 709
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 980
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id035
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -110569,37 +155085,37 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6144
+    LdsNumElements: 1552
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110610,11 +155126,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -110622,7 +155138,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 4
     NumLoadsB: 2
@@ -110631,17 +155147,23 @@
     NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -110651,6 +155173,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -110660,6 +155183,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -110674,81 +155198,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 710
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 981
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id037
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1552
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110759,11 +155287,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -110771,7 +155299,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 4
     NumLoadsB: 2
@@ -110780,17 +155308,23 @@
     NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -110800,6 +155334,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -110809,6 +155344,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -110823,39 +155359,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 711
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 982
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id037
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -110863,37 +155407,37 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
     LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 1552
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110904,11 +155448,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -110916,15 +155460,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
+    NumLoadsA: 8
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 8
     NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -110936,6 +155485,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -110945,6 +155495,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -110954,6 +155505,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -110968,81 +155520,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 712
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 983
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
     LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 4096
+    LdsNumElements: 1296
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -111053,11 +155609,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -111065,26 +155621,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -111094,6 +155656,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -111103,6 +155666,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -111117,46 +155681,54 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 713
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 984
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -111165,33 +155737,29 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 4
-    LSPA: 4
-    LSPB: 16
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 1296
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -111202,10 +155770,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -111214,26 +155782,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -111243,6 +155817,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -111252,6 +155827,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -111266,46 +155842,54 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 714
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x04_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 985
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id040 
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 2
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -111314,33 +155898,29 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 2
-    LSPA: 2
-    LSPB: 32
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2064
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -111351,11 +155931,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -111364,25 +155944,31 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -111392,6 +155978,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -111401,6 +155988,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -111415,33 +156003,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 715
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x02_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 986
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id040
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -111453,7 +156049,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -111463,7 +156059,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -111472,39 +156068,35 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 16
-    LSPA: 16
+    LSPA: 4
     LSPB: 16
-    LVCA: 16
+    LVCA: 64
     LVCB: 16
-    LVPA: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 1552
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -111512,26 +156104,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -111541,6 +156139,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -111550,6 +156149,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -111564,45 +156164,53 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 716
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT02_02_USFGRO01_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id041 
-    ThreadTile0: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 987
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id044 
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -111612,33 +156220,29 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 4
-    LSPA: 4
-    LSPB: 16
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 64
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 1296
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -111649,10 +156253,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -111661,26 +156265,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -111690,6 +156300,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -111699,6 +156310,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -111713,45 +156325,53 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 717
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x04_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_01
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 988
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id042 
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -111761,8 +156381,8 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -111770,39 +156390,35 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
     LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -111810,26 +156426,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -111839,6 +156461,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -111848,6 +156471,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -111862,45 +156486,53 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 718
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT008x008x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 989
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id043 
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -111910,33 +156542,29 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 4
-    LSPA: 4
+    LSCA: 64
+    LSCB: 8
+    LSPA: 2
     LSPB: 16
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 800
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -111947,11 +156575,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -111959,26 +156587,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -111988,6 +156622,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -111997,6 +156632,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -112011,33 +156647,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 719
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x04_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_01
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 990
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id042
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -112049,7 +156693,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -112059,48 +156703,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 64
     LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 800
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -112108,26 +156748,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -112137,6 +156783,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -112146,6 +156793,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -112160,45 +156808,53 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 720
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT008x008x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 991
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id043
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -112208,48 +156864,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 8
-    LSPA: 8
-    LSPB: 16
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 64
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 1600
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -112257,26 +156909,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
     NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -112286,6 +156944,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -112295,6 +156954,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -112309,33 +156969,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 721
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 992
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -112347,58 +157015,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 800
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -112406,26 +157070,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -112435,6 +157105,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -112444,6 +157115,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -112458,96 +157130,100 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 722
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT008x008x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 993
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id043
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 16
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 800
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -112555,26 +157231,30 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -112584,6 +157264,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -112593,6 +157274,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -112607,33 +157289,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 723
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 994
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL1_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id044
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -112645,43 +157337,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 32
     LSCB: 8
     LSPA: 8
     LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 32
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3360
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -112693,9 +157381,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -112704,20 +157392,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -112733,6 +157424,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -112742,6 +157434,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -112756,33 +157449,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 724
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x08_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG32_08_01
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id045 
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 995
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id046 
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -112794,58 +157497,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 16
     LSCB: 8
     LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3360
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 128
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 2
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -112853,21 +157552,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -112882,6 +157584,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -112891,6 +157594,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -112905,33 +157609,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 725
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x08_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG32_08_01
-    SubGroup0: 32
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 996
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id045
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id046
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -112943,43 +157657,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -112991,10 +157701,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113002,21 +157712,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -113031,6 +157744,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -113040,6 +157754,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -113054,33 +157769,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 726
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 997
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id045
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -113092,43 +157817,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -113140,10 +157861,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113151,20 +157872,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -113180,6 +157904,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -113189,6 +157914,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -113203,33 +157929,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 727
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_08_USFGRO0_VW04_WG32_08_01
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppresssNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 998
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id046
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -113242,53 +157978,53 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2592
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113296,15 +158032,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 8
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -113325,6 +158064,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -113334,6 +158074,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -113348,33 +158089,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 728
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x128x16_DTL0_EPS0_GRVW01_LPB02_PGR0_SNLL0_TT04_04_USFGRO01_VW01_WG08_32_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 999
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 32
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 32
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id047 
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -113387,53 +158138,53 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 16
     LSCB: 16
-    LSPA: 2
+    LSPA: 16
     LSPB: 16
-    LVCA: 128
-    LVCB: 16
-    LVPA: 2
-    LVPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2592
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113441,21 +158192,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -113470,6 +158224,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -113479,6 +158234,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -113493,92 +158249,106 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 729
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x16_DTL0_EPS0_GRVW01_LPB02_PGR0_SNLL0_TT04_04_USFGRO01_VW02_WG32_08_01
-    SubGroup0: 32
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1000
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id047
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id048 
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 16
-    DirectToLds: true
-    DirectToLdsA: true
+    DirectToLds: false
+    DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 256
+    LSCA: 16
     LSCB: 16
-    LSPA: 1
+    LSPA: 16
     LSPB: 16
-    LVCA: 256
-    LVCB: 16
-    LVPA: 1
-    LVPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4640
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: true
+    LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 256
-    MacroTile1: 32
-    MacroTileA: 256
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113586,21 +158356,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 16
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 16
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -113615,6 +158388,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -113624,6 +158398,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -113638,33 +158413,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 730
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x032x16_DTL1_EPS0_GRVW01_LPB02_PGR0_SNLL0_TT08_04_USFGRO01_VW02_WG32_08_01
-    SubGroup0: 32
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1001
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id050 
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id048
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -113677,52 +158462,52 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LSPA: 16
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1600
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -113731,21 +158516,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 8
-    NumLoadsB: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -113760,6 +158548,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -113769,6 +158558,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -113783,33 +158573,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 731
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS0_GRVW01_LPB04_PGR0_SNLL0_TT04_04_USFGRO01_VW01_WG16_08_01
-    SubGroup0: 16
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1002
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id047
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -113822,38 +158622,38 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -113865,10 +158665,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113876,15 +158676,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -113905,6 +158708,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -113914,6 +158718,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -113928,33 +158733,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 732
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW01_LPB04_PGR0_SNLL0_TT04_04_USFGRO01_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1003
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id047
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id049 
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -113967,38 +158782,38 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -114010,9 +158825,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -114021,15 +158836,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -114050,6 +158868,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -114059,6 +158878,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -114073,33 +158893,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 733
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB04_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1004
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_4_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id047
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id049
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -114112,38 +158942,38 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -114155,9 +158985,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -114166,21 +158996,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -114195,6 +159028,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -114204,6 +159038,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -114218,94 +159053,102 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 734
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB04_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1005
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_4_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id050
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id049
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: false
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 2
-    LSPB: 32
-    LVCA: 128
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
     LVCB: 8
-    LVPA: 2
-    LVPB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114313,19 +159156,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -114340,6 +159188,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -114349,6 +159198,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -114363,91 +159213,102 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 735
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x08_DTL0_GRVW01_GSU08_PGR1_PLR1_TT08_04_USFGRO01_VW01_WG16_16_01_WGM01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    ThreadTile: *id051 
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1006
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id052 
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
-    DirectToLds: true
-    DirectToLdsA: true
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 256
-    LSCB: 8
-    LSPA: 1
-    LSPB: 32
-    LVCA: 256
-    LVCB: 8
-    LVPA: 1
-    LVPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2304
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: true
+    LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 256
-    MacroTile1: 32
-    MacroTileA: 256
-    MacroTileB: 32
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114455,19 +159316,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -114482,6 +159348,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -114491,6 +159358,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -114505,44 +159373,55 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 736
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x032x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT08_04_USFGRO01_VW04_WG32_08_01_WGM08
-    SubGroup0: 32
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1007
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 8
     SubGroupB: 8
-    ThreadTile: *id051
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id053 
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -114558,17 +159437,17 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
@@ -114582,7 +159461,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -114590,10 +159469,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114601,13 +159480,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -114628,6 +159512,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -114637,6 +159522,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -114651,44 +159537,55 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 737
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x08_DTL0_GRVW02_GSU01_PGR1_PLR1_TT08_04_USFGRO0_VW02_WG16_16_01_WGM01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    ThreadTile: *id051
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1008
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id052
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -114702,33 +159599,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -114736,10 +159629,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114747,18 +159640,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -114774,6 +159672,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -114783,6 +159682,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -114797,74 +159697,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 738
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x08_DTL0_GRVW02_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW02_WG32_08_01_WGM01
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    ThreadTile: *id054 
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1009
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id053
+    WorkGroup: [8, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 16
-    LVCB: 2
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -114874,7 +159785,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -114882,10 +159793,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114893,13 +159804,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -114920,6 +159836,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -114929,6 +159846,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -114943,84 +159861,91 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 739
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG16_08_01_WGM01
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    ThreadTile: *id054
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1010
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id055 
+    VectorWidth: 2
+    WorkGroup: [8, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 16
-    LVCB: 2
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -115028,10 +159953,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115039,18 +159964,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -115066,6 +159996,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -115075,6 +160006,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -115089,91 +160021,106 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 740
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG16_08_01_WGM08
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    ThreadTile: *id054
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1011
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id055
+    VectorWidth: 2
+    WorkGroup: [8, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115181,18 +160128,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -115208,6 +160160,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -115217,6 +160170,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -115231,33 +160185,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 741
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT08_04_USFGRO0_VW04_WG08_32_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1012
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB0_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 32
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 32
-    ThreadTile: *id051
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -115269,42 +160233,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1056
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -115316,10 +160277,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115327,18 +160288,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -115354,6 +160320,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -115363,6 +160330,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -115377,33 +160345,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 742
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1013
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id052
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -115415,38 +160393,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 1568
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -115458,10 +160437,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115469,19 +160448,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -115496,6 +160480,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -115505,6 +160490,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -115519,33 +160505,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 743
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT04_08_USFGRO0_VW04_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1014
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id054
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id052
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -115557,38 +160553,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 1568
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -115600,9 +160597,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -115611,13 +160608,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -115638,6 +160640,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -115647,6 +160650,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -115661,33 +160665,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 744
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT08_04_USFGRO0_VW04_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1015
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id051
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id052
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -115699,57 +160713,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 544
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115757,18 +160768,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -115784,6 +160800,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -115793,6 +160810,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -115807,33 +160825,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 745
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT08_04_USFGRO0_VW04_WG16_16_01_WGM01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    ThreadTile: *id051
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1016
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id052
+    VectorWidth: 2
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -115845,57 +160873,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115903,18 +160928,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -115930,6 +160960,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -115939,6 +160970,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -115953,33 +160985,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 746
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG32_08_01_WGM01
-    SubGroup0: 32
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1017
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 8
     SubGroupB: 8
-    ThreadTile: *id054
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id053
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -115991,57 +161033,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116049,13 +161092,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -116076,6 +161124,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -116085,6 +161134,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -116099,26 +161149,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 747
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG32_08_01_WGM08
-    SubGroup0: 32
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1018
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 8
     SubGroupB: 8
-    ThreadTile: *id054
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id053
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -116132,7 +161191,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -116140,7 +161199,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -116148,33 +161207,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 6208
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -116185,11 +161244,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116197,12 +161256,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -116229,6 +161288,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -116238,6 +161298,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -116256,8 +161317,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 748
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM4
+    SolutionIndex: 1019
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116266,21 +161327,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 4
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -116294,7 +161355,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -116302,56 +161363,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116359,12 +161420,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -116376,7 +161437,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -116391,6 +161452,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -116400,6 +161462,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -116418,31 +161481,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 749
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM4
+    SolutionIndex: 1020
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 4
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -116456,15 +161519,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -116472,37 +161535,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -116510,10 +161569,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116521,8 +161580,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -116537,7 +161596,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -116553,6 +161612,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -116562,6 +161622,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -116580,31 +161641,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 750
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1021
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -116618,7 +161679,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -116626,56 +161687,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116683,12 +161744,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -116715,6 +161776,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -116724,6 +161786,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -116742,31 +161805,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 751
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1022
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -116780,7 +161843,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -116788,56 +161851,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116845,12 +161908,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -116862,7 +161925,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -116877,6 +161940,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -116886,6 +161950,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -116904,31 +161969,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 752
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM32
+    SolutionIndex: 1023
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 32
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -116948,7 +162013,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -116967,39 +162032,35 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
+    LVCA: 16
     LVCB: 16
-    LVPA: 4
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117007,12 +162068,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -117023,7 +162084,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -117039,6 +162100,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -117048,6 +162110,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -117066,29 +162129,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 753
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW2_GSU1_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_8_2_WGM4
+    SolutionIndex: 1024
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -117104,7 +162167,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117112,7 +162175,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -117120,25 +162183,25 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3616
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
@@ -117146,11 +162209,11 @@
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -117158,10 +162221,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117169,11 +162232,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -117201,6 +162264,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -117210,6 +162274,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -117228,31 +162293,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 754
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM4
+    SolutionIndex: 1025
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 4
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -117266,7 +162331,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117274,45 +162339,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 8
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 16
     LVCA: 8
-    LVCB: 4
-    LVPA: 2
-    LVPB: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1856
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -117320,10 +162385,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117331,13 +162396,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -117348,7 +162413,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -117363,6 +162428,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -117372,6 +162438,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -117390,31 +162457,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 755
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_4_2_WGM4
+    SolutionIndex: 1026
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT2_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 4, 2]
-    WorkGroupMapping: 4
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -117428,64 +162495,60 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117493,12 +162556,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -117509,7 +162572,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -117525,6 +162588,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -117534,6 +162598,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -117552,31 +162617,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 756
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM4
+    SolutionIndex: 1027
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 4
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -117590,7 +162655,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117598,7 +162663,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -117606,37 +162671,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -117644,9 +162709,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -117655,12 +162720,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -117687,6 +162752,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -117696,6 +162762,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -117714,31 +162781,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 757
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM4
+    SolutionIndex: 1028
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 4
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -117752,7 +162819,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117760,45 +162827,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1856
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -117806,10 +162873,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117817,13 +162884,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -117849,6 +162916,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -117858,6 +162926,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -117876,31 +162945,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 758
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM4
+    SolutionIndex: 1029
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 4
+    VectorWidth: 2
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -117922,56 +162991,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
     LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 2
-    LVPB: 2
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3712
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117980,12 +163049,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -118011,6 +163080,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -118020,6 +163090,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -118038,29 +163109,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 759
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_4_2_WGM4
+    SolutionIndex: 1030
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 4, 2]
-    WorkGroupMapping: 4
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -118082,58 +163153,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118141,11 +163208,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -118157,7 +163224,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -118173,6 +163240,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -118182,6 +163250,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -118200,29 +163269,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 760
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM4
+    SolutionIndex: 1031
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 4
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -118238,7 +163307,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118246,56 +163315,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118303,11 +163372,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -118335,6 +163404,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -118344,6 +163414,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -118362,31 +163433,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 761
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1032
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -118400,15 +163471,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -118416,37 +163487,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -118454,10 +163521,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118465,11 +163532,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -118481,7 +163548,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -118497,6 +163564,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -118506,6 +163574,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -118524,31 +163593,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 762
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
+    SolutionIndex: 1033
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -118562,7 +163631,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118570,45 +163639,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 64
+    LSPB: 16
     LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -118616,10 +163685,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118627,11 +163696,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -118659,6 +163728,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -118668,6 +163738,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -118686,31 +163757,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 763
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM8
+    SolutionIndex: 1034
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -118724,7 +163795,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118732,7 +163803,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -118740,37 +163811,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -118778,9 +163849,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -118789,12 +163860,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -118806,7 +163877,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -118821,6 +163892,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -118830,6 +163902,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -118848,31 +163921,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 764
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_8_2_WGM8
+    SolutionIndex: 1035
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT2_4_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -118894,55 +163967,55 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -118951,12 +164024,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -118983,6 +164056,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -118992,6 +164066,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119010,28 +164085,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 765
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
+    SolutionIndex: 1036
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -119048,64 +164123,60 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 832
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119113,13 +164184,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -119129,7 +164200,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -119145,6 +164216,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -119154,6 +164226,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119172,31 +164245,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 766
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM16
+    SolutionIndex: 1037
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -119210,7 +164283,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -119218,7 +164291,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -119226,37 +164299,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1856
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -119264,10 +164337,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119275,13 +164348,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -119307,6 +164380,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -119316,6 +164390,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119334,31 +164409,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 767
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
+    SolutionIndex: 1038
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -119372,7 +164447,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -119380,41 +164455,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -119425,11 +164500,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119437,13 +164512,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -119469,6 +164544,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -119478,6 +164554,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119496,31 +164573,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 768
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM16
+    SolutionIndex: 1039
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -119534,7 +164611,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -119542,7 +164619,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -119550,37 +164627,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -119588,10 +164665,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119599,11 +164676,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -119616,7 +164693,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -119631,6 +164708,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -119640,6 +164718,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119658,31 +164737,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 769
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_8_2_WGM16
+    SolutionIndex: 1040
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -119704,56 +164783,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119761,11 +164840,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -119793,6 +164872,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -119802,6 +164882,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119820,29 +164901,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 770
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
+    SolutionIndex: 1041
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -119858,7 +164939,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -119866,56 +164947,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119923,12 +165004,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -119955,6 +165036,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -119964,6 +165046,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119982,31 +165065,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 771
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM32
+    SolutionIndex: 1042
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 32
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -120020,7 +165103,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120028,7 +165111,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -120036,37 +165119,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1856
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120074,10 +165157,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120085,13 +165168,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -120102,7 +165185,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -120117,6 +165200,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -120126,6 +165210,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -120144,31 +165229,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 772
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM32
+    SolutionIndex: 1043
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 32
+    VectorWidth: 2
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -120190,56 +165275,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 32
     LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 1856
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120247,13 +165332,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -120279,6 +165364,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -120288,6 +165374,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -120306,29 +165393,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 773
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM32
+    SolutionIndex: 1044
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 32
+    VectorWidth: 2
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -120344,7 +165431,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120352,7 +165439,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -120360,37 +165447,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120398,10 +165485,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120409,13 +165496,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -120451,8 +165538,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -120470,31 +165557,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 774
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM2
+    SolutionIndex: 1045
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 2
+    VectorWidth: 2
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -120508,7 +165595,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120516,7 +165603,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -120524,37 +165611,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120562,10 +165649,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120573,8 +165660,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -120590,7 +165677,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -120615,8 +165702,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -120634,31 +165721,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 775
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM2
+    SolutionIndex: 1046
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 2
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -120672,15 +165759,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -120688,37 +165775,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 256
-    LSCB: 8
-    LSPA: 4
-    LSPB: 32
-    LVCA: 64
-    LVCB: 4
-    LVPA: 1
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120726,10 +165809,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 256
-    MacroTile1: 32
-    MacroTileA: 256
-    MacroTileB: 32
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120737,11 +165820,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -120753,7 +165836,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -120779,8 +165862,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -120798,31 +165881,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 776
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x32x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG64_4_1_WGM2
+    SolutionIndex: 1047
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 64
-    SubGroup1: 4
-    SubGroupA: 64
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [64, 4, 1]
-    WorkGroupMapping: 2
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -120836,7 +165919,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120844,7 +165927,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -120852,37 +165935,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120890,10 +165973,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120901,8 +165984,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -120943,8 +166026,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -120962,31 +166045,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 777
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS1_PGR1_SNLL1_TT4_4_WG32_8_1_WGM4
+    SolutionIndex: 1048
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 4
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -121000,7 +166083,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121008,7 +166091,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -121016,37 +166099,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -121054,10 +166137,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121065,11 +166148,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -121082,7 +166165,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -121107,8 +166190,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -121126,31 +166209,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 778
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM7
+    SolutionIndex: 1049
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT4_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 7
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -121164,7 +166247,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121172,7 +166255,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -121180,37 +166263,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -121218,10 +166301,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121229,11 +166312,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -121271,8 +166354,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -121290,31 +166373,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 779
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM15
+    SolutionIndex: 1050
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 15
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -121328,7 +166411,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121336,7 +166419,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -121344,37 +166427,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -121382,10 +166465,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121393,12 +166476,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -121435,8 +166518,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -121454,31 +166537,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 780
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM16
+    SolutionIndex: 1051
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -121492,7 +166575,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121500,7 +166583,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -121508,37 +166591,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1856
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -121546,10 +166629,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121557,13 +166640,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -121574,7 +166657,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -121599,8 +166682,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -121618,31 +166701,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 781
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM17
+    SolutionIndex: 1052
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 17
+    VectorWidth: 2
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -121656,15 +166739,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -121672,33 +166755,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 256
-    LSCB: 8
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 4
-    LVPA: 1
-    LVPB: 8
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2176
+    LdsNumElements: 1856
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -121706,10 +166793,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 256
-    MacroTile1: 16
-    MacroTileA: 256
-    MacroTileB: 16
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121717,13 +166804,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -121733,7 +166820,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -121759,8 +166846,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -121778,31 +166865,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 782
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x16x8_SE_EPS0_PGR0_SNLL0_TT4_4_WG64_4_1_WGM17
+    SolutionIndex: 1053
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 64
+    SubGroup0: 8
     SubGroup1: 4
-    SubGroupA: 64
+    SubGroupA: 8
     SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [64, 4, 1]
-    WorkGroupMapping: 17
+    VectorWidth: 2
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -121816,15 +166903,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -121832,31 +166919,27 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -121869,11 +166952,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121881,13 +166964,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -121897,8 +166980,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -121923,8 +167006,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -121942,31 +167025,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 783
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM32
+    SolutionIndex: 1054
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 32
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -121980,7 +167063,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121988,7 +167071,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -121996,27 +167079,27 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 256
-    LSCB: 8
-    LSPA: 4
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
     LSPB: 16
-    LVCA: 64
-    LVCB: 4
-    LVPA: 1
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2176
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -122029,11 +167112,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 256
-    MacroTile1: 16
-    MacroTileA: 256
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122041,13 +167124,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -122083,8 +167166,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -122102,31 +167185,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 784
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x16x8_SE_EPS0_PGR0_SNLL0_TT4_4_WG64_4_1_WGM32
+    SolutionIndex: 1055
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 64
-    SubGroup1: 4
-    SubGroupA: 64
-    SubGroupB: 4
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [64, 4, 1]
-    WorkGroupMapping: 32
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -122146,58 +167229,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 8
     LSCB: 16
     LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 128
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122205,8 +167284,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -122221,8 +167300,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -122247,8 +167326,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -122266,29 +167345,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 785
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM2
+    SolutionIndex: 1056
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 2
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -122310,58 +167389,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 8
     LSCB: 16
     LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 128
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122369,8 +167444,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -122385,7 +167460,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -122411,8 +167486,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -122430,29 +167505,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 786
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM2
+    SolutionIndex: 1057
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 2
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -122474,58 +167549,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 4
     LSCB: 16
     LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LSPB: 32
+    LVCA: 2
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 64
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 4
+    MacroTile1: 64
+    MacroTileA: 4
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122533,8 +167604,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -122549,8 +167620,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -122575,8 +167646,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -122594,29 +167665,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 787
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_16_1_WGM7
+    SolutionIndex: 1058
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroup0: 2
+    SubGroup1: 32
+    SubGroupA: 2
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 7
+    VectorWidth: 2
+    WorkGroup: [2, 32, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -122632,63 +167703,59 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 4
     LVCB: 4
     LVPA: 4
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 64
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 2
+    MacroTile0: 8
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 8
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -122697,8 +167764,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -122713,7 +167780,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -122739,8 +167806,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -122758,31 +167825,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 788
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM7
+    SolutionIndex: 1059
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 7
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -122802,58 +167869,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 16
     LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 800
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122861,13 +167924,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -122877,8 +167940,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -122903,8 +167966,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -122922,29 +167985,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 789
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM11
+    SolutionIndex: 1060
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 11
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -122966,58 +168029,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 8
     LSCB: 16
     LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 128
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123025,8 +168084,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -123041,8 +168100,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -123067,8 +168126,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -123086,29 +168145,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 790
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM16
+    SolutionIndex: 1061
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -123130,58 +168189,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 8
     LSCB: 16
     LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 128
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123189,8 +168244,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -123205,7 +168260,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -123231,8 +168286,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -123250,29 +168305,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 791
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM32
+    SolutionIndex: 1062
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 32
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -123294,9 +168349,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -123304,48 +168359,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 8
     LSCB: 16
     LSPA: 16
     LSPB: 32
-    LVCA: 16
+    LVCA: 4
     LVCB: 8
-    LVPA: 4
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 128
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 64
+    MacroTileA: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123353,12 +168404,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -123369,8 +168420,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -123395,8 +168446,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -123414,29 +168465,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 792
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_8_2_WGM64
+    SolutionIndex: 1063
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_4_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -123452,63 +168503,59 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 4
+    LSCB: 16
     LSPA: 16
     LSPB: 32
-    LVCA: 16
+    LVCA: 2
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1120
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 64
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 4
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 4
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -123517,11 +168564,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -123533,8 +168580,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -123559,8 +168606,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -123578,31 +168625,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 793
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM32
+    SolutionIndex: 1064
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroup0: 2
+    SubGroup1: 32
+    SubGroupA: 2
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 32
+    VectorWidth: 2
+    WorkGroup: [2, 32, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -123616,15 +168663,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -123632,47 +168679,43 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 4
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 2
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1120
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 64
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 4
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 4
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -123681,12 +168724,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -123697,7 +168740,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -123723,8 +168766,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -123742,31 +168785,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 794
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM8
+    SolutionIndex: 1065
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroup0: 2
+    SubGroup1: 32
+    SubGroupA: 2
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [2, 32, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -123788,55 +168831,55 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 4
     LSCB: 16
     LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LSPB: 32
+    LVCA: 2
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3168
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 2112
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 4
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 4
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -123845,12 +168888,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -123887,8 +168930,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -123906,28 +168949,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 795
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 1066
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG2_32_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 2
+    SubGroup1: 32
+    SubGroupA: 2
+    SubGroupB: 32
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [2, 32, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -123952,55 +168995,55 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 4
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 16
+    LSPB: 32
+    LVCA: 2
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3168
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 2112
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 4
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 4
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -124009,12 +169052,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -124051,8 +169094,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -124070,29 +169113,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 796
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM1
+    SolutionIndex: 1067
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG2_32_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 2
+    SubGroup1: 32
+    SubGroupA: 2
+    SubGroupB: 32
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [2, 32, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -124108,64 +169151,60 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 16
-    LSPB: 128
-    LVCA: 32
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1344
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124173,13 +169212,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -124189,7 +169228,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -124215,8 +169254,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -124234,31 +169273,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 797
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_32_1_WGM1
+    SolutionIndex: 1068
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 32
-    SubGroupA: 16
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 32, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -124272,7 +169311,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -124280,56 +169319,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124337,12 +169376,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -124379,8 +169418,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -124398,31 +169437,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 798
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 1069
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -124436,15 +169475,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -124452,48 +169491,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124501,10 +169540,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -124520,13 +169557,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -124546,8 +169582,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -124565,31 +169601,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 799
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1070
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT4_2_VW2_WG4_8_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 4
+    SubGroup1: 8
+    SubGroupA: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 8, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -124601,7 +169639,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -124609,7 +169647,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -124617,48 +169655,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124666,8 +169704,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -124689,7 +169727,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -124709,8 +169746,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -124728,31 +169765,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 800
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1071
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_8_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 4
+    SubGroup1: 8
+    SubGroupA: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 8, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -124766,15 +169803,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -124782,48 +169819,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124831,14 +169864,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -124849,14 +169880,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -124876,8 +169906,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -124895,31 +169925,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 801
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1072
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG4_8_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 4
+    SubGroup1: 8
+    SubGroupA: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 8, 8]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -124931,7 +169963,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -124939,7 +169971,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -124947,48 +169979,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124996,12 +170028,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -125019,7 +170051,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -125039,8 +170070,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -125058,31 +170089,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 802
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1073
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG4_8_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 4
+    SubGroup1: 8
+    SubGroupA: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 8, 8]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -125096,64 +170127,60 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 4
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 2
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2240
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 128
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 4
+    MacroTile1: 64
+    MacroTileA: 4
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125161,14 +170188,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -125179,14 +170204,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -125206,8 +170230,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -125225,31 +170249,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 803
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1074
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroup0: 2
+    SubGroup1: 32
+    SubGroupA: 2
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [2, 32, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -125261,7 +170287,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -125269,56 +170295,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125326,11 +170352,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -125349,7 +170375,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -125369,8 +170394,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -125388,31 +170413,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 804
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1075
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -125426,64 +170451,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125491,14 +170516,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -125516,7 +170539,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -125536,8 +170558,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -125555,31 +170577,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 805
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1076
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_8_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 4
+    SubGroup1: 8
+    SubGroupA: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 8, 8]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -125591,64 +170615,60 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125656,11 +170676,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -125672,14 +170692,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -125699,8 +170718,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -125718,31 +170737,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 806
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1077
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG4_8_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroup0: 4
+    SubGroup1: 8
+    SubGroupA: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 8, 8]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -125756,64 +170775,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3344
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125821,11 +170840,9 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 3
-    NumLoadsB: 2
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
@@ -125846,7 +170863,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -125866,8 +170882,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -125885,31 +170901,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 807
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_DTL0_EPS1_FL0_GRVW1_LPB2_PGR1_PLR1_SNLL1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1078
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG4_8_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 4
+    SubGroup1: 8
+    SubGroupA: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 8, 8]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -125921,60 +170939,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
     LSPB: 16
-    LVCA: 64
+    LVCA: 4
     LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125982,14 +171004,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -126000,14 +171020,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -126027,8 +171046,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -126046,31 +171065,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 808
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1079
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG2_16_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 2
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 2
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [2, 16, 8]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -126082,60 +171103,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126143,14 +171168,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -126161,14 +171184,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -126188,8 +171210,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -126207,31 +171229,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 809
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1080
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -126243,7 +171267,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -126263,33 +171287,33 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 96
-    LSCB: 8
-    LSPA: 5
-    LSPB: 64
-    LVCA: 48
-    LVCB: 4
-    LVPA: 3
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3344
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -126297,10 +171321,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126308,8 +171332,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -126331,7 +171355,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -126351,8 +171374,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -126370,32 +171393,32 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 810
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_LPB2_PGR1_PLR1_SNLL1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1081
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -126408,14 +171431,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -126434,38 +171457,38 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
+    LVCB: 16
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6688
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126473,14 +171496,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 3
-    NumLoadsB: 2
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -126492,13 +171513,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -126518,8 +171538,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -126537,31 +171557,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 811
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_DTL0_EPS1_FL0_GRVW2_LPB2_PGR1_PLR0_SNLL1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1082
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -126573,14 +171595,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -126598,28 +171620,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6688
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1600
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -126627,10 +171649,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126638,14 +171660,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 2
-    NumLoadsB: 3
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -126657,13 +171677,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -126683,8 +171702,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -126702,31 +171721,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 812
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_DTL0_EPS1_FL0_GRVW2_LPB2_PGR1_PLR0_SNLL1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1083
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -126738,7 +171759,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -126763,18 +171784,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6688
+    LdsNumElements: 6208
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1600
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
@@ -126784,7 +171805,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -126792,10 +171813,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126803,12 +171824,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -126820,13 +171841,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -126846,8 +171866,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -126865,31 +171885,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 813
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_DTL0_EPS1_FL1_GRVW2_LPB2_PGR1_PLR0_SNLL1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1084
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -126903,15 +171923,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -126919,48 +171939,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3616
+    LdsNumElements: 3392
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126968,13 +171988,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -126993,7 +172011,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -127013,8 +172030,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -127032,31 +172049,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 814
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1085
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 4, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -127068,7 +172087,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -127076,7 +172095,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -127084,48 +172103,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127133,8 +172152,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -127156,7 +172175,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -127176,8 +172194,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -127195,31 +172213,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 815
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1086
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 4, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -127233,15 +172251,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -127249,37 +172267,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3616
+    LdsNumElements: 3392
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -127287,10 +172305,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127298,13 +172316,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -127323,7 +172339,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -127343,8 +172358,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -127362,31 +172377,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 816
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1087
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -127398,7 +172415,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -127406,7 +172423,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -127414,25 +172431,25 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3616
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
@@ -127440,11 +172457,11 @@
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -127452,10 +172469,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127463,11 +172480,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -127486,7 +172503,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -127506,8 +172522,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -127525,31 +172541,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 817
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1088
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -127563,49 +172579,53 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
     LVPA: 4
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 6720
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -127614,9 +172634,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127624,13 +172644,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -127642,14 +172660,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -127669,8 +172686,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -127688,31 +172705,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 818
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1089
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -127724,64 +172743,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127789,13 +172808,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -127814,7 +172831,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -127834,8 +172850,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -127853,31 +172869,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 819
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1090
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_4_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 4, 8]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -127889,7 +172907,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -127897,30 +172915,30 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LVCB: 16
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 7232
@@ -127931,11 +172949,11 @@
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -127943,10 +172961,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127954,13 +172972,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -127977,7 +172995,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -127997,8 +173014,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -128016,31 +173033,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 820
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1091
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG32_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [32, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -128054,60 +173071,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 64
+    LSPB: 8
     LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128115,13 +173136,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -128133,14 +173152,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -128160,8 +173178,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -128179,31 +173197,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 821
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1092
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -128215,64 +173235,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
-    GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128280,13 +173300,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -128299,13 +173317,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -128325,8 +173342,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -128344,31 +173361,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 822
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1093
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_4_VW2_WG8_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 4, 8]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -128380,64 +173399,60 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128445,11 +173460,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -128461,14 +173476,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -128488,8 +173502,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -128507,31 +173521,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 823
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1094
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 4, 8]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -128545,60 +173559,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 2
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 16
-    LVCA: 64
-    LVCB: 8
-    LVPA: 2
-    LVPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128606,15 +173624,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -128624,14 +173640,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -128651,8 +173666,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -128670,31 +173685,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 824
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1095
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 4, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -128706,59 +173723,63 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 2
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 16
-    LVCA: 64
-    LVCB: 8
-    LVPA: 2
-    LVPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 640
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -128767,15 +173788,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -128785,14 +173804,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -128812,8 +173830,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -128831,31 +173849,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 825
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1096
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_4_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 4, 8]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -128873,37 +173893,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 8
-    LSPA: 2
-    LSPB: 16
-    LVCA: 64
-    LVCB: 8
-    LVPA: 2
-    LVPB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 640
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128918,9 +173942,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128928,15 +173952,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -128946,14 +173968,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -128973,8 +173994,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -128992,31 +174013,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 826
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1097
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -129028,43 +174051,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129077,11 +174104,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129089,15 +174116,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -129107,14 +174132,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -129134,8 +174158,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -129153,31 +174177,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 827
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1098
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -129189,43 +174215,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129238,11 +174264,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129250,15 +174276,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -129269,13 +174293,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -129295,8 +174318,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -129314,31 +174337,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 828
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1099
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -129350,15 +174375,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -129366,31 +174391,27 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
+    LSCB: 16
     LSPA: 8
     LSPB: 32
-    LVCA: 16
-    LVCB: 4
-    LVPA: 2
+    LVCA: 32
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129403,11 +174424,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129416,14 +174437,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -129433,14 +174452,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -129460,8 +174478,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -129479,16 +174497,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 829
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1100
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -129499,11 +174517,13 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -129515,7 +174535,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -129524,7 +174544,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -129540,22 +174560,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
+    LSCA: 128
+    LSCB: 16
     LSPA: 8
-    LSPB: 32
-    LVCA: 16
+    LSPB: 64
+    LVCA: 32
     LVCB: 4
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129568,11 +174588,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129580,13 +174600,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -129603,7 +174623,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -129623,8 +174642,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -129642,20 +174661,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 830
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1101
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -129663,10 +174682,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -129680,14 +174699,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -129706,21 +174725,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
     LVCA: 16
-    LVCB: 2
-    LVPA: 2
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129733,7 +174752,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -129745,15 +174764,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -129770,7 +174787,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -129790,8 +174806,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -129809,31 +174825,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 831
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1102
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -129845,7 +174863,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -129854,7 +174872,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -129871,21 +174889,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
+    LSCB: 32
+    LSPA: 16
     LSPB: 32
     LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129898,11 +174916,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 32
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129914,9 +174932,9 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -129933,7 +174951,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -129953,8 +174970,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -129972,15 +174989,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 832
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1103
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -129993,10 +175010,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -130010,45 +175027,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 32
-    LVCA: 16
+    LSPB: 64
+    LVCA: 32
     LVCB: 4
-    LVPA: 2
-    LVPB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 3088
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -130059,11 +175080,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130072,14 +175093,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -130089,14 +175108,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -130116,8 +175134,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -130135,16 +175153,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 833
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW4_LPB0_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1104
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -130155,11 +175173,13 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -130171,7 +175191,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -130179,37 +175199,37 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 32
-    LVCA: 16
+    LSPB: 64
+    LVCA: 32
     LVCB: 4
-    LVPA: 2
-    LVPB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 1040
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -130220,11 +175240,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130233,12 +175253,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -130255,7 +175275,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -130275,8 +175294,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -130294,15 +175313,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 834
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL1_GRVW4_LPB0_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1105
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -130314,11 +175333,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -130338,39 +175357,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 8
-    LSPA: 4
-    LSPB: 32
-    LVCA: 64
-    LVCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
     LVPA: 4
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1032
+    LdsNumElements: 3088
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -130394,13 +175417,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -130411,14 +175432,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -130438,8 +175458,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -130457,8 +175477,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 835
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1106
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -130466,22 +175486,24 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -130493,60 +175515,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 4
+    LSCB: 16
+    LSPA: 16
     LSPB: 32
-    LVCA: 64
+    LVCA: 32
     LVCB: 8
-    LVPA: 4
-    LVPB: 32
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1032
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130554,15 +175580,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -130572,14 +175596,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -130599,8 +175622,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -130618,31 +175641,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 836
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1107
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -130654,49 +175679,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 4
+    LSCB: 16
+    LSPA: 8
     LSPB: 32
-    LVCA: 64
+    LVCA: 32
     LVCB: 8
     LVPA: 4
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3080
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2080
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -130707,7 +175728,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -130720,9 +175741,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -130737,14 +175756,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -130764,8 +175782,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -130783,8 +175801,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 837
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_LPB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1108
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -130792,22 +175810,24 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -130819,56 +175839,60 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 2
-    LSPB: 16
-    LVCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 32
     LVCB: 8
-    LVPA: 2
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 776
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -130880,15 +175904,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -130898,14 +175920,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -130925,8 +175946,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -130944,8 +175965,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 838
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1109
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -130953,22 +175974,24 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -130980,60 +176003,60 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 2
-    LSPB: 16
-    LVCA: 64
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
     LVCB: 8
-    LVPA: 2
-    LVPB: 16
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 648
+    LdsNumElements: 8192
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131041,15 +176064,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -131066,7 +176087,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -131086,8 +176106,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -131105,31 +176125,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 839
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1110
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT4_4_VW2_WG8_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -131141,60 +176163,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 2
-    LSPB: 16
-    LVCA: 64
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
     LVCB: 8
-    LVPA: 2
-    LVPB: 16
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 648
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131202,15 +176228,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -131220,14 +176244,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -131247,8 +176270,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -131266,31 +176289,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 840
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1111
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -131302,49 +176327,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 4
+    LSCB: 16
+    LSPA: 8
     LSPB: 32
-    LVCA: 64
+    LVCA: 32
     LVCB: 8
     LVPA: 4
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3080
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2080
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -131355,7 +176376,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -131368,9 +176389,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -131385,14 +176404,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -131412,8 +176430,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -131431,8 +176449,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 841
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_LPB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1112
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -131440,22 +176458,24 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -131467,45 +176487,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 2
-    LSPB: 16
-    LVCA: 64
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
     LVCB: 8
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 776
+    LdsNumElements: 2080
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -131516,11 +176536,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131529,14 +176549,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -131553,7 +176571,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -131573,8 +176590,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -131592,15 +176609,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 842
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1113
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -131608,15 +176625,17 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -131628,49 +176647,53 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 2
-    LSPB: 16
-    LVCA: 64
-    LVCB: 8
-    LVPA: 2
-    LVPB: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 64
+    LVCA: 32
+    LVCB: 16
+    LVPA: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 648
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -131679,9 +176702,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131689,15 +176712,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 1024
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -131707,14 +176728,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -131734,8 +176754,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -131753,31 +176773,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 843
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1114
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -131789,60 +176811,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 32
     LVCB: 16
-    LVPA: 4
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2064
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131850,15 +176876,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -131868,14 +176892,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -131895,8 +176918,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -131914,31 +176937,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 844
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1115
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -131950,49 +176975,53 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 16
+    LSPB: 64
     LVCA: 64
     LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1552
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -132000,10 +177029,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132012,14 +177041,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 1024
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -132029,14 +177056,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -132056,8 +177082,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -132075,31 +177101,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 845
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1116
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG32_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [32, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -132111,60 +177139,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
+    LSCB: 32
+    LSPA: 32
+    LSPB: 64
+    LVCA: 32
     LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVPA: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1552
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132172,15 +177204,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 1024
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -132190,14 +177220,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -132217,8 +177246,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -132236,8 +177265,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 846
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1117
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -132245,22 +177274,24 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -132272,56 +177303,60 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 32
     LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1552
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -132333,15 +177368,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 8
-    NumLoadsB: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -132351,14 +177384,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -132378,8 +177410,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -132397,8 +177429,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 847
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1118
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -132406,22 +177438,24 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -132439,39 +177473,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1296
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -132484,9 +177522,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132494,15 +177532,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -132512,14 +177548,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -132539,8 +177574,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -132558,31 +177593,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 848
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1119
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -132600,39 +177637,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
     LVPA: 2
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1296
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -132644,10 +177685,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132655,15 +177696,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -132673,14 +177712,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -132700,8 +177738,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -132719,31 +177757,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 849
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1120
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -132762,38 +177802,38 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2064
+    LdsNumElements: 2112
     LdsOffsetA: 0
     LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -132817,13 +177857,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -132835,13 +177873,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -132861,8 +177898,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -132880,8 +177917,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 850
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1121
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW4_GSU1_LPB4_PGR0_PLR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -132896,15 +177933,17 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -132922,39 +177961,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1552
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -132967,9 +178010,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132977,14 +178020,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -132995,14 +178036,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -133022,8 +178062,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -133041,8 +178081,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 851
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1122
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -133050,22 +178090,24 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -133083,39 +178125,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1296
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -133128,9 +178174,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -133138,15 +178184,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -133156,14 +178200,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -133183,8 +178226,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -133202,31 +178245,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 852
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1123
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -133238,45 +178283,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3104
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -133287,11 +178336,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -133299,14 +178348,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -133317,14 +178364,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -133344,8 +178390,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -133363,8 +178409,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 853
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1124
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -133372,22 +178418,24 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -133399,43 +178447,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 2
-    LSPB: 16
-    LVCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
     LVCB: 8
-    LVPA: 2
-    LVPB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 800
+    LdsNumElements: 12416
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -133448,11 +178500,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 32
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -133462,13 +178514,11 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -133478,14 +178528,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -133505,8 +178554,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -133524,31 +178573,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 854
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1125
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -133560,49 +178611,53 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 2
-    LSPB: 16
-    LVCA: 64
-    LVCB: 8
-    LVPA: 2
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 800
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -133621,15 +178676,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -133639,14 +178692,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -133666,8 +178718,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -133685,8 +178737,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 855
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1126
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -133694,22 +178746,24 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -133721,60 +178775,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 64
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1600
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -133782,15 +178840,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 8
-    NumLoadsB: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -133800,14 +178856,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -133827,8 +178882,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -133846,8 +178901,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 856
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1127
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -133855,22 +178910,24 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -133882,14 +178939,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -133907,24 +178964,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
+    LSCA: 128
+    LSCB: 32
+    LSPA: 16
     LSPB: 32
-    LVCA: 16
-    LVCB: 4
-    LVPA: 2
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 800
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -133932,9 +178993,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -133943,15 +179004,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -133961,14 +179020,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -133988,8 +179046,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -134007,8 +179065,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 857
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1128
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -134016,11 +179074,11 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -134028,10 +179086,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -134043,16 +179103,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -134069,23 +179129,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 4
-    LVPA: 2
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 800
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -134094,9 +179158,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134104,13 +179168,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -134120,14 +179184,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -134147,8 +179210,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -134166,20 +179229,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 858
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL1_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1129
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -134187,10 +179250,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -134204,15 +179267,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -134220,44 +179283,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 32
+    LSPB: 64
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134265,13 +179332,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 1024
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -134281,7 +179348,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -134307,8 +179374,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -134326,31 +179393,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 859
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1130
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [32, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -134364,15 +179431,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -134380,29 +179447,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 8
-    LSPA: 8
-    LSPB: 16
-    LVCA: 8
-    LVCB: 4
-    LVPA: 4
-    LVPB: 8
+    LSCA: 64
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -134413,11 +179484,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134425,13 +179496,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -134441,8 +179512,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134467,8 +179538,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -134486,31 +179557,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 860
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1131
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -134524,60 +179595,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 32
+    LSPB: 64
     LVCA: 16
     LVCB: 8
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134585,13 +179660,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -134601,8 +179676,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134627,8 +179702,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -134646,31 +179721,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 861
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1132
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -134684,15 +179759,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -134700,33 +179775,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSCA: 128
+    LSCB: 32
+    LSPA: 32
+    LSPB: 64
+    LVCA: 32
+    LVCB: 16
     LVPA: 8
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -134734,10 +179813,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134745,13 +179824,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 1024
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -134761,7 +179840,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -134787,8 +179866,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -134806,31 +179885,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 862
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1133
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -134844,60 +179923,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
-    LVCA: 8
+    LSPB: 32
+    LVCA: 16
     LVCB: 8
-    LVPA: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 12416
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134905,13 +179988,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -134921,8 +180004,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134947,8 +180030,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -134966,31 +180049,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 863
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
+    SolutionIndex: 1134
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -135004,15 +180087,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -135020,33 +180103,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
+    LSCA: 64
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 16
+    LVCB: 16
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -135054,10 +180141,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135065,13 +180152,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -135081,8 +180168,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -135107,8 +180194,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -135126,31 +180213,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 864
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
+    SolutionIndex: 1135
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR0_SNLL1_TT4_4_VW4_WG16_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -135164,7 +180251,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -135172,41 +180259,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
+    LSCA: 64
+    LSCB: 32
+    LSPA: 32
+    LSPB: 64
+    LVCA: 16
     LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -135217,11 +180304,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135229,13 +180316,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -135271,8 +180358,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -135290,31 +180377,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 865
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1136
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -135328,45 +180415,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 8
+    LSCA: 64
+    LSCB: 32
+    LSPA: 32
+    LSPB: 64
+    LVCA: 16
     LVCB: 8
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -135377,11 +180468,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135389,13 +180480,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -135405,7 +180496,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -135431,8 +180522,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -135450,31 +180541,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 866
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1137
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 16, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -135488,15 +180579,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -135504,33 +180595,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSCA: 128
+    LSCB: 32
+    LSPA: 32
+    LSPB: 64
+    LVCA: 32
+    LVCB: 16
     LVPA: 8
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -135538,10 +180633,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135549,13 +180644,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 1024
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -135565,8 +180660,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -135591,8 +180686,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -135610,31 +180705,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 867
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1138
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [32, 16, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -135648,7 +180743,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -135673,34 +180768,34 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 128
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 2
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -135709,12 +180804,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -135751,8 +180846,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -135770,20 +180865,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 868
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1139
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT4_4_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -135791,10 +180886,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -135808,7 +180903,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -135833,34 +180928,34 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 128
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 2
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -135869,12 +180964,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -135911,8 +181006,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -135930,20 +181025,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 869
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1140
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT4_4_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -135951,10 +181046,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -135968,60 +181063,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
-    LVCA: 8
+    LSPB: 32
+    LVCA: 16
     LVCB: 8
-    LVPA: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -136029,12 +181128,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -136045,8 +181144,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -136071,8 +181170,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -136090,31 +181189,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 870
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1141
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -136128,7 +181227,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -136148,40 +181247,40 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -136189,8 +181288,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -136206,7 +181305,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -136231,8 +181330,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -136250,31 +181349,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 871
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1142
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -136288,13 +181387,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -136314,38 +181413,34 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -136353,11 +181448,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -136369,7 +181464,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -136395,8 +181490,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -136414,31 +181509,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 872
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1143
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -136452,13 +181547,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -136472,40 +181567,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -136513,13 +181612,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -136529,7 +181628,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -136555,8 +181654,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -136574,31 +181673,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 873
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1144
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -136612,13 +181711,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -136632,33 +181731,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
+    LSCA: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -136666,10 +181761,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -136677,13 +181772,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -136693,7 +181788,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -136719,8 +181814,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -136738,31 +181833,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 874
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1145
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -136776,13 +181871,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -136796,29 +181891,33 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
+    LSCA: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -136826,10 +181925,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -136837,13 +181936,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -136853,7 +181952,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -136879,8 +181978,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -136898,31 +181997,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 875
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
+    SolutionIndex: 1146
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -136936,13 +182035,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -136953,32 +182052,28 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136989,11 +182084,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 16
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 16
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -137001,13 +182096,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -137017,7 +182112,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -137043,8 +182138,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -137062,31 +182157,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 876
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB0_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1147
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -137134,7 +182229,7 @@
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1056
+    LdsNumElements: 4096
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
@@ -137142,18 +182237,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -137161,12 +182256,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -137203,8 +182298,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -137222,29 +182317,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 877
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1148
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -137266,7 +182361,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -137294,22 +182389,26 @@
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1568
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 64
     MacroTileA: 32
@@ -137337,8 +182436,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -137363,8 +182462,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -137382,20 +182481,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 878
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1149
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -137403,8 +182502,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -137426,7 +182525,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -137454,22 +182553,26 @@
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1568
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 64
     MacroTileA: 32
@@ -137497,7 +182600,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -137523,8 +182626,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -137542,20 +182645,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 879
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1150
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -137563,8 +182666,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -137580,13 +182683,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -137606,34 +182709,38 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 16
-    LSPA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 16
     LVCA: 8
-    LVCB: 8
-    LVPA: 8
+    LVCB: 16
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 544
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 16
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 16
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -137646,8 +182753,8 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -137657,7 +182764,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -137683,8 +182790,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -137702,31 +182809,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 880
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
+    SolutionIndex: 1151
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG4_8_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 4
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 4
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 8, 8]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -137746,54 +182853,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -137801,8 +182912,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -137817,7 +182928,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -137843,8 +182954,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -137862,28 +182973,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 881
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1152
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -137908,56 +183019,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -137965,8 +183076,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -138007,8 +183118,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -138026,29 +183137,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 882
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1153
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -138064,7 +183175,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -138072,33 +183183,33 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 64
+    LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6208
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
@@ -138106,22 +183217,22 @@
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -138129,12 +183240,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -138171,8 +183282,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -138190,31 +183301,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 883
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1154
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -138236,56 +183347,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
+    LVCB: 8
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -138293,12 +183404,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -138310,7 +183421,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -138335,8 +183446,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -138354,28 +183465,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 884
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1155
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -138398,54 +183509,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
+    LVCB: 8
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1088
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -138453,12 +183568,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -138469,7 +183584,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -138495,8 +183610,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -138514,29 +183629,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 885
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1156
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -138560,41 +183675,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
+    LVCB: 8
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -138606,10 +183721,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -138617,7 +183732,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -138659,8 +183774,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -138678,8 +183793,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 886
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1157
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -138688,19 +183803,19 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -138716,7 +183831,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -138742,21 +183857,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -138769,11 +183884,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -138781,11 +183896,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -138798,7 +183913,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -138823,8 +183938,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -138842,8 +183957,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 887
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1158
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -138852,11 +183967,11 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -138866,7 +183981,7 @@
     WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -138880,7 +183995,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -138906,17 +184021,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -138929,11 +184044,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -138941,11 +184056,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -138983,8 +184098,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -139002,8 +184117,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 888
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1159
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -139012,11 +184127,11 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -139024,9 +184139,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -139040,7 +184155,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -139066,21 +184181,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -139093,11 +184208,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -139105,11 +184220,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -139147,8 +184262,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -139166,8 +184281,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 889
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1160
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -139176,11 +184291,11 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -139188,9 +184303,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -139229,22 +184344,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -139258,9 +184373,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -139269,11 +184384,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -139286,7 +184401,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -139311,8 +184426,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -139330,8 +184445,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 890
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT2_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1161
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -139340,10 +184455,10 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -139374,7 +184489,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -139393,18 +184508,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -139418,9 +184537,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -139429,11 +184548,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -139445,7 +184564,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -139471,8 +184590,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -139490,8 +184609,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 891
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1162
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -139499,11 +184618,11 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -139512,7 +184631,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -139553,22 +184672,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -139582,9 +184701,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -139593,11 +184712,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -139635,8 +184754,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -139654,8 +184773,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 892
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1163
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -139664,10 +184783,10 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -139676,7 +184795,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -139692,7 +184811,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -139700,7 +184819,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -139708,37 +184827,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
+    LSCA: 64
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1856
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -139746,10 +184865,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -139757,13 +184876,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -139799,8 +184918,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -139818,31 +184937,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 893
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1164
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -139856,7 +184975,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -139864,7 +184983,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -139872,44 +184991,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -139922,11 +185041,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -139963,8 +185082,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -139982,31 +185101,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 894
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1165
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -140020,15 +185139,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -140036,33 +185155,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -140070,10 +185193,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -140081,8 +185204,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -140097,7 +185220,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -140123,8 +185246,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -140142,31 +185265,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 895
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1166
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -140180,7 +185303,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -140188,45 +185311,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -140234,10 +185357,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -140245,8 +185368,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -140287,8 +185410,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -140306,31 +185429,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 896
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1167
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -140350,54 +185473,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LVCB: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -140405,8 +185532,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -140421,7 +185548,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -140447,8 +185574,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -140466,29 +185593,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 897
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1168
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -140512,7 +185639,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -140520,33 +185647,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 128
     LSCB: 32
     LSPA: 16
-    LSPB: 16
-    LVCA: 16
+    LSPB: 32
+    LVCA: 32
     LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -140558,10 +185685,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -140569,13 +185696,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -140611,8 +185738,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -140630,29 +185757,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 898
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1169
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG32_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [32, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -140676,41 +185803,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
+    LVCB: 8
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -140722,9 +185849,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -140733,12 +185860,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -140750,7 +185877,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -140775,8 +185902,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -140794,8 +185921,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 899
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT2_4_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1170
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140804,19 +185931,19 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -140840,55 +185967,55 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -140897,12 +186024,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -140939,8 +186066,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -140958,28 +186085,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 900
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1171
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -141004,37 +186131,37 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 832
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -141046,10 +186173,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141057,13 +186184,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -141099,8 +186226,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -141118,28 +186245,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 901
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
+    SolutionIndex: 1172
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS0_GRVW4_GSU1_LPB4_PGR0_PLR1_SNLL0_TT4_4_VW4_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -141164,41 +186291,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1856
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -141210,10 +186337,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141221,13 +186348,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -141263,8 +186390,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -141282,28 +186409,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 902
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_4_4_WGM8
+    SolutionIndex: 1173
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -141328,56 +186455,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141385,13 +186512,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -141427,8 +186554,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -141446,8 +186573,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 903
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
+    SolutionIndex: 1174
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -141455,20 +186582,20 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -141492,56 +186619,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141549,11 +186676,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -141566,7 +186693,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -141591,8 +186718,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -141610,29 +186737,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 904
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1175
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -141656,41 +186783,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
+    LVCB: 8
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -141702,10 +186829,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141713,7 +186840,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -141755,8 +186882,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -141774,8 +186901,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 905
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1176
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -141783,20 +186910,20 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -141818,7 +186945,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -141837,38 +186964,34 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
+    LSPA: 8
     LSPB: 16
-    LVCA: 8
+    LVCA: 32
     LVCB: 16
-    LVPA: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -141877,11 +187000,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -141893,7 +187016,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -141919,8 +187042,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -141938,20 +187061,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 906
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1177
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -141959,7 +187082,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -141982,7 +187105,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -141996,44 +187119,40 @@
     GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 8
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
     LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1856
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142041,13 +187160,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -142057,8 +187176,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -142083,8 +187202,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -142102,29 +187221,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 907
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1178
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -142160,27 +187279,27 @@
     GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
     LVPA: 8
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1856
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -142194,10 +187313,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142205,13 +187324,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -142247,8 +187366,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -142266,29 +187385,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 908
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1179
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT4_4_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -142329,22 +187448,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
     LVPA: 8
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -142358,10 +187477,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142369,13 +187488,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -142411,8 +187530,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -142430,20 +187549,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 909
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1180
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT4_4_VW2_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -142451,8 +187570,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -142468,13 +187587,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -142485,47 +187604,43 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 128
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 16
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 16
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142533,7 +187648,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -142549,7 +187664,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -142575,8 +187690,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -142594,15 +187709,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 910
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1181
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -142615,10 +187730,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -142632,7 +187747,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -142649,32 +187764,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1088
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -142682,10 +187797,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142693,8 +187808,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -142735,8 +187850,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -142754,15 +187869,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 911
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1182
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -142775,10 +187890,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -142792,13 +187907,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -142809,47 +187924,43 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142857,8 +187968,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -142873,8 +187984,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -142899,8 +188010,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -142918,15 +188029,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 912
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1183
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -142939,10 +188050,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -142956,13 +188067,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -142973,7 +188084,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -142982,38 +188093,34 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -143021,11 +188128,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -143037,8 +188144,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -143063,8 +188170,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -143082,20 +188189,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 913
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT4_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1184
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -143103,10 +188210,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -143120,13 +188227,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -143137,7 +188244,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -143146,27 +188253,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 528
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -143175,9 +188278,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -143185,11 +188288,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -143201,7 +188304,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -143227,8 +188330,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -143246,20 +188349,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 914
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1185
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -143267,10 +188370,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -143284,13 +188387,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -143301,7 +188404,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -143310,27 +188413,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -143354,7 +188453,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -143365,8 +188464,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -143391,8 +188490,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -143410,31 +188509,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 915
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1186
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -143448,13 +188547,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -143465,36 +188564,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1856
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -143503,9 +188598,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 8
+    MacroTile1: 32
     MacroTileA: 16
-    MacroTileB: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -143513,13 +188608,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -143529,8 +188624,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -143555,8 +188650,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -143574,15 +188669,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 916
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
+    SolutionIndex: 1187
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -143595,10 +188690,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -143612,7 +188707,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -143629,36 +188724,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
+    LSCA: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1856
+    LdsNumElements: 3104
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -143666,10 +188761,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -143677,13 +188772,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -143719,8 +188814,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -143738,20 +188833,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 917
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
+    SolutionIndex: 1188
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -143759,10 +188854,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -143801,20 +188896,20 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 16
     LSPA: 16
-    LSPB: 16
-    LVCA: 8
+    LSPB: 32
+    LVCA: 16
     LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 1568
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -143826,10 +188921,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -143837,13 +188932,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -143879,8 +188974,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -143898,29 +188993,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 918
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_1_WGM1
+    SolutionIndex: 1189
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -143936,7 +189031,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -143956,40 +189051,40 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 16
-    LSPA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 16
     LVCA: 8
-    LVCB: 8
-    LVPA: 8
+    LVCB: 16
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -143997,13 +189092,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -144039,8 +189134,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -144058,31 +189153,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 919
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_16_1_WGM1
+    SolutionIndex: 1190
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -144096,13 +189191,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -144121,20 +189216,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -144145,11 +189244,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -144173,8 +189272,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -144199,8 +189298,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -144218,16 +189317,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 920
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1191
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -144239,10 +189338,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -144256,13 +189355,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -144276,25 +189375,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -144305,11 +189408,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -144317,11 +189420,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -144333,7 +189436,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -144359,8 +189462,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -144378,20 +189481,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 921
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1192
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -144399,10 +189502,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -144416,13 +189519,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -144441,20 +189544,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 4
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
-    LVCA: 2
-    LVCB: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
     LVPA: 8
-    LVPB: 16
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1088
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 64
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -144465,11 +189572,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 4
-    MacroTile1: 64
-    MacroTileA: 4
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -144481,8 +189588,8 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -144493,8 +189600,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -144519,8 +189626,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -144538,16 +189645,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 922
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
+    SolutionIndex: 1193
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 32
-    SubGroupA: 2
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -144559,10 +189666,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [2, 32, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -144576,13 +189683,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -144601,18 +189708,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 64
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -144625,11 +189736,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 64
-    MacroTileA: 8
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -144641,7 +189752,7 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -144653,7 +189764,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -144679,8 +189790,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -144698,16 +189809,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 923
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1194
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_4_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 4]
     ThreadTile0: 2
     ThreadTile1: 4
@@ -144719,10 +189830,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -144736,15 +189847,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -144752,44 +189863,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
     LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 800
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -144798,12 +189913,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -144813,8 +189928,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -144839,8 +189954,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -144858,31 +189973,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 924
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_1_WGM1
+    SolutionIndex: 1195
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -144896,15 +190011,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -144912,43 +190027,47 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 16
+    LSCA: 128
+    LSCB: 32
     LSPA: 16
     LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 13440
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 32
-    MacroTileA: 8
+    MacroTileA: 128
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -144957,13 +190076,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -144973,8 +190092,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -144999,8 +190118,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -145018,31 +190137,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 925
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1196
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [32, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -145056,15 +190175,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -145072,29 +190191,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -145105,11 +190228,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -145117,11 +190240,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -145133,7 +190256,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -145159,8 +190282,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -145178,31 +190301,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 926
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1197
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -145216,15 +190339,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -145232,29 +190355,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -145265,11 +190392,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 64
-    MacroTileA: 8
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -145277,12 +190404,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -145293,8 +190420,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -145319,8 +190446,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -145338,31 +190465,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 927
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_4_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1198
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_4_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -145376,15 +190503,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -145392,44 +190519,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 4
-    LSCB: 16
+    LSCA: 128
+    LSCB: 32
     LSPA: 16
     LSPB: 32
-    LVCA: 2
-    LVCB: 8
-    LVPA: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1120
+    LdsNumElements: 13440
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetB: 64
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 4
-    MacroTile1: 64
-    MacroTileA: 4
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -145437,13 +190568,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -145453,8 +190584,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -145479,8 +190610,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -145498,37 +190629,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 928
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
+    SolutionIndex: 1199
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 32
-    SubGroupA: 2
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [2, 32, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 8, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -145542,53 +190673,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 4
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
-    LVCA: 2
-    LVCB: 8
-    LVPA: 8
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1120
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 64
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 4
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 4
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145597,12 +190733,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -145613,13 +190751,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -145639,8 +190779,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -145658,37 +190798,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 929
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
+    SolutionIndex: 1200
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 32
-    SubGroupA: 2
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [2, 32, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -145704,55 +190842,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 4
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
-    LVCA: 2
-    LVCB: 8
-    LVPA: 8
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3168
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 2112
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 4
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 4
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145761,12 +190900,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -145777,6 +190916,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -145784,6 +190924,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -145803,8 +190944,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -145822,29 +190963,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 930
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG2_32_4_WGM1
+    SolutionIndex: 1201
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 32
-    SubGroupA: 2
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [2, 32, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -145852,7 +190993,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -145860,7 +191001,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -145880,43 +191021,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 4
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 2
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3168
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 2112
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 4
+    LoopUnroll: 8
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 4
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145925,12 +191067,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -145941,13 +191083,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -145967,8 +191111,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -145986,37 +191130,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 931
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG2_32_4_WGM8
+    SolutionIndex: 1202
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT6_4_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 32
-    SubGroupA: 2
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [2, 32, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -146024,13 +191168,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -146044,29 +191188,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 4
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1344
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -146074,10 +191223,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -146085,12 +191234,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -146101,13 +191250,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -146127,8 +191278,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -146146,37 +191297,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 932
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1203
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT6_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -146184,7 +191335,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -146208,29 +191359,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -146238,10 +191390,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -146249,12 +191401,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -146265,6 +191417,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -146272,6 +191425,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -146291,8 +191445,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -146310,37 +191464,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 933
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1204
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -146348,7 +191502,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -146368,44 +191522,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -146413,11 +191568,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -146429,13 +191584,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -146455,8 +191612,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -146474,37 +191631,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 934
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT4_2_VW2_WG4_8_8_WGM1
+    SolutionIndex: 1205
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 8
-    SubGroupA: 4
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -146512,14 +191669,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -146532,44 +191689,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -146577,12 +191735,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 2
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -146593,6 +191753,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -146600,6 +191761,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -146619,8 +191781,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -146638,37 +191800,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 935
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_8_8_WGM1
+    SolutionIndex: 1206
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 8
-    SubGroupA: 4
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -146676,60 +191836,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 4
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 96
+    LVCA: 32
+    LVCB: 2
+    LVPA: 4
+    LVPB: 24
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -146737,12 +191902,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -146753,13 +191918,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -146779,8 +191946,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -146798,37 +191965,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 936
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG4_8_8_WGM1
+    SolutionIndex: 1207
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 8
-    SubGroupA: 4
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -146836,64 +192003,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 4
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 2
+    LSPB: 32
+    LVCA: 128
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -146901,11 +192069,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -146917,6 +192087,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -146924,6 +192095,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -146943,8 +192115,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -146962,37 +192134,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 937
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG4_8_8_WGM1
+    SolutionIndex: 1208
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 8
-    SubGroupA: 4
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -147000,14 +192170,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -147020,29 +192190,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 4
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 2
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2240
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -147050,9 +192225,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 4
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 4
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -147061,12 +192236,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -147077,13 +192254,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -147103,8 +192282,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -147122,37 +192301,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 938
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
+    SolutionIndex: 1209
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 32
-    SubGroupA: 2
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [2, 32, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -147160,14 +192337,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -147184,29 +192361,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -147214,10 +192392,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -147225,12 +192403,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -147241,6 +192421,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -147248,6 +192429,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -147267,8 +192449,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -147286,37 +192468,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 939
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_16_4_WGM8
+    SolutionIndex: 1210
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -147324,15 +192504,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -147340,48 +192520,49 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -147389,8 +192570,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -147405,13 +192588,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -147431,8 +192616,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -147450,37 +192635,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 940
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_8_8_WGM8
+    SolutionIndex: 1211
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 8
-    SubGroupA: 4
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 8, 8]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -147488,15 +192671,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -147504,44 +192687,49 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 4
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -147549,12 +192737,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -147565,13 +192755,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -147591,8 +192783,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -147610,37 +192802,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 941
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG4_8_8_WGM8
+    SolutionIndex: 1212
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 8
-    SubGroupA: 4
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 8, 8]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -147648,15 +192838,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -147664,48 +192854,49 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 4
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -147713,12 +192904,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -147729,6 +192922,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -147736,6 +192930,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -147755,8 +192950,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -147774,37 +192969,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 942
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG4_8_8_WGM8
+    SolutionIndex: 1213
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 8
-    SubGroupA: 4
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 8, 8]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -147812,64 +193005,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 4
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -147877,12 +193071,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -147893,6 +193089,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -147900,6 +193097,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -147919,8 +193117,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -147938,37 +193136,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 943
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG2_16_8_WGM8
+    SolutionIndex: 1214
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 2
+    SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [2, 16, 8]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -147976,7 +193172,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -147996,23 +193192,24 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -148022,7 +193219,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -148030,10 +193227,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148041,8 +193238,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -148057,13 +193254,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -148083,8 +193282,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -148102,37 +193301,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 944
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1215
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -148140,7 +193339,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -148160,33 +193359,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -148194,10 +193394,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148205,8 +193405,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -148221,6 +193421,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -148228,6 +193429,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -148247,8 +193449,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -148266,37 +193468,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 945
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1216
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -148304,7 +193506,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -148312,7 +193514,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -148320,37 +193522,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -148358,10 +193561,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148369,11 +193572,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -148385,13 +193588,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -148411,8 +193616,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -148430,37 +193635,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 946
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1217
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -148468,7 +193673,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -148476,7 +193681,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -148484,48 +193689,49 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148533,11 +193739,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -148549,13 +193755,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -148575,8 +193783,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -148594,37 +193802,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 947
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_8_2_WGM1
+    SolutionIndex: 1218
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -148632,7 +193840,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -148640,7 +193848,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -148648,48 +193856,49 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6208
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148697,12 +193906,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -148713,6 +193922,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -148720,6 +193930,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -148739,8 +193950,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -148758,37 +193969,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 948
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_8_2_WGM1
+    SolutionIndex: 1219
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -148796,7 +194007,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -148804,7 +194015,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -148812,48 +194023,49 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148861,11 +194073,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -148877,6 +194089,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -148884,6 +194097,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -148903,8 +194117,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -148922,37 +194136,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 949
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_4_8_WGM1
+    SolutionIndex: 1220
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 4, 8]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -148960,7 +194174,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -148968,56 +194182,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -149025,11 +194240,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -149041,6 +194256,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -149048,6 +194264,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -149067,8 +194284,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -149086,37 +194303,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 950
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_4_8_WGM1
+    SolutionIndex: 1221
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 4, 8]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -149124,53 +194341,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LSCA: 128
+    LSCB: 8
+    LSPA: 2
+    LSPB: 32
+    LVCA: 128
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -149178,10 +194396,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -149189,12 +194407,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -149205,6 +194425,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -149212,6 +194433,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -149231,8 +194453,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -149250,37 +194472,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 951
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM8
+    SolutionIndex: 1222
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -149288,14 +194508,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -149312,29 +194532,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -149342,10 +194563,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -149353,12 +194574,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -149369,13 +194592,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -149395,8 +194620,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -149414,37 +194639,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 952
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_4_4_WGM8
+    SolutionIndex: 1223
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -149452,14 +194675,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -149476,40 +194699,41 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6720
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -149517,12 +194741,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -149533,6 +194759,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -149540,6 +194767,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -149559,8 +194787,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -149578,37 +194806,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 953
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG16_8_2_WGM8
+    SolutionIndex: 1224
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -149616,64 +194842,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -149681,8 +194908,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -149697,13 +194926,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -149723,8 +194954,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -149742,37 +194973,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 954
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_4_8_WGM8
+    SolutionIndex: 1225
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 4, 8]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -149780,64 +195009,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
     LVCA: 32
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -149845,13 +195075,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -149861,13 +195093,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -149887,8 +195121,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -149906,37 +195140,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 955
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG32_8_2_WGM8
+    SolutionIndex: 1226
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 8, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -149944,53 +195176,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -149998,10 +195231,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150009,11 +195242,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -150025,13 +195260,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -150051,8 +195288,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -150070,37 +195307,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 956
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1227
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -150108,64 +195343,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150173,8 +195409,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -150189,13 +195427,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -150215,8 +195455,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -150234,37 +195474,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 957
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_4_VW2_WG8_4_8_WGM1
+    SolutionIndex: 1228
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 4, 8]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -150272,60 +195510,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150333,12 +195576,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -150349,13 +195594,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -150375,8 +195622,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -150394,37 +195641,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 958
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_4_8_WGM1
+    SolutionIndex: 1229
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 4, 8]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -150432,7 +195677,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -150440,56 +195685,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150497,8 +195743,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -150513,13 +195759,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -150539,8 +195787,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -150558,37 +195806,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 959
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_4_8_WGM1
+    SolutionIndex: 1230
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 4, 8]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -150596,7 +195844,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -150604,56 +195852,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150661,8 +195910,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -150677,6 +195926,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -150684,6 +195934,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -150703,8 +195954,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -150722,37 +195973,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 960
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_4_8_WGM8
+    SolutionIndex: 1231
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 4, 8]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -150766,41 +196017,38 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
-    LVPA: 4
+    LVCB: 8
+    LVPA: 8
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -150814,10 +196062,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150825,8 +196073,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -150841,13 +196091,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -150867,8 +196119,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -150886,23 +196138,23 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 961
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1232
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB0_PGR0_PLR0_TT2_2_USFGRO1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -150911,12 +196163,10 @@
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -150924,14 +196174,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -150948,40 +196198,41 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150989,12 +196240,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -151005,6 +196258,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -151012,6 +196266,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -151031,8 +196286,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -151050,37 +196305,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 962
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1233
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -151088,13 +196341,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -151112,36 +196365,41 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151149,12 +196407,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -151165,13 +196423,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -151191,8 +196451,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -151210,37 +196470,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 963
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1234
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -151248,13 +196508,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -151272,25 +196532,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -151298,10 +196563,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151309,12 +196574,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -151325,13 +196590,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -151351,8 +196618,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -151370,37 +196637,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 964
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1235
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -151408,53 +196675,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -151462,10 +196730,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151473,12 +196741,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -151489,6 +196759,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -151496,6 +196767,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -151515,8 +196787,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -151534,37 +196806,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 965
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1236
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -151579,9 +196849,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -151592,44 +196862,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3104
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151637,8 +196908,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -151653,6 +196926,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -151660,6 +196934,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -151679,8 +196954,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -151698,37 +196973,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 966
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1237
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -151736,16 +197009,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -151760,40 +197033,41 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
     LSPB: 32
     LVCA: 16
     LVCB: 8
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151801,12 +197075,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -151817,6 +197093,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -151824,6 +197101,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -151843,8 +197121,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -151862,16 +197140,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 967
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
+    SolutionIndex: 1238
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -151883,16 +197161,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -151900,64 +197176,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
-    LVPB: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3088
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151965,11 +197242,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -151981,6 +197260,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -151988,6 +197268,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -152007,8 +197288,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -152026,16 +197307,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 968
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1239
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -152046,17 +197327,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -152064,13 +197343,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -152088,36 +197367,41 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
+    LSCB: 32
     LSPA: 8
-    LSPB: 64
+    LSPB: 16
     LVCA: 32
-    LVCB: 4
+    LVCB: 16
     LVPA: 4
-    LVPB: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1040
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152125,12 +197409,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -152141,13 +197425,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -152167,8 +197453,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -152186,15 +197472,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 969
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1240
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -152207,16 +197493,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -152224,7 +197510,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -152232,7 +197518,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -152240,37 +197526,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3088
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -152279,9 +197566,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152289,8 +197576,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -152305,6 +197592,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -152312,6 +197600,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -152331,8 +197620,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -152350,16 +197639,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 970
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1241
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -152370,17 +197659,17 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -152388,7 +197677,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -152396,52 +197685,53 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
     LSPB: 32
-    LVCA: 32
+    LVCA: 16
     LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -152453,13 +197743,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -152469,6 +197759,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -152476,6 +197767,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -152495,8 +197787,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -152514,8 +197806,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 971
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM1
+    SolutionIndex: 1242
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -152523,7 +197815,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -152534,17 +197826,17 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -152552,60 +197844,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 8
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2080
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152613,12 +197910,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -152629,13 +197928,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -152655,8 +197956,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -152674,37 +197975,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 972
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1243
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -152712,47 +198011,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -152765,10 +198065,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -152777,13 +198077,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -152793,6 +198095,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -152800,6 +198103,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -152819,8 +198123,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -152838,37 +198142,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 973
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM8
+    SolutionIndex: 1244
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO1_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -152876,43 +198178,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 64
+    LSPB: 8
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -152925,11 +198232,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152937,13 +198244,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -152953,13 +198262,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -152979,8 +198290,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -152998,37 +198309,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 974
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT4_4_VW2_WG8_16_4_WGM8
+    SolutionIndex: 1245
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO1_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 4]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -153036,7 +198345,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -153060,17 +198369,18 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
@@ -153089,11 +198399,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -153101,13 +198411,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -153117,6 +198427,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -153124,6 +198435,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -153143,8 +198455,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -153162,37 +198474,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 975
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_4_WGM8
+    SolutionIndex: 1246
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 4]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -153200,23 +198512,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -153224,36 +198536,41 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 8
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2080
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -153261,12 +198578,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -153277,13 +198594,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -153303,8 +198622,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -153322,37 +198641,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 976
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1247
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -153360,23 +198679,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -153384,35 +198703,40 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 8
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2080
+    LdsNumElements: 6720
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 4608
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -153421,11 +198745,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -153437,13 +198763,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -153463,8 +198791,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -153482,14 +198810,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 977
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1248
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR0_TT4_4_USFGRO0_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -153503,16 +198831,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -153527,9 +198853,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -153540,27 +198866,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 64
-    LVCA: 32
-    LVCB: 16
-    LVPA: 16
-    LVPB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -153574,10 +198901,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -153585,13 +198912,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 1024
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -153601,6 +198930,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -153608,6 +198938,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -153627,8 +198958,175 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1249
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -153646,37 +199144,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 978
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_4_WGM1
+    SolutionIndex: 1250
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR0_TT2_4_USFGRO1_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -153691,40 +199187,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
-    LSPA: 16
-    LSPB: 32
+    LSPA: 8
+    LSPB: 8
     LVCA: 32
-    LVCB: 16
+    LVCB: 32
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -153738,10 +199235,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -153749,13 +199246,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -153765,6 +199264,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -153772,6 +199272,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -153791,8 +199292,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -153810,37 +199311,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 979
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM1
+    SolutionIndex: 1251
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO1_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -153855,7 +199354,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -153872,40 +199371,41 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 64
-    LVCA: 64
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
     LVPA: 8
-    LVPB: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -153913,13 +199413,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 1024
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -153929,13 +199431,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -153955,8 +199459,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -153974,20 +199478,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 980
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG32_16_2_WGM1
+    SolutionIndex: 1252
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR0_TT2_4_USFGRO0_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 16
-    SubGroupA: 32
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -153995,16 +199499,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [32, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -154012,49 +199514,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 32
-    LSPB: 64
-    LVCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -154065,11 +199568,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154078,12 +199581,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 1024
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -154093,6 +199598,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -154100,6 +199606,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -154119,8 +199626,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -154138,16 +199645,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 981
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_4_WGM8
+    SolutionIndex: 1253
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -154158,17 +199665,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -154176,53 +199681,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
+    LSCB: 8
+    LSPA: 4
     LSPB: 32
-    LVCA: 32
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -154231,9 +199733,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154241,13 +199743,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -154257,13 +199762,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -154283,8 +199790,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -154302,37 +199809,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 982
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM8
+    SolutionIndex: 1254
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -154340,49 +199845,46 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
     LVPA: 4
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -154393,7 +199895,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -154407,11 +199909,14 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -154421,13 +199926,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -154447,8 +199954,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -154466,8 +199973,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 983
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1255
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -154475,14 +199982,14 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -154490,13 +199997,11 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -154511,7 +200016,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -154528,25 +200033,26 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -154558,9 +200064,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -154569,13 +200075,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -154585,6 +200094,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -154592,6 +200102,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -154611,8 +200122,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -154630,8 +200141,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 984
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1256
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -154639,11 +200150,11 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -154655,12 +200166,10 @@
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -154674,8 +200183,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -154692,6 +200201,7 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
@@ -154702,11 +200212,15 @@
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -154731,11 +200245,14 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -154745,13 +200262,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -154771,8 +200290,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -154790,8 +200309,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 985
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW4_GSU1_LPB4_PGR0_PLR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1257
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -154815,12 +200334,10 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -154828,7 +200345,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -154836,41 +200353,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
     LVPA: 4
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -154881,7 +200399,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -154894,12 +200412,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -154909,6 +200428,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -154916,6 +200436,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -154935,8 +200456,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -154954,8 +200475,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 986
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
+    SolutionIndex: 1258
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW2_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -154963,7 +200484,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -154974,17 +200495,17 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -155016,6 +200537,7 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
@@ -155026,15 +200548,15 @@
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -155047,9 +200569,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155057,13 +200579,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -155073,6 +200596,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -155080,6 +200604,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -155099,8 +200624,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -155118,8 +200643,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 987
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM16
+    SolutionIndex: 1259
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -155127,12 +200652,12 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -155140,7 +200665,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -155148,7 +200673,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -155163,42 +200688,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -155210,9 +200736,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -155221,13 +200747,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -155237,6 +200766,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -155244,6 +200774,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -155263,8 +200794,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -155282,8 +200813,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 988
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM16
+    SolutionIndex: 1260
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_DTL0_EPS1_FL0_GRVW2_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -155291,28 +200822,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -155320,7 +200849,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -155328,41 +200857,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 12416
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -155373,10 +200903,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -155385,13 +200915,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -155401,6 +200932,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -155408,6 +200940,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -155427,8 +200960,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -155446,8 +200979,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 989
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1261
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -155455,28 +200988,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -155484,15 +201017,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -155500,37 +201033,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -155538,10 +201072,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155549,13 +201083,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -155565,6 +201102,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -155572,6 +201110,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -155591,8 +201130,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -155610,37 +201149,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 990
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_4_WGM1
+    SolutionIndex: 1262
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW2_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -155648,16 +201185,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -155672,29 +201209,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 32
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -155702,9 +201240,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -155713,13 +201251,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -155729,6 +201270,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -155736,6 +201278,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -155755,8 +201298,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -155774,37 +201317,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 991
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_4_WGM1
+    SolutionIndex: 1263
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -155812,14 +201353,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -155836,29 +201377,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
     LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -155867,9 +201409,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155877,13 +201419,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -155893,6 +201438,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -155900,6 +201446,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -155919,8 +201466,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -155938,16 +201485,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 992
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_8_4_WGM1
+    SolutionIndex: 1264
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
@@ -155959,16 +201506,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -155976,14 +201521,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -156000,39 +201545,40 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 32
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2176
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -156041,13 +201587,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -156057,6 +201606,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -156064,6 +201614,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156083,8 +201634,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -156102,16 +201653,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 993
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_4_WGM1
+    SolutionIndex: 1265
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
@@ -156123,16 +201674,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -156140,7 +201689,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -156164,36 +201713,37 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 32
-    LSPA: 32
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
     LVCA: 32
-    LVCB: 16
-    LVPA: 8
+    LVCB: 4
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -156205,13 +201755,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 1024
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -156221,6 +201772,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -156228,6 +201780,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156247,8 +201800,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -156266,20 +201819,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 994
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_16_2_WGM1
+    SolutionIndex: 1266
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -156287,16 +201840,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 16, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -156304,7 +201857,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -156328,29 +201881,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -156358,10 +201912,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156369,13 +201923,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -156385,6 +201940,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -156392,6 +201948,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156411,8 +201968,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -156430,20 +201987,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 995
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_4_WGM8
+    SolutionIndex: 1267
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -156451,16 +202008,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -156468,53 +202025,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 32
-    LSPB: 64
-    LVCA: 16
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
     LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -156522,10 +202076,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156533,13 +202087,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -156549,13 +202106,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156575,8 +202134,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -156594,37 +202153,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 996
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_4_WGM8
+    SolutionIndex: 1268
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR0_TT2_2_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 4]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -156632,64 +202189,61 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 32
-    LSPB: 64
-    LVCA: 32
-    LVCB: 16
-    LVPA: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 784
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156698,12 +202252,15 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 1024
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -156713,13 +202270,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156739,8 +202298,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -156758,37 +202317,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 997
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_16_2_WGM8
+    SolutionIndex: 1269
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB2_PGR0_PLR0_TT4_2_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 16, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -156796,7 +202353,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -156804,7 +202361,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -156816,29 +202373,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVCB: 4
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 12416
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -156849,10 +202407,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -156861,13 +202419,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -156877,6 +202436,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -156884,6 +202444,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156903,8 +202464,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -156922,8 +202483,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 998
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
+    SolutionIndex: 1270
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -156931,28 +202492,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -156960,64 +202521,61 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 16
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
     LVCB: 16
-    LVPA: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 2080
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -157025,13 +202583,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -157041,13 +202602,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -157067,8 +202630,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -157086,37 +202649,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 999
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR0_SNLL1_TT4_4_VW4_WG16_8_4_WGM16
+    SolutionIndex: 1271
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB2_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -157124,60 +202685,57 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 32
-    LSPB: 64
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -157189,13 +202747,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -157205,13 +202766,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -157231,8 +202794,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -157250,37 +202813,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1000
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_4_WGM16
+    SolutionIndex: 1272
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -157294,8 +202855,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -157312,36 +202873,33 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 32
-    LSPB: 64
+    LSPA: 16
+    LSPB: 32
     LVCA: 16
     LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 4224
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 32
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -157353,13 +202911,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -157369,13 +202930,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -157395,8 +202958,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -157414,20 +202977,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1001
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_4_WGM16
+    SolutionIndex: 1273
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -157435,16 +202998,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 4]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -157452,16 +203013,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -157476,29 +203037,26 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
-    LVCB: 16
-    LVPA: 8
-    LVPB: 32
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -157506,9 +203064,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -157517,13 +203075,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 1024
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -157533,13 +203092,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -157559,8 +203120,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -157578,16 +203139,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1002
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_16_2_WGM16
+    SolutionIndex: 1274
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL1_GRVW4_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -157599,16 +203160,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 16, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -157616,60 +203177,61 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 8
+    LSCA: 32
+    LSCB: 16
     LSPA: 8
-    LSPB: 64
-    LVCA: 8
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -157677,13 +203239,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -157693,13 +203258,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -157719,8 +203286,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -157738,37 +203305,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1003
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT4_4_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1275
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_TT2_2_USFGRO1_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -157776,15 +203341,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -157792,44 +203357,49 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 8
-    LVCB: 4
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -157837,13 +203407,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -157853,13 +203426,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -157879,8 +203454,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -157898,15 +203473,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1004
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT4_4_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1276
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -157918,17 +203493,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -157936,7 +203509,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -157945,7 +203518,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -157960,25 +203533,26 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
     LSPB: 32
     LVCA: 16
     LVCB: 8
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -157989,11 +203563,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158001,13 +203575,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -158017,6 +203592,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -158024,6 +203600,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -158043,8 +203620,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -158062,20 +203639,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1005
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM16
+    SolutionIndex: 1277
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -158083,16 +203660,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -158100,60 +203677,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158161,13 +203743,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -158177,13 +203762,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -158203,8 +203790,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -158222,37 +203809,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1006
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM8
+    SolutionIndex: 1278
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_DTL0_EPS1_FL0_GRVW4_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -158260,60 +203845,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 8
+    LSCB: 32
     LSPA: 8
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 8
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158321,13 +203911,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -158337,13 +203930,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -158363,8 +203958,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -158382,37 +203977,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1007
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM16
+    SolutionIndex: 1279
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_DTL0_EPS1_FL0_GRVW1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -158420,7 +204013,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -158444,40 +204037,41 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158485,13 +204079,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -158501,6 +204096,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -158508,6 +204104,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -158527,8 +204124,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -158546,20 +204143,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1008
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM16
+    SolutionIndex: 1280
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_DTL0_EPS1_FL1_GRVW2_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -158567,16 +204164,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -158584,15 +204181,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -158600,33 +204197,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -158634,10 +204236,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158645,13 +204247,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -158661,13 +204266,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -158687,8 +204294,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -158706,15 +204313,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1009
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM1
+    SolutionIndex: 1281
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -158726,13 +204333,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -158744,53 +204349,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
     LSPB: 32
-    LVCA: 16
+    LVCA: 64
     LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -158798,9 +204400,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -158809,13 +204411,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -158825,13 +204430,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -158851,8 +204458,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -158870,37 +204477,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1010
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM1
+    SolutionIndex: 1282
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB0_PGR0_PLR0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -158908,13 +204513,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -158924,7 +204529,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -158932,35 +204537,40 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -158969,13 +204579,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -158985,13 +204596,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -159011,8 +204624,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -159030,14 +204643,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1011
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1283
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS3_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -159051,10 +204664,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -159068,49 +204681,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 2
     LSPB: 32
-    LVCA: 16
+    LVCA: 128
     LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -159118,9 +204736,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -159129,13 +204747,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -159145,13 +204766,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -159171,8 +204794,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -159190,37 +204813,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1012
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM8
+    SolutionIndex: 1284
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -159228,14 +204849,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -159252,29 +204873,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -159282,9 +204904,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -159293,13 +204915,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -159309,6 +204934,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -159316,6 +204942,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -159335,8 +204962,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -159354,20 +204981,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1013
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM8
+    SolutionIndex: 1285
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -159375,12 +205002,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -159392,53 +205017,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 16
+    LVCA: 32
     LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -159447,9 +205069,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159457,13 +205079,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -159473,13 +205098,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -159499,8 +205126,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -159518,33 +205145,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1014
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM16
+    SolutionIndex: 1286
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB0_PGR0_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 16
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -159556,63 +205181,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1544
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -159621,13 +205247,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -159637,13 +205266,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -159663,8 +205294,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -159682,33 +205313,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1015
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG4_8_8_WGM8
+    SolutionIndex: 1287
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_LPB1_PGR1_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 8
-    SubGroupA: 4
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 8, 8]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -159720,53 +205349,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 520
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -159774,10 +205400,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159785,13 +205411,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -159801,13 +205430,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -159827,8 +205458,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -159846,33 +205477,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1016
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM1
+    SolutionIndex: 1288
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB1_PGR0_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -159890,58 +205519,55 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1040
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159949,13 +205575,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -159965,13 +205594,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -159991,8 +205622,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -160010,33 +205641,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1017
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM8
+    SolutionIndex: 1289
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB1_PGR0_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -160048,53 +205677,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -160102,9 +205732,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -160113,13 +205743,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -160129,13 +205762,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -160155,8 +205790,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -160174,37 +205809,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1018
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM16
+    SolutionIndex: 1290
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR0_TT2_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 16
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -160212,49 +205845,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
-    LSPA: 32
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 8
+    LVCA: 32
     LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -160265,11 +205899,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -160277,13 +205911,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -160293,6 +205930,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -160300,6 +205938,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -160319,8 +205958,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -160338,33 +205977,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1019
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_16_2_WGM1
+    SolutionIndex: 1291
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -160382,43 +206019,40 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -160430,10 +206064,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -160442,12 +206076,15 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -160457,13 +206094,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -160483,8 +206122,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -160502,33 +206141,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1020
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_16_2_WGM16
+    SolutionIndex: 1292
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_AMAS1_EPS0_FL0_GRVW1_GSU8_LPB1_PGR0_PLR1_TT4_4_USFGRO1_VW1_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 16
+    VectorWidth: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -160540,47 +206177,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
     LSPB: 32
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -160593,10 +206227,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -160605,13 +206239,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -160621,13 +206258,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -160647,8 +206286,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -160666,37 +206305,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1021
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM16
+    SolutionIndex: 1293
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_AMAS1_EPS0_FL0_GRVW2_GSU1_LPB0_PGR0_PLR1_TT4_2_USFGRO1_VW1_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    VectorWidth: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -160704,7 +206341,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -160712,7 +206349,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -160720,33 +206357,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -160757,11 +206395,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -160770,12 +206408,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -160785,6 +206424,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -160792,6 +206432,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -160811,8 +206452,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: true
@@ -160830,16 +206471,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1022
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1294
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_AMAS3_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -160850,17 +206491,17 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -160874,68 +206515,78 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -160945,13 +206596,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -160971,9 +206624,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -160990,15 +206644,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1023
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1295
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -161010,17 +206664,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -161035,71 +206687,77 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -161109,6 +206767,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -161116,6 +206775,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -161135,9 +206795,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -161154,16 +206815,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1024
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM16
+    SolutionIndex: 1296
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -161174,17 +206835,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -161199,71 +206858,77 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LVCB: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -161273,6 +206938,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -161280,6 +206946,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -161299,9 +206966,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -161318,16 +206986,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1025
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1297
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -161338,17 +207006,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -161356,7 +207022,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -161364,70 +207030,74 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 64
+    LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6208
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -161437,6 +207107,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -161444,6 +207115,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -161463,9 +207135,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -161482,16 +207155,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1026
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1298
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -161502,17 +207175,17 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -161520,7 +207193,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -161528,70 +207201,74 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 64
+    LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6208
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -161601,6 +207278,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -161608,6 +207286,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -161627,9 +207306,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -161646,16 +207326,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1027
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM16
+    SolutionIndex: 1299
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -161666,17 +207346,17 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -161684,7 +207364,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -161692,8 +207372,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -161704,33 +207384,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 96
+    LVCA: 32
+    LVCB: 2
     LVPA: 4
-    LVPB: 16
+    LVPB: 24
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -161739,23 +207420,26 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -161765,13 +207449,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -161791,9 +207477,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -161810,37 +207497,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1028
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM1
+    SolutionIndex: 1300
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -161848,7 +207535,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -161856,8 +207543,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -161868,33 +207555,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 96
+    LVCA: 32
+    LVCB: 2
     LVPA: 4
-    LVPB: 16
+    LVPB: 24
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -161903,23 +207591,26 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -161929,6 +207620,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -161936,6 +207628,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -161955,9 +207648,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -161974,37 +207668,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1029
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
+    SolutionIndex: 1301
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -162012,7 +207706,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -162020,8 +207714,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -162032,33 +207726,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 96
+    LVCA: 32
+    LVCB: 2
     LVPA: 4
-    LVPB: 16
+    LVPB: 24
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -162067,23 +207762,26 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -162093,6 +207791,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -162100,6 +207799,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -162119,9 +207819,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -162138,37 +207839,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1030
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
+    SolutionIndex: 1302
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -162176,16 +207877,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -162200,29 +207901,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -162230,24 +207932,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -162257,13 +207964,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -162283,9 +207992,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -162302,37 +208012,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1031
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM16
+    SolutionIndex: 1303
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -162340,16 +208048,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -162364,54 +208072,60 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -162421,13 +208135,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -162447,9 +208163,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -162466,20 +208183,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1032
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM1
+    SolutionIndex: 1304
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -162487,16 +208204,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -162504,14 +208219,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -162528,29 +208243,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
     LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -162559,23 +208275,28 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -162585,6 +208306,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -162592,6 +208314,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -162611,9 +208334,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -162630,37 +208354,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1033
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG32_4_4_WGM1
+    SolutionIndex: 1305
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -162668,16 +208390,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -162692,29 +208414,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6272
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1152
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -162722,24 +208445,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -162749,6 +208477,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -162756,6 +208485,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -162775,9 +208505,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -162794,20 +208525,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1034
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM1
+    SolutionIndex: 1306
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -162815,16 +208546,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -162832,14 +208561,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -162856,29 +208585,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -162886,24 +208616,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -162913,6 +208648,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -162920,6 +208656,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -162939,9 +208676,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -162958,20 +208696,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1035
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
+    SolutionIndex: 1307
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -162979,16 +208717,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -162996,49 +208732,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -163046,24 +208787,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -163073,13 +208817,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -163099,9 +208845,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -163118,37 +208865,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1036
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS0_GRVW4_GSU1_LPB4_PGR0_PLR1_SNLL0_TT4_4_VW4_WG8_8_4_WGM8
+    SolutionIndex: 1308
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 4]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -163156,7 +208903,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -163165,7 +208912,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -163180,29 +208927,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6272
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1152
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -163210,24 +208958,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -163237,13 +208988,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -163263,9 +209016,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -163282,20 +209036,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1037
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM8
+    SolutionIndex: 1309
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -163303,16 +209057,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -163320,7 +209074,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -163329,7 +209083,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -163344,29 +209098,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -163374,24 +209129,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -163401,13 +209159,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -163427,9 +209187,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -163446,16 +209207,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1038
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_8_4_WGM8
+    SolutionIndex: 1310
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
@@ -163467,16 +209228,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -163484,7 +209245,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -163493,7 +209254,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -163508,54 +209269,58 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -163565,6 +209330,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -163572,6 +209338,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -163591,9 +209358,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -163610,20 +209378,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1039
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
+    SolutionIndex: 1311
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -163631,16 +209399,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -163648,7 +209416,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -163657,7 +209425,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -163672,29 +209440,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6272
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1152
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -163702,24 +209471,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -163729,6 +209501,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -163736,6 +209509,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -163755,9 +209529,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -163773,21 +209548,21 @@
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
-    ScheduleLocalWrite: 1
-    SolutionIndex: 1040
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM16
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1312
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -163795,16 +209570,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -163812,74 +209587,84 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
+    LSCB: 16
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
+    LVCA: 16
     LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -163889,13 +209674,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -163915,9 +209702,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -163934,15 +209722,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1041
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_8_2_WGM1
+    SolutionIndex: 1313
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -163954,17 +209742,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -163978,9 +209764,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -163988,58 +209774,68 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
+    LVCA: 16
     LVCB: 16
     LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -164049,13 +209845,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -164075,9 +209873,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -164094,15 +209893,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1042
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_8_2_WGM8
+    SolutionIndex: 1314
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -164114,17 +209913,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -164140,7 +209937,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -164148,33 +209945,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
     LSPA: 16
     LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -164186,24 +209984,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -164213,6 +210014,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -164220,6 +210022,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -164239,9 +210042,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -164258,15 +210062,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1043
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT4_4_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1315
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -164278,8 +210082,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -164288,7 +210092,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -164296,53 +210100,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3104
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -164350,24 +210155,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -164377,6 +210187,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -164384,6 +210195,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -164403,15 +210215,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -164422,15 +210236,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1044
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT4_4_VW2_WG8_8_4_WGM16
+    SolutionIndex: 1316
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -164438,21 +210252,19 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -164466,68 +210278,78 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 8
-    LSPA: 8
+    LSPA: 4
     LSPB: 32
-    LVCA: 8
-    LVCB: 4
+    LVCA: 64
+    LVCB: 8
     LVPA: 4
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3104
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -164537,13 +210359,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -164563,15 +210387,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -164582,37 +210408,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1045
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_2_WGM1
+    SolutionIndex: 1317
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -164620,45 +210444,46 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -164669,25 +210494,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -164697,6 +210527,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
@@ -164704,6 +210535,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -164723,15 +210555,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -164742,8 +210576,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1046
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1318
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -164752,27 +210586,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -164786,37 +210618,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -164830,24 +210667,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -164857,13 +210699,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -164883,15 +210727,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -164902,8 +210748,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1047
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1319
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -164912,27 +210758,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -164946,37 +210790,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -164990,24 +210839,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -165017,13 +210871,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -165043,15 +210899,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -165062,8 +210920,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1048
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1320
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -165072,27 +210930,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -165100,45 +210956,46 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
     LVCA: 16
     LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 528
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -165149,25 +211006,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -165177,6 +211039,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
@@ -165184,6 +211047,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -165203,15 +211067,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -165222,8 +211088,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1049
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1321
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_GSU1_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -165232,27 +211098,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -165266,68 +211130,78 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -165337,13 +211211,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -165363,15 +211239,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -165382,37 +211260,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1050
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_2_WGM1
+    SolutionIndex: 1322
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -165420,13 +211296,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -165444,25 +211320,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3088
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -165470,24 +211351,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -165497,13 +211381,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -165523,15 +211409,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -165542,37 +211430,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1051
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_16_2_WGM1
+    SolutionIndex: 1323
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -165588,70 +211476,74 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3104
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -165661,6 +211553,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -165668,6 +211561,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -165687,15 +211581,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -165706,28 +211602,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1052
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_16_2_WGM1
+    SolutionIndex: 1324
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -165736,7 +211632,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -165750,39 +211646,44 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1568
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -165794,24 +211695,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -165821,13 +211725,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -165847,15 +211753,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -165866,8 +211774,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1053
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1325
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -165876,19 +211784,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -165896,7 +211804,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -165904,49 +211812,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1088
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -165954,24 +211867,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -165981,13 +211899,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -166007,15 +211927,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -166026,37 +211948,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1054
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM16
+    SolutionIndex: 1326
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -166064,53 +211984,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
     LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -166118,24 +212039,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -166145,13 +212071,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -166171,15 +212099,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -166190,37 +212120,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1055
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM16
+    SolutionIndex: 1327
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -166228,78 +212156,80 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
     LSPB: 16
-    LVCA: 16
+    LVCA: 64
     LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3136
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 8
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -166309,13 +212239,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -166335,15 +212267,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -166354,37 +212288,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1056
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM16
+    SolutionIndex: 1328
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x16_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -166392,53 +212324,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -166446,24 +212379,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -166473,6 +212411,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -166480,6 +212419,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -166499,15 +212439,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -166518,37 +212460,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1057
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM16
+    SolutionIndex: 1329
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -166556,14 +212496,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -166580,29 +212520,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -166610,24 +212551,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -166637,6 +212583,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -166644,6 +212591,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -166663,15 +212611,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -166682,20 +212632,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1058
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_4_4_WGM16
+    SolutionIndex: 1330
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -166703,16 +212653,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -166720,15 +212668,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -166736,62 +212684,64 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 16
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -166801,13 +212751,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -166827,15 +212779,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -166846,37 +212800,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1059
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_4_4_WGM1
+    SolutionIndex: 1331
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW2_GSU1_LPB0_PGR0_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -166884,14 +212836,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -166908,54 +212860,60 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
     LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 13440
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -166965,13 +212923,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -166991,15 +212951,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -167010,20 +212972,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1060
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_8_2_WGM1
+    SolutionIndex: 1332
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -167031,16 +212993,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -167048,14 +213008,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -167072,29 +213032,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -167102,24 +213063,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -167129,6 +213095,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -167136,6 +213103,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -167155,15 +213123,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -167174,20 +213144,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1061
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_4_4_WGM8
+    SolutionIndex: 1333
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -167195,16 +213165,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -167212,14 +213180,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -167236,29 +213204,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -167266,24 +213235,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -167293,6 +213267,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -167300,6 +213275,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -167319,15 +213295,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -167338,20 +213316,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1062
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_4_4_WGM16
+    SolutionIndex: 1334
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -167359,16 +213337,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -167376,14 +213352,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -167400,54 +213376,60 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
     LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 13440
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -167457,13 +213439,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -167483,15 +213467,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -167502,20 +213488,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1063
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_8_2_WGM16
+    SolutionIndex: 1335
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -167523,12 +213509,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -167540,7 +213524,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -167549,7 +213533,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -167566,24 +213550,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -167594,20 +213578,22 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -167615,6 +213601,7 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -167652,15 +213639,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -167671,8 +213660,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1064
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1336
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -167681,10 +213670,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -167693,9 +213682,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -167714,7 +213703,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -167733,24 +213722,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -167762,24 +213751,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -167817,15 +213811,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -167836,8 +213832,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1065
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1337
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -167846,10 +213842,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -167861,8 +213857,6 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -167900,22 +213894,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
+    LSCA: 128
     LSCB: 8
-    LSPA: 5
+    LSPA: 4
     LSPB: 64
-    LVCA: 48
+    LVCA: 64
     LVCB: 4
-    LVPA: 3
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -167929,24 +213923,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -167958,7 +213955,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -167984,15 +213981,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -168003,8 +214002,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1066
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT6_4_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1338
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -168013,10 +214012,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -168028,7 +214027,7 @@
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -168067,22 +214066,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
+    LSCA: 128
     LSCB: 8
-    LSPA: 5
+    LSPA: 4
     LSPB: 64
-    LVCA: 48
+    LVCA: 64
     LVCB: 4
-    LVPA: 3
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -168096,24 +214095,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -168125,7 +214127,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -168151,15 +214153,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -168170,8 +214174,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1067
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT6_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1339
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -168180,10 +214184,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -168195,7 +214199,7 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -168216,7 +214220,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -168224,32 +214228,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
+    LSCA: 128
     LSCB: 8
-    LSPA: 5
+    LSPA: 8
     LSPB: 64
-    LVCA: 48
+    LVCA: 32
     LVCB: 4
-    LVPA: 3
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -168263,24 +214267,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -168318,15 +214325,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -168337,8 +214346,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1068
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1340
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -168347,22 +214356,22 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -168383,7 +214392,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -168391,32 +214400,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
+    LSCA: 128
     LSCB: 8
-    LSPA: 5
+    LSPA: 8
     LSPB: 64
-    LVCA: 48
+    LVCA: 32
     LVCB: 4
-    LVPA: 3
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -168430,24 +214439,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -168485,15 +214497,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -168504,8 +214518,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1069
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1341
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -168514,22 +214528,22 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -168542,15 +214556,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -168558,34 +214572,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 128
+    LSCB: 8
     LSPA: 8
-    LSPB: 32
+    LSPB: 64
     LVCA: 32
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6656
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1536
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -168596,27 +214610,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 2
-    NumLoadsB: 3
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -168654,15 +214669,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -168673,8 +214690,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1070
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1342
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -168683,21 +214700,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -168716,41 +214735,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 8
-    LSPA: 8
-    LSPB: 96
-    LVCA: 32
-    LVCB: 2
-    LVPA: 4
-    LVPB: 24
+    LSPA: 2
+    LSPB: 32
+    LVCA: 128
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -168764,24 +214783,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -168819,15 +214843,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -168838,8 +214864,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1071
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1343
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -168848,23 +214874,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -168884,36 +214908,36 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 2
-    LSPB: 32
-    LVCA: 128
-    LVCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -168932,25 +214956,28 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -168988,15 +215015,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -169007,8 +215036,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1072
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO1_WG16_16_1_WGM8
+    SolutionIndex: 1344
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -169017,13 +215046,13 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -169050,7 +215079,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -169078,9 +215107,9 @@
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -169099,25 +215128,26 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -169155,15 +215185,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -169174,8 +215206,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1073
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1345
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -169184,11 +215216,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -169196,9 +215228,11 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -169217,20 +215251,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -169238,16 +215272,16 @@
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -169266,25 +215300,26 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -169322,15 +215357,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -169341,8 +215378,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1074
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1346
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -169351,21 +215388,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -169403,24 +215442,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1824
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -169432,26 +215471,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -169489,15 +215531,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -169508,20 +215552,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1075
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1347
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -169529,7 +215573,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -169551,7 +215595,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -169570,24 +215614,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1824
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -169599,26 +215643,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -169630,7 +215675,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -169656,15 +215701,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -169675,20 +215722,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1076
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1348
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -169696,10 +215743,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -169717,8 +215766,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -169737,24 +215786,20 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 800
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -169766,26 +215811,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -169796,7 +215842,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -169823,15 +215869,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -169842,20 +215890,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1077
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1349
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_EPS0_FL1_GRVW4_GSU1_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -169863,10 +215911,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -169878,7 +215928,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -169886,42 +215936,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
     LVCA: 32
-    LVCB: 4
+    LVCB: 8
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1680
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 192
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -169932,27 +215982,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -169990,15 +216043,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -170009,31 +216064,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1078
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1350
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -170052,41 +216107,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
-    LSPA: 4
+    LSPA: 8
     LSPB: 64
-    LVCA: 64
-    LVCB: 4
+    LVCA: 16
+    LVCB: 2
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -170100,24 +216155,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -170155,15 +216215,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -170174,33 +216236,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1079
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1351
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -170238,22 +216298,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 4
-    LSPB: 64
-    LVCA: 64
+    LSPB: 32
+    LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -170267,14 +216327,16 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -170283,8 +216345,9 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -170296,7 +216359,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -170322,15 +216385,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -170341,28 +216406,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1080
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1352
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -170380,78 +216445,79 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSPA: 1
+    LSPB: 16
+    LVCA: 128
+    LVCB: 8
+    LVPA: 1
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1296
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -170462,8 +216528,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -170489,15 +216555,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -170508,15 +216576,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1081
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1353
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB2_PGR0_PLR1_TT8_4_USFGRO1_VW2_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -170524,17 +216592,15 @@
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -170547,78 +216613,79 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSPA: 1
+    LSPB: 16
+    LVCA: 128
+    LVCB: 8
+    LVPA: 1
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1312
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -170629,8 +216696,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -170656,15 +216723,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -170675,15 +216744,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1082
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1354
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -170691,17 +216760,15 @@
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -170714,78 +216781,79 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSPA: 1
+    LSPB: 16
+    LVCA: 128
+    LVCB: 8
+    LVPA: 1
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1312
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -170796,7 +216864,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -170823,15 +216891,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -170842,15 +216912,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1083
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1355
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -170858,17 +216928,15 @@
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -170880,15 +216948,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -170896,32 +216964,28 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2560
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -170934,25 +216998,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -170963,8 +217032,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -170990,15 +217059,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -171009,8 +217080,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1084
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1356
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_EPS0_FL0_GRVW2_GSU1_LPB0_PGR0_PLR0_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -171019,23 +217090,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -171054,41 +217123,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1536
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -171102,24 +217171,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -171157,15 +217231,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -171176,8 +217252,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1085
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1357
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -171186,23 +217262,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -171221,41 +217295,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 96
     LSCB: 8
-    LSPA: 2
-    LSPB: 32
-    LVCA: 128
-    LVCB: 8
-    LVPA: 2
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -171269,26 +217343,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -171326,15 +217401,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -171345,8 +217422,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1086
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO1_WG16_16_1_WGM8
+    SolutionIndex: 1358
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -171355,21 +217432,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -171388,7 +217467,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -171407,22 +217486,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 96
     LSCB: 8
-    LSPA: 4
+    LSPA: 5
     LSPB: 64
-    LVCA: 64
+    LVCA: 48
     LVCB: 4
-    LVPA: 2
+    LVPA: 3
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -171436,26 +217515,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -171467,7 +217547,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -171493,15 +217573,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -171512,8 +217594,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1087
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1359
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -171522,11 +217604,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -171537,6 +217619,8 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -171555,7 +217639,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -171574,22 +217658,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
-    LSPA: 4
+    LSPA: 8
     LSPB: 64
-    LVCA: 64
+    LVCA: 32
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -171603,26 +217687,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -171660,15 +217745,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -171679,8 +217766,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1088
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1360
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -171689,11 +217776,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -171704,6 +217791,8 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 32
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -171722,8 +217811,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -171735,28 +217824,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 128
+    LSPB: 96
     LVCA: 32
     LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 24
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -171770,26 +217859,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -171801,7 +217891,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -171827,15 +217917,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -171846,8 +217938,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1089
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1361
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -171856,21 +217948,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -171882,7 +217976,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -171891,7 +217985,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -171908,28 +218002,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -171937,19 +218031,21 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -171957,6 +218053,7 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -171968,7 +218065,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -171994,15 +218091,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -172013,31 +218112,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1090
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1362
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -172049,16 +218148,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -172075,28 +218174,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -172104,26 +218203,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -172161,15 +218261,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -172180,31 +218282,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1091
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1363
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -172216,7 +218320,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -172224,46 +218328,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -172271,26 +218375,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -172328,15 +218435,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -172347,31 +218456,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1092
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1364
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -172383,7 +218492,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -172391,73 +218500,76 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -172495,15 +218607,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -172514,31 +218628,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1093
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1365
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -172550,15 +218664,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -172570,34 +218684,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -172605,24 +218719,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -172634,7 +218753,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -172660,15 +218779,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -172679,33 +218800,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1094
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1366
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -172717,15 +218836,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -172737,34 +218856,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -172772,24 +218891,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -172827,15 +218951,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -172846,33 +218972,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1095
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1367
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -172884,13 +219008,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -172910,24 +219034,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -172935,26 +219063,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -172965,8 +219096,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -172992,15 +219123,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -173011,20 +219144,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1096
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB0_PGR0_PLR0_TT2_2_USFGRO1_WG16_16_1_WGM1
+    SolutionIndex: 1368
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -173032,10 +219165,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -173054,7 +219187,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -173073,55 +219206,56 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -173159,15 +219293,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -173178,14 +219314,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1097
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG8_16_2_WGM1
+    SolutionIndex: 1369
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 2]
@@ -173199,10 +219335,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -173223,14 +219361,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -173240,53 +219378,56 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -173324,15 +219465,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -173343,14 +219486,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1098
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG8_16_2_WGM1
+    SolutionIndex: 1370
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 2]
@@ -173364,7 +219507,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -173381,15 +219524,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -173398,62 +219541,67 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -173491,15 +219639,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -173510,33 +219660,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1099
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1371
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW2_GSU8_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -173557,7 +219705,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -173568,7 +219716,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -173577,52 +219725,55 @@
     LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 8
     LVCA: 16
-    LVCB: 16
+    LVCB: 32
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
+    LdsNumElements: 3392
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 8
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -173660,15 +219811,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -173679,28 +219832,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1100
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_WG16_8_2_WGM1
+    SolutionIndex: 1372
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -173715,7 +219868,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -173724,45 +219877,45 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 8
     LVCA: 16
-    LVCB: 8
+    LVCB: 32
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3104
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -173771,25 +219924,28 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 8
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -173827,15 +219983,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -173846,31 +220004,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1101
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1373
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_VW2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -173882,15 +220040,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -173898,38 +220056,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 8
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3392
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -173937,26 +220095,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -173994,15 +220153,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -174013,31 +220174,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1102
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1374
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -174057,66 +220220,68 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
+    LVCB: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -174124,6 +220289,7 @@
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -174161,15 +220327,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -174180,29 +220348,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1103
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1375
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
   - AggressivePerfMode: 1
@@ -174242,53 +220410,56 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
+    LVCA: 16
     LVCB: 16
-    LVPA: 4
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -174326,15 +220497,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -174345,20 +220518,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1104
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1376
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -174366,8 +220539,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -174390,72 +220563,77 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -174493,15 +220671,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -174512,15 +220692,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1105
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1377
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -174528,17 +220708,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -174550,16 +220728,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -174577,52 +220755,57 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
+    LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -174660,15 +220843,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -174679,15 +220864,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1106
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1378
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -174700,12 +220885,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -174725,8 +220908,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -174737,30 +220920,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -174772,26 +220955,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -174829,15 +221015,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -174848,28 +221036,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1107
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_WG4_16_4_WGM1
+    SolutionIndex: 1379
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -174891,43 +221079,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 8
+    LSPB: 16
     LVCA: 16
-    LVCB: 32
-    LVPA: 16
+    LVCB: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -174939,26 +221127,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -174996,15 +221185,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -175015,31 +221206,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1108
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO1_WG4_16_4_WGM1
+    SolutionIndex: 1380
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -175058,43 +221251,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 8
+    LSPB: 16
     LVCA: 16
-    LVCB: 32
-    LVPA: 16
+    LVCB: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -175106,26 +221299,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -175163,15 +221357,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -175182,31 +221378,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1109
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO1_WG4_16_4_WGM8
+    SolutionIndex: 1381
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -175244,22 +221442,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -175273,14 +221471,16 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -175288,9 +221488,10 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -175328,48 +221529,52 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1110
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG4_16_4_WGM8
+    SolutionIndex: 1382
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_NLCA1_PGR1_PLR1_TT2_4_USFGRO0_VW2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -175394,14 +221599,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -175411,22 +221616,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -175440,14 +221645,16 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -175455,9 +221662,10 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -175495,47 +221703,51 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1111
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG4_16_4_WGM8
+    SolutionIndex: 1383
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_NLCA1_PGR1_PLR1_TT2_4_USFGRO0_VW2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -175559,9 +221771,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -175572,30 +221784,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6720
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 4608
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -175607,26 +221819,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -175638,7 +221851,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -175664,34 +221877,38 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1112
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR0_TT4_4_USFGRO0_WG4_16_4_WGM8
+    SolutionIndex: 1384
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -175703,11 +221920,13 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -175719,7 +221938,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -175727,46 +221946,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -175774,26 +221993,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -175805,7 +222027,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -175831,50 +222053,54 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1113
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_WG16_4_4_WGM8
+    SolutionIndex: 1385
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_NLCA1_PGR1_PLR0_TT8_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -175886,7 +222112,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -175894,46 +222120,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 128
+    LSCB: 8
     LSPA: 8
-    LSPB: 8
+    LSPB: 64
     LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -175941,26 +222167,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -175972,7 +222201,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -175998,50 +222227,54 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1114
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR0_TT2_4_USFGRO1_WG16_4_4_WGM8
+    SolutionIndex: 1386
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -176053,7 +222286,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -176061,73 +222294,76 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 128
+    LSCB: 16
     LSPA: 8
-    LSPB: 8
+    LSPB: 64
     LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -176165,50 +222401,54 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1115
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO1_WG16_4_4_WGM8
+    SolutionIndex: 1387
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -176220,15 +222460,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -176236,38 +222476,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -176275,26 +222515,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -176332,50 +222573,56 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1116
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR0_TT2_4_USFGRO0_WG16_4_4_WGM8
+    SolutionIndex: 1388
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR0_TT8_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -176387,16 +222634,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -176413,55 +222660,56 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -176499,39 +222747,43 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1117
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_4_4_WGM8
+    SolutionIndex: 1389
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -176539,10 +222791,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
 - [2, 3, 0, 1]
 - - - [704, 1024, 1, 128]
     - [102, 3019.46]
@@ -178944,36 +225198,18 @@
     - [101, 4291.65]
   - - [3136, 64, 128, 64]
     - [183, 8175.06]
-  - - [784, 512, 64, 128]
-    - [181, 8378.34]
-  - - [3136, 256, 64, 64]
-    - [184, 8506.65]
-  - - [12544, 1024, 1, 256]
-    - [177, 8927.93]
   - - [784, 128, 128, 512]
     - [182, 8190.53]
   - - [784, 512, 256, 128]
     - [180, 8637.14]
-  - - [3136, 64, 64, 256]
-    - [179, 8782.93]
-  - - [3136, 512, 1, 2048]
-    - [176, 7298.32]
-  - - [12544, 256, 1, 1024]
-    - [188, 7667.25]
-  - - [3136, 2048, 1, 512]
-    - [187, 8447.22]
   - - [3136, 256, 256, 64]
     - [180, 8663.08]
   - - [3136, 64, 128, 256]
     - [178, 8943.46]
-  - - [784, 128, 64, 512]
-    - [186, 8006.27]
   - - [3136, 64, 256, 64]
     - [183, 8267.12]
   - - [784, 512, 128, 128]
     - [180, 8564.25]
-  - - [3136, 64, 64, 64]
-    - [183, 8009.35]
   - - [784, 128, 256, 512]
     - [184, 8377.06]
   - - [3136, 64, 256, 256]
@@ -179022,8 +225258,6 @@
     - [212, 8995.84]
   - - [4096, 512, 1, 2048]
     - [207, 9298.08]
-  - - [512, 256, 1, 2048]
-    - [200, 5186.16]
   - - [4096, 1024, 1, 2048]
     - [189, 9790.67]
   - - [2048, 1024, 1, 2048]
@@ -179060,8 +225294,6 @@
     - [213, 4032.98]
   - - [1024, 256, 1, 4096]
     - [201, 7326.3]
-  - - [4096, 512, 1, 4096]
-    - [193, 9471.97]
   - - [1024, 200, 1, 2048]
     - [194, 5530.46]
   - - [2048, 1024, 1, 512]
@@ -182512,5972 +228744,6954 @@
     - [524, 10427.3]
   - - [1024, 1, 1, 13]
     - [537, 0.0]
+  - - [768, 512, 1, 768]
+    - [561, 5889.04]
+  - - [768, 2048, 1, 3072]
+    - [571, 9394.62]
+  - - [768, 32, 1, 768]
+    - [583, 1502.74]
+  - - [64, 128, 96, 128]
+    - [578, 4973.48]
+  - - [3072, 1024, 1, 768]
+    - [572, 9856.07]
+  - - [768, 1024, 1, 3072]
+    - [565, 8611.06]
+  - - [768, 512, 1, 3072]
+    - [564, 6430.79]
+  - - [768, 64, 1, 768]
+    - [585, 2621.44]
+  - - [768, 4096, 1, 3072]
+    - [570, 10030.4]
+  - - [768, 2048, 1, 2]
+    - [563, 381.763]
+  - - [768, 2048, 1, 768]
+    - [568, 9754.2]
+  - - [768, 320, 1, 30522]
+    - [581, 8529.4]
+  - - [64, 64, 96, 64]
+    - [575, 2496.61]
+  - - [768, 640, 1, 30522]
+    - [562, 8253.84]
+  - - [768, 1280, 1, 30522]
+    - [567, 9572.85]
+  - - [768, 1280, 1, 768]
+    - [571, 8713.93]
+  - - [768, 640, 1, 768]
+    - [561, 7293.03]
+  - - [768, 32, 1, 2]
+    - [573, 11.8154]
+  - - [3072, 2048, 1, 768]
+    - [568, 10019.6]
+  - - [768, 4096, 1, 768]
+    - [568, 9927.35]
+  - - [3072, 4096, 1, 768]
+    - [571, 10150.1]
+  - - [64, 256, 192, 256]
+    - [577, 7054.19]
+  - - [768, 8, 1, 768]
+    - [584, 340.939]
+  - - [64, 128, 384, 128]
+    - [576, 6765.01]
+  - - [768, 1024, 1, 768]
+    - [566, 8768.58]
+  - - [768, 320, 1, 768]
+    - [582, 6838.54]
+  - - [64, 64, 768, 64]
+    - [579, 5388.83]
+  - - [768, 1024, 1, 2]
+    - [559, 258.695]
+  - - [768, 16, 1, 768]
+    - [584, 819.2]
+  - - [64, 256, 96, 256]
+    - [577, 5893.64]
+  - - [3072, 512, 1, 768]
+    - [569, 9722.79]
+  - - [768, 160, 1, 768]
+    - [586, 5019.78]
+  - - [768, 4096, 1, 2]
+    - [560, 507.375]
+  - - [1600, 512, 1, 1024]
+    - [590, 7186.95]
+  - - [1024, 512, 1, 64]
+    - [588, 2557.5]
+  - - [1024, 512, 1, 1]
+    - [587, 71.2348]
+  - - [2048, 512, 1, 1]
+    - [589, 90.3945]
+  - - [1024, 200, 1, 1]
+    - [595, 40.0]
+  - - [32, 200, 1, 1]
+    - [591, 1.56863]
+  - - [560, 200, 1, 1024]
+    - [599, 4731.35]
+  - - [1, 512, 1, 1]
+    - [598, 0.130612]
+  - - [64, 512, 1, 1]
+    - [593, 7.58519]
+  - - [1024, 8192, 1, 256]
+    - [608, 9518.99]
+  - - [1024, 22016, 1, 256]
+    - [614, 9881.12]
+  - - [256, 8976, 1, 4352]
+    - [606, 9567.08]
+  - - [512, 256, 1, 2048]
+    - [619, 5917.89]
+  - - [1024, 19968, 1, 256]
+    - [614, 9882.37]
+  - - [256, 8976, 1, 1536]
+    - [604, 8437.35]
+  - - [256, 8976, 1, 33536]
+    - [604, 8441.89]
+  - - [1024, 1792, 1, 256]
+    - [604, 7756.97]
+  - - [1024, 21504, 1, 256]
+    - [614, 9893.9]
+  - - [512, 215, 1, 2048]
+    - [620, 4665.64]
+  - - [1024, 7168, 1, 256]
+    - [608, 9509.35]
+  - - [256, 8976, 1, 15872]
+    - [610, 8914.65]
+  - - [1024, 19712, 1, 256]
+    - [614, 9771.9]
+  - - [256, 8976, 1, 5632]
+    - [610, 8740.03]
+  - - [1024, 14848, 1, 256]
+    - [614, 9756.15]
+  - - [1024, 28672, 1, 256]
+    - [614, 9958.92]
+  - - [256, 8976, 1, 9728]
+    - [617, 8853.04]
+  - - [1024, 17152, 1, 256]
+    - [608, 9737.3]
+  - - [256, 8976, 1, 11520]
+    - [610, 8999.2]
+  - - [256, 8976, 1, 8192]
+    - [600, 7897.32]
+  - - [1024, 3328, 1, 256]
+    - [615, 8593.53]
+  - - [256, 8976, 1, 7424]
+    - [610, 8980.47]
+  - - [1024, 18944, 1, 256]
+    - [614, 9854.85]
+  - - [1024, 10496, 1, 256]
+    - [609, 9453.9]
+  - - [256, 8976, 1, 5376]
+    - [607, 9608.37]
+  - - [256, 8976, 1, 6144]
+    - [604, 7880.13]
+  - - [1024, 40448, 1, 256]
+    - [614, 10016.6]
+  - - [256, 8976, 1, 22016]
+    - [617, 8939.87]
+  - - [256, 8976, 1, 4864]
+    - [605, 9211.43]
+  - - [256, 8976, 1, 12288]
+    - [601, 8065.05]
+  - - [1024, 9728, 1, 256]
+    - [614, 9636.25]
+  - - [256, 8976, 1, 2048]
+    - [602, 7001.33]
+  - - [1024, 10240, 1, 256]
+    - [608, 9619.96]
+  - - [256, 8976, 1, 2304]
+    - [606, 9509.74]
+  - - [1024, 7936, 1, 256]
+    - [614, 9300.67]
+  - - [768, 256, 1, 2048]
+    - [618, 6267.95]
+  - - [1024, 9984, 1, 256]
+    - [614, 9477.28]
+  - - [1024, 13312, 1, 256]
+    - [614, 9758.56]
+  - - [1024, 16128, 1, 256]
+    - [608, 9721.9]
+  - - [1024, 8960, 1, 256]
+    - [609, 9398.25]
+  - - [1024, 5120, 1, 256]
+    - [615, 9315.5]
+  - - [1024, 11264, 1, 256]
+    - [608, 9664.8]
+  - - [256, 8976, 1, 20480]
+    - [616, 8279.87]
+  - - [1024, 20992, 1, 256]
+    - [608, 9878.87]
+  - - [256, 8976, 1, 9472]
+    - [610, 8990.96]
+  - - [256, 8976, 1, 8448]
+    - [610, 8983.52]
+  - - [256, 8976, 1, 20992]
+    - [611, 8942.11]
+  - - [256, 8976, 1, 10496]
+    - [611, 8989.71]
+  - - [1024, 15104, 1, 256]
+    - [609, 9676.01]
+  - - [1024, 6400, 1, 256]
+    - [617, 9145.89]
+  - - [1024, 4096, 1, 256]
+    - [610, 9124.25]
+  - - [256, 8976, 1, 2560]
+    - [604, 8566.11]
+  - - [256, 8976, 1, 2816]
+    - [606, 9496.84]
+  - - [1024, 7680, 1, 256]
+    - [614, 9460.84]
+  - - [256, 8976, 1, 14336]
+    - [611, 8226.8]
+  - - [256, 8976, 1, 6656]
+    - [611, 8771.42]
+  - - [1024, 3072, 1, 256]
+    - [611, 9076.94]
+  - - [256, 8976, 1, 5888]
+    - [607, 9546.3]
+  - - [1024, 12288, 1, 256]
+    - [608, 9690.81]
+  - - [256, 8976, 1, 26112]
+    - [613, 8699.83]
+  - - [1024, 7424, 1, 256]
+    - [615, 9256.84]
+  - - [256, 8976, 1, 14848]
+    - [616, 8885.79]
+  - - [768, 215, 1, 2048]
+    - [618, 5628.59]
+  - - [1024, 2560, 1, 256]
+    - [611, 8820.83]
+  - - [256, 8976, 1, 19968]
+    - [610, 8928.86]
+  - - [256, 8976, 1, 9984]
+    - [610, 8993.12]
+  - - [1024, 4864, 1, 256]
+    - [611, 8974.3]
+  - - [1024, 33536, 1, 256]
+    - [614, 9943.07]
+  - - [256, 8976, 1, 15104]
+    - [611, 8996.63]
+  - - [1024, 2048, 1, 256]
+    - [609, 8462.66]
+  - - [256, 8976, 1, 8960]
+    - [611, 8998.92]
+  - - [1024, 6144, 1, 256]
+    - [616, 9359.67]
+  - - [1024, 14592, 1, 256]
+    - [614, 9667.42]
+  - - [256, 8976, 1, 19712]
+    - [610, 9020.11]
+  - - [1024, 11520, 1, 256]
+    - [609, 9527.7]
+  - - [1024, 5632, 1, 256]
+    - [608, 9297.2]
+  - - [256, 8976, 1, 11008]
+    - [617, 8994.8]
+  - - [256, 8976, 1, 17152]
+    - [611, 9003.8]
+  - - [256, 8976, 1, 3072]
+    - [600, 8261.96]
+  - - [1024, 3840, 1, 256]
+    - [617, 8671.89]
+  - - [1024, 14336, 1, 256]
+    - [614, 9760.28]
+  - - [1024, 20480, 1, 256]
+    - [608, 9887.85]
+  - - [1024, 23552, 1, 256]
+    - [608, 9890.46]
+  - - [256, 8976, 1, 7168]
+    - [603, 8478.34]
+  - - [1024, 13568, 1, 256]
+    - [608, 9654.64]
+  - - [1024, 4608, 1, 256]
+    - [616, 9218.25]
+  - - [256, 8976, 1, 10240]
+    - [601, 8076.16]
+  - - [1024, 8704, 1, 256]
+    - [610, 9475.5]
+  - - [1024, 11008, 1, 256]
+    - [614, 9524.96]
+  - - [1024, 8448, 1, 256]
+    - [608, 9352.16]
+  - - [256, 8976, 1, 44505]
+    - [612, 8430.23]
+  - - [6272, 256, 1, 528]
+    - [664, 7389.94]
+  - - [3136, 2048, 1, 1024]
+    - [645, 9657.94]
+  - - [6272, 112, 1, 512]
+    - [643, 5931.09]
+  - - [2048, 320, 1, 1280]
+    - [663, 7772.99]
+  - - [289, 256, 1, 1568]
+    - [684, 3718.17]
+  - - [3136, 64, 64, 64]
+    - [623, 8201.15]
+  - - [50176, 128, 1, 256]
+    - [646, 8908.58]
+  - - [5329, 64, 1, 448]
+    - [629, 4602.2]
+  - - [289, 192, 1, 1344]
+    - [681, 3452.59]
+  - - [12544, 1024, 1, 256]
+    - [646, 9742.64]
+  - - [784, 64, 32, 192]
+    - [622, 6844.61]
+  - - [6272, 64, 1, 480]
+    - [630, 5562.24]
+  - - [196, 128, 1, 800]
+    - [672, 1639.74]
+  - - [64, 512, 1, 1344]
+    - [671, 2313.04]
+  - - [6272, 64, 1, 512]
+    - [629, 5609.19]
+  - - [6272, 160, 1, 528]
+    - [630, 6149.7]
+  - - [289, 160, 32, 768]
+    - [657, 6637.82]
+  - - [12544, 256, 1, 1024]
+    - [664, 8790.46]
+  - - [289, 224, 1, 1568]
+    - [684, 3270.17]
+  - - [5329, 64, 32, 160]
+    - [637, 9091.04]
+  - - [5329, 96, 1, 576]
+    - [664, 5555.66]
+  - - [3025, 64, 1, 363]
+    - [682, 4392.3]
+  - - [784, 32, 32, 192]
+    - [653, 5633.8]
+  - - [3136, 512, 1, 1024]
+    - [649, 7553.14]
+  - - [6272, 16, 1, 480]
+    - [684, 3219.85]
+  - - [1225, 64, 32, 288]
+    - [644, 8240.58]
+  - - [64, 256, 1, 1536]
+    - [677, 1456.36]
+  - - [289, 192, 32, 768]
+    - [656, 7372.8]
+  - - [2048, 448, 1, 1280]
+    - [639, 8403.01]
+  - - [3136, 2048, 1, 512]
+    - [638, 9486.31]
+  - - [289, 256, 1, 2016]
+    - [684, 3876.08]
+  - - [289, 384, 32, 1024]
+    - [623, 7350.54]
+  - - [1568, 32, 1, 832]
+    - [673, 2717.87]
+  - - [3136, 64, 32, 64]
+    - [626, 7657.26]
+  - - [289, 160, 1, 1120]
+    - [680, 2826.9]
+  - - [6272, 128, 1, 528]
+    - [634, 6926.26]
+  - - [21609, 32, 1, 288]
+    - [635, 3698.9]
+  - - [1225, 192, 1, 1728]
+    - [668, 7309.81]
+  - - [4096, 512, 1, 4096]
+    - [651, 10272.1]
+  - - [64, 256, 1, 1152]
+    - [677, 1387.82]
+  - - [6272, 96, 1, 480]
+    - [665, 6371.56]
+  - - [784, 96, 1, 800]
+    - [685, 3330.27]
+  - - [2048, 448, 1, 2048]
+    - [639, 8622.65]
+  - - [784, 96, 32, 192]
+    - [654, 7092.36]
+  - - [3136, 64, 64, 256]
+    - [647, 9579.16]
+  - - [289, 224, 1, 1344]
+    - [684, 3180.01]
+  - - [1001, 512, 1, 4096]
+    - [625, 8195.07]
+  - - [2048, 192, 1, 1280]
+    - [630, 6120.09]
+  - - [1225, 64, 32, 256]
+    - [635, 8076.62]
+  - - [2048, 256, 1, 1536]
+    - [625, 8137.7]
+  - - [1225, 64, 1, 1200]
+    - [684, 3552.87]
+  - - [6272, 128, 1, 512]
+    - [638, 6878.21]
+  - - [729, 192, 1, 1600]
+    - [683, 5016.77]
+  - - [289, 192, 1, 896]
+    - [681, 3091.87]
+  - - [1568, 384, 1, 832]
+    - [664, 6934.62]
+  - - [784, 16, 32, 192]
+    - [655, 3380.28]
+  - - [1568, 256, 1, 832]
+    - [629, 5980.86]
+  - - [1568, 48, 1, 832]
+    - [686, 3275.09]
+  - - [1568, 192, 1, 832]
+    - [624, 4441.11]
+  - - [289, 192, 32, 1024]
+    - [627, 6563.06]
+  - - [6272, 32, 1, 528]
+    - [668, 4998.67]
+  - - [49, 128, 1, 1200]
+    - [669, 550.175]
+  - - [1225, 64, 32, 384]
+    - [641, 8589.33]
+  - - [289, 128, 1, 896]
+    - [680, 2103.1]
+  - - [1568, 160, 1, 832]
+    - [668, 6995.05]
+  - - [1001, 32, 1, 1024]
+    - [677, 1744.72]
+  - - [2048, 320, 1, 2048]
+    - [662, 7118.04]
+  - - [2048, 384, 1, 1536]
+    - [625, 8184.01]
+  - - [50176, 512, 1, 256]
+    - [637, 9852.4]
+  - - [289, 256, 1, 1792]
+    - [686, 3809.75]
+  - - [64, 448, 1, 1152]
+    - [678, 2128.23]
+  - - [5041, 96, 1, 576]
+    - [663, 5279.3]
+  - - [6272, 192, 1, 480]
+    - [625, 7479.65]
+  - - [784, 32, 32, 256]
+    - [652, 5708.91]
+  - - [1001, 32, 1, 2048]
+    - [679, 2141.04]
+  - - [289, 192, 1, 1120]
+    - [675, 3277.77]
+  - - [6272, 32, 1, 512]
+    - [667, 4978.7]
+  - - [289, 384, 1, 3456]
+    - [684, 5904.14]
+  - - [289, 384, 1, 2592]
+    - [685, 5707.34]
+  - - [784, 128, 64, 512]
+    - [631, 8864.39]
+  - - [12544, 1024, 1, 512]
+    - [646, 10008.3]
+  - - [12544, 256, 1, 512]
+    - [664, 8628.08]
+  - - [6272, 24, 1, 512]
+    - [668, 3568.07]
+  - - [5041, 192, 1, 720]
+    - [639, 8424.42]
+  - - [64, 320, 1, 1728]
+    - [672, 1469.66]
+  - - [784, 128, 32, 256]
+    - [640, 8104.14]
+  - - [289, 96, 1, 864]
+    - [678, 1838.25]
+  - - [1225, 32, 32, 192]
+    - [659, 5949.72]
+  - - [1568, 128, 1, 832]
+    - [667, 5718.69]
+  - - [289, 128, 32, 768]
+    - [625, 7289.25]
+  - - [3136, 256, 64, 64]
+    - [633, 9103.92]
+  - - [196, 64, 1, 800]
+    - [671, 915.62]
+  - - [4096, 512, 1, 9216]
+    - [648, 10351.4]
+  - - [12544, 64, 1, 147]
+    - [638, 5069.33]
+  - - [784, 32, 1, 400]
+    - [669, 1140.36]
+  - - [6272, 160, 1, 512]
+    - [629, 6140.08]
+  - - [1225, 48, 32, 288]
+    - [635, 5978.61]
+  - - [64, 320, 1, 2880]
+    - [676, 1920.0]
+  - - [1225, 64, 32, 192]
+    - [629, 7641.01]
+  - - [1001, 32, 1, 1536]
+    - [677, 2084.79]
+  - - [784, 64, 32, 256]
+    - [621, 6990.51]
+  - - [64, 384, 1, 1152]
+    - [678, 1862.6]
+  - - [784, 512, 64, 128]
+    - [632, 9025.95]
+  - - [3136, 512, 1, 2048]
+    - [650, 7764.3]
+  - - [6272, 144, 1, 512]
+    - [625, 5574.04]
+  - - [1225, 192, 32, 384]
+    - [639, 9373.83]
+  - - [64, 192, 1, 1728]
+    - [677, 1206.46]
+  - - [8192, 320, 1, 1280]
+    - [691, 9875.92]
+  - - [8192, 320, 1, 2048]
+    - [694, 9745.7]
+  - - [8192, 384, 1, 1280]
+    - [691, 10046.2]
+  - - [8192, 192, 1, 1280]
+    - [694, 9950.9]
+  - - [8192, 192, 1, 2048]
+    - [690, 9559.67]
+  - - [8192, 384, 1, 2048]
+    - [692, 9945.74]
+  - - [8192, 448, 1, 2048]
+    - [693, 9908.51]
+  - - [1001, 64, 1, 1536]
+    - [687, 3649.94]
+  - - [8192, 448, 1, 1280]
+    - [691, 9981.35]
+  - - [1001, 64, 1, 2048]
+    - [688, 3580.87]
+  - - [1001, 128, 1, 2048]
+    - [689, 5587.87]
   - - [704, 1024, 1, 128]
-    - [661, 3019.56]
+    - [797, 3019.56]
   - - [1024, 1024, 1, 3328]
-    - [699, 8162.65]
+    - [835, 8162.65]
   - - [4, 704, 1, 1280]
-    - [602, 319.646]
+    - [738, 319.646]
   - - [4, 1856, 1, 3328]
-    - [632, 550.614]
+    - [768, 550.614]
   - - [1856, 448, 1, 3328]
-    - [684, 6813.15]
+    - [820, 6813.15]
   - - [2944, 4288, 1, 1280]
-    - [693, 8975.86]
+    - [829, 8975.86]
   - - [2368, 64, 1, 3328]
-    - [607, 5482.33]
+    - [743, 5482.33]
   - - [1760, 32, 1, 1760]
-    - [646, 3860.04]
+    - [782, 3860.04]
   - - [2368, 5888, 1, 256]
-    - [690, 8656.83]
+    - [826, 8656.83]
   - - [5888, 1856, 1, 256]
-    - [680, 7881.53]
+    - [816, 7881.53]
   - - [64, 3584, 1, 1280]
-    - [616, 4835.43]
+    - [752, 4835.43]
   - - [512, 24000, 1, 1536]
-    - [687, 8666.0]
+    - [823, 8666.0]
   - - [128, 6784, 1, 3328]
-    - [684, 7062.35]
+    - [820, 7062.35]
   - - [5888, 1408, 1, 256]
-    - [697, 8130.32]
+    - [833, 8130.32]
   - - [5888, 1856, 1, 3328]
-    - [687, 8840.85]
+    - [823, 8840.85]
   - - [512, 4, 1, 512]
-    - [572, 170.323]
+    - [708, 170.323]
   - - [35, 1500, 1, 2560]
-    - [576, 2896.65]
+    - [712, 2896.65]
   - - [1856, 4288, 1, 256]
-    - [676, 8374.73]
+    - [812, 8374.73]
   - - [1024, 5056, 1, 128]
-    - [673, 3304.35]
+    - [809, 3304.35]
   - - [5056, 5056, 1, 3328]
-    - [687, 8905.53]
+    - [823, 8905.53]
   - - [1408, 5888, 1, 1280]
-    - [687, 9418.2]
+    - [823, 9418.2]
   - - [2368, 448, 1, 128]
-    - [661, 3075.07]
+    - [797, 3075.07]
   - - [6144, 6000, 1, 2560]
-    - [687, 9336.43]
+    - [823, 9336.43]
   - - [2368, 6784, 1, 128]
-    - [660, 4919.36]
+    - [796, 4919.36]
   - - [1024, 3584, 1, 3328]
-    - [678, 8071.17]
+    - [814, 8071.17]
   - - [512, 48000, 1, 2048]
-    - [687, 8763.16]
+    - [823, 8763.16]
   - - [1408, 64, 1, 128]
-    - [583, 805.57]
+    - [719, 805.57]
   - - [256, 4288, 1, 3328]
-    - [709, 6331.96]
+    - [845, 6331.96]
   - - [5888, 1408, 1, 1280]
-    - [677, 9226.27]
+    - [813, 9226.27]
   - - [704, 1856, 1, 3328]
-    - [703, 6309.5]
+    - [839, 6309.5]
   - - [1408, 4288, 1, 256]
-    - [687, 8374.6]
+    - [823, 8374.6]
   - - [1024, 2368, 1, 256]
-    - [684, 7341.12]
+    - [820, 7341.12]
   - - [64, 4, 1, 256]
-    - [627, 13.1032]
+    - [763, 13.1032]
   - - [1408, 1856, 1, 1280]
-    - [694, 8773.05]
+    - [830, 8773.05]
   - - [1408, 64, 1, 1280]
-    - [640, 4050.08]
+    - [776, 4050.08]
   - - [448, 1024, 1, 1280]
-    - [703, 6071.26]
+    - [839, 6071.26]
   - - [4096, 32, 1, 4096]
-    - [637, 5491.82]
+    - [773, 5491.82]
   - - [256, 1408, 1, 3328]
-    - [689, 5351.49]
+    - [825, 5351.49]
   - - [5056, 5056, 1, 1280]
-    - [697, 9408.67]
+    - [833, 9408.67]
   - - [448, 5056, 1, 256]
-    - [702, 6680.54]
+    - [838, 6680.54]
   - - [704, 1856, 1, 1280]
-    - [679, 7504.03]
+    - [815, 7504.03]
   - - [128, 5056, 1, 128]
-    - [594, 2316.58]
+    - [730, 2316.58]
   - - [2368, 128, 1, 256]
-    - [679, 3660.22]
+    - [815, 3660.22]
   - - [1856, 1408, 1, 128]
-    - [666, 3885.97]
+    - [802, 3885.97]
   - - [64, 5056, 1, 256]
-    - [689, 3318.91]
+    - [825, 3318.91]
   - - [6784, 256, 1, 3328]
-    - [687, 7590.64]
+    - [823, 7590.64]
   - - [1408, 3584, 1, 256]
-    - [676, 8276.92]
+    - [812, 8276.92]
   - - [4288, 448, 1, 256]
-    - [689, 7139.79]
+    - [825, 7139.79]
   - - [64, 704, 1, 128]
-    - [590, 375.567]
+    - [726, 375.567]
   - - [1024, 1856, 1, 128]
-    - [659, 2890.66]
+    - [795, 2890.66]
   - - [4288, 2944, 1, 1280]
-    - [693, 8981.45]
+    - [829, 8981.45]
   - - [704, 5056, 1, 1280]
-    - [679, 7684.72]
+    - [815, 7684.72]
   - - [2368, 704, 1, 3328]
-    - [694, 7070.14]
+    - [830, 7070.14]
   - - [256, 5888, 1, 256]
-    - [679, 7319.45]
+    - [815, 7319.45]
   - - [1856, 4288, 1, 3328]
-    - [677, 9238.69]
+    - [813, 9238.69]
   - - [256, 2944, 1, 256]
-    - [679, 6090.31]
+    - [815, 6090.31]
   - - [5888, 1024, 1, 256]
-    - [683, 8270.05]
+    - [819, 8270.05]
   - - [448, 64, 1, 1280]
-    - [636, 2493.32]
+    - [772, 2493.32]
   - - [3072, 64, 1, 1024]
-    - [619, 3149.77]
+    - [755, 3149.77]
   - - [3584, 4, 1, 1280]
-    - [721, 567.862]
+    - [857, 567.862]
   - - [2560, 16, 1, 2560]
-    - [628, 2887.15]
+    - [764, 2887.15]
   - - [2944, 64, 1, 256]
-    - [619, 2565.76]
+    - [755, 2565.76]
   - - [128, 4, 1, 1280]
-    - [722, 78.8692]
+    - [858, 78.8692]
   - - [1408, 2944, 1, 256]
-    - [683, 8337.3]
+    - [819, 8337.3]
   - - [256, 1856, 1, 1280]
-    - [709, 6267.35]
+    - [845, 6267.35]
   - - [6784, 5056, 1, 3328]
-    - [693, 9424.0]
+    - [829, 9424.0]
   - - [5056, 5056, 1, 256]
-    - [680, 8758.33]
+    - [816, 8758.33]
   - - [128, 256, 1, 256]
-    - [635, 1205.36]
+    - [771, 1205.36]
   - - [64, 1024, 1, 1280]
-    - [646, 3566.68]
+    - [782, 3566.68]
   - - [2944, 4, 1, 256]
-    - [599, 319.449]
+    - [735, 319.449]
   - - [704, 5056, 1, 128]
-    - [668, 4073.83]
+    - [804, 4073.83]
   - - [4, 2368, 1, 1280]
-    - [627, 496.992]
+    - [763, 496.992]
   - - [2368, 2944, 1, 1280]
-    - [676, 9085.55]
+    - [812, 9085.55]
   - - [448, 448, 1, 3328]
-    - [654, 5428.76]
+    - [790, 5428.76]
   - - [6784, 6784, 1, 1280]
-    - [693, 8727.03]
+    - [829, 8727.03]
   - - [1024, 256, 1, 3328]
-    - [703, 5499.42]
+    - [839, 5499.42]
   - - [1408, 4288, 1, 1280]
-    - [677, 9094.42]
+    - [813, 9094.42]
   - - [3584, 4288, 1, 1280]
-    - [680, 8703.88]
+    - [816, 8703.88]
   - - [512, 6000, 1, 2560]
-    - [683, 8474.56]
+    - [819, 8474.56]
   - - [2368, 704, 1, 1280]
-    - [689, 7651.59]
+    - [825, 7651.59]
   - - [5056, 4288, 1, 3328]
-    - [697, 8545.35]
+    - [833, 8545.35]
   - - [3584, 2368, 1, 3328]
-    - [685, 8797.88]
+    - [821, 8797.88]
   - - [5888, 6784, 1, 1280]
-    - [683, 8785.18]
+    - [819, 8785.18]
   - - [64, 704, 1, 1280]
-    - [606, 2783.48]
+    - [742, 2783.48]
   - - [4288, 256, 1, 256]
-    - [679, 6162.78]
+    - [815, 6162.78]
   - - [2944, 128, 1, 128]
-    - [581, 1951.33]
+    - [717, 1951.33]
   - - [6144, 32, 1, 2560]
-    - [640, 4589.05]
+    - [776, 4589.05]
   - - [6784, 448, 1, 1280]
-    - [684, 8674.31]
+    - [820, 8674.31]
   - - [2944, 5888, 1, 256]
-    - [697, 8991.76]
+    - [833, 8991.76]
   - - [64, 64, 1, 1280]
-    - [657, 712.448]
+    - [793, 712.448]
   - - [4288, 2944, 1, 256]
-    - [693, 8678.14]
+    - [829, 8678.14]
   - - [5888, 704, 1, 1280]
-    - [683, 8652.71]
+    - [819, 8652.71]
   - - [5056, 4, 1, 3328]
-    - [599, 650.772]
+    - [735, 650.772]
   - - [1856, 64, 1, 1280]
-    - [616, 4471.97]
+    - [752, 4471.97]
   - - [1760, 16, 1, 1760]
-    - [656, 2592.23]
+    - [792, 2592.23]
   - - [448, 5888, 1, 128]
-    - [666, 3823.03]
+    - [802, 3823.03]
   - - [5888, 64, 1, 3328]
-    - [648, 6013.22]
+    - [784, 6013.22]
   - - [2944, 256, 1, 3328]
-    - [689, 7791.45]
+    - [825, 7791.45]
   - - [1024, 64, 1, 128]
-    - [590, 592.516]
+    - [726, 592.516]
   - - [5056, 2368, 1, 1280]
-    - [676, 9260.53]
+    - [812, 9260.53]
   - - [448, 3584, 1, 1280]
-    - [697, 6771.34]
+    - [833, 6771.34]
   - - [6784, 5888, 1, 256]
-    - [691, 7933.39]
+    - [827, 7933.39]
   - - [64, 1024, 1, 3328]
-    - [640, 4783.08]
+    - [776, 4783.08]
   - - [704, 128, 1, 1280]
-    - [646, 3971.98]
+    - [782, 3971.98]
   - - [4, 3584, 1, 128]
-    - [715, 59.5238]
+    - [851, 59.5238]
   - - [1408, 448, 1, 1280]
-    - [689, 5902.17]
+    - [825, 5902.17]
   - - [1024, 1408, 1, 256]
-    - [684, 5272.94]
+    - [820, 5272.94]
   - - [2368, 2368, 1, 3328]
-    - [689, 8488.76]
+    - [825, 8488.76]
   - - [1856, 6784, 1, 128]
-    - [666, 4742.51]
+    - [802, 4742.51]
   - - [5056, 704, 1, 3328]
-    - [692, 7772.48]
+    - [828, 7772.48]
   - - [1408, 1856, 1, 256]
-    - [710, 5229.84]
+    - [846, 5229.84]
   - - [1408, 704, 1, 3328]
-    - [710, 6954.93]
+    - [846, 6954.93]
   - - [2368, 5056, 1, 256]
-    - [683, 8580.68]
+    - [819, 8580.68]
   - - [1408, 256, 1, 1280]
-    - [709, 4790.11]
+    - [845, 4790.11]
   - - [3072, 128, 1, 1024]
-    - [705, 4579.87]
+    - [841, 4579.87]
   - - [3584, 2368, 1, 1280]
-    - [676, 8675.13]
+    - [812, 8675.13]
   - - [4288, 64, 1, 3328]
-    - [655, 5550.11]
+    - [791, 5550.11]
   - - [2368, 4, 1, 1280]
-    - [721, 537.518]
+    - [857, 537.518]
   - - [704, 5888, 1, 256]
-    - [677, 5305.88]
+    - [813, 5305.88]
   - - [6784, 2944, 1, 128]
-    - [673, 4344.21]
+    - [809, 4344.21]
   - - [6784, 64, 1, 256]
-    - [703, 4496.42]
+    - [839, 4496.42]
   - - [2944, 256, 1, 256]
-    - [689, 6553.7]
+    - [825, 6553.7]
   - - [2944, 6784, 1, 3328]
-    - [677, 8895.76]
+    - [813, 8895.76]
   - - [128, 1, 1, 1408]
-    - [657, 25.7]
+    - [793, 25.7]
   - - [704, 1408, 1, 3328]
-    - [691, 7913.21]
+    - [827, 7913.21]
   - - [3584, 704, 1, 3328]
-    - [676, 7526.43]
+    - [812, 7526.43]
   - - [2944, 256, 1, 128]
-    - [660, 2830.76]
+    - [796, 2830.76]
   - - [6784, 4, 1, 1280]
-    - [717, 645.235]
+    - [853, 645.235]
   - - [1024, 64, 1, 1280]
-    - [615, 3013.25]
+    - [751, 3013.25]
   - - [8448, 4, 1, 2816]
-    - [567, 984.768]
+    - [703, 984.768]
   - - [448, 4288, 1, 256]
-    - [689, 7139.79]
+    - [825, 7139.79]
   - - [64, 3584, 1, 3328]
-    - [613, 5683.27]
+    - [749, 5683.27]
   - - [704, 2368, 1, 1280]
-    - [697, 7045.3]
+    - [833, 7045.3]
   - - [1856, 2368, 1, 1280]
-    - [694, 8327.9]
+    - [830, 8327.9]
   - - [2368, 128, 1, 3328]
-    - [630, 6082.65]
+    - [766, 6082.65]
   - - [64, 193600, 1, 64]
-    - [679, 6747.77]
+    - [815, 6747.77]
   - - [1760, 128, 1, 1760]
-    - [607, 5513.07]
+    - [743, 5513.07]
   - - [448, 1408, 1, 256]
-    - [689, 5591.54]
+    - [825, 5591.54]
   - - [1856, 4288, 1, 1280]
-    - [687, 8647.72]
+    - [823, 8647.72]
   - - [64, 5056, 1, 3328]
-    - [647, 6096.59]
+    - [783, 6096.59]
   - - [512, 1500, 1, 2816]
-    - [689, 7879.3]
+    - [825, 7879.3]
   - - [1024, 448, 1, 128]
-    - [661, 1844.33]
+    - [797, 1844.33]
   - - [704, 4, 1, 1280]
-    - [627, 341.433]
+    - [763, 341.433]
   - - [704, 256, 1, 128]
-    - [661, 1001.34]
+    - [797, 1001.34]
   - - [256, 193600, 1, 64]
-    - [697, 8113.3]
+    - [833, 8113.3]
   - - [704, 2944, 1, 128]
-    - [668, 3747.13]
+    - [804, 3747.13]
   - - [1408, 1024, 1, 1280]
-    - [694, 7080.71]
+    - [830, 7080.71]
   - - [704, 6784, 1, 256]
-    - [712, 6630.47]
+    - [848, 6630.47]
   - - [6784, 704, 1, 256]
-    - [679, 8005.86]
+    - [815, 8005.86]
   - - [5056, 1408, 1, 128]
-    - [670, 4303.13]
+    - [806, 4303.13]
   - - [2048, 7000, 1, 2048]
-    - [687, 9269.2]
+    - [823, 9269.2]
   - - [256, 3584, 1, 3328]
-    - [681, 7334.48]
+    - [817, 7334.48]
   - - [5056, 704, 1, 256]
-    - [689, 7954.12]
+    - [825, 7954.12]
   - - [128, 1408, 1, 128]
-    - [584, 1243.02]
+    - [720, 1243.02]
   - - [3584, 4288, 1, 3328]
-    - [713, 7683.81]
+    - [849, 7683.81]
   - - [5888, 1856, 1, 1280]
-    - [677, 8831.34]
+    - [813, 8831.34]
   - - [256, 1408, 1, 256]
-    - [679, 4352.68]
+    - [815, 4352.68]
   - - [5056, 64, 1, 1280]
-    - [646, 5012.05]
+    - [782, 5012.05]
   - - [1024, 704, 1, 256]
-    - [679, 5710.17]
+    - [815, 5710.17]
   - - [64, 256, 1, 128]
-    - [585, 149.897]
+    - [721, 149.897]
   - - [2368, 3584, 1, 1280]
-    - [687, 8609.68]
+    - [823, 8609.68]
   - - [1024, 256, 1, 256]
-    - [703, 3276.9]
+    - [839, 3276.9]
   - - [1856, 4, 1, 1280]
-    - [601, 497.104]
+    - [737, 497.104]
   - - [448, 448, 1, 256]
-    - [689, 3117.83]
+    - [825, 3117.83]
   - - [2944, 3584, 1, 3328]
-    - [677, 8879.45]
+    - [813, 8879.45]
   - - [7680, 32, 1, 2560]
-    - [647, 5310.24]
+    - [783, 5310.24]
   - - [128, 4288, 1, 128]
-    - [587, 2116.2]
+    - [723, 2116.2]
   - - [256, 256, 1, 3328]
-    - [640, 4774.7]
+    - [776, 4774.7]
   - - [128, 1024, 1, 3328]
-    - [641, 5894.8]
+    - [777, 5894.8]
   - - [4, 1408, 1, 3328]
-    - [632, 552.674]
+    - [768, 552.674]
   - - [196, 256, 64, 1024]
-    - [730, 5218.34]
+    - [866, 5218.34]
   - - [6784, 2944, 1, 256]
-    - [695, 8271.18]
+    - [831, 8271.18]
   - - [64, 1856, 1, 1280]
-    - [646, 4167.96]
+    - [782, 4167.96]
   - - [64, 1024, 1, 128]
-    - [580, 589.188]
+    - [716, 589.188]
   - - [1024, 1500, 1, 2560]
-    - [684, 8407.88]
+    - [820, 8407.88]
   - - [1856, 2368, 1, 256]
-    - [679, 8092.15]
+    - [815, 8092.15]
   - - [3584, 256, 1, 128]
-    - [662, 2607.57]
+    - [798, 2607.57]
   - - [3584, 6784, 1, 3328]
-    - [696, 8558.83]
+    - [832, 8558.83]
   - - [256, 1024, 1, 256]
-    - [689, 3901.78]
+    - [825, 3901.78]
   - - [4, 6784, 1, 3328]
-    - [627, 662.575]
+    - [763, 662.575]
   - - [1024, 5888, 1, 3328]
-    - [687, 9161.76]
+    - [823, 9161.76]
   - - [1024, 128, 1, 1280]
-    - [644, 3942.12]
+    - [780, 3942.12]
   - - [3072, 32, 1, 1024]
-    - [621, 2840.49]
+    - [757, 2840.49]
   - - [6144, 24000, 1, 2560]
-    - [677, 7605.87]
+    - [813, 7605.87]
   - - [448, 1024, 1, 256]
-    - [679, 5062.19]
+    - [815, 5062.19]
   - - [5056, 4288, 1, 1280]
-    - [687, 9090.99]
+    - [823, 9090.99]
   - - [5888, 64, 1, 256]
-    - [689, 4449.78]
+    - [825, 4449.78]
   - - [1856, 256, 1, 1280]
-    - [703, 5834.46]
+    - [839, 5834.46]
   - - [64, 5888, 1, 3328]
-    - [641, 6152.44]
+    - [777, 6152.44]
   - - [2368, 2368, 1, 1280]
-    - [681, 8594.66]
+    - [817, 8594.66]
   - - [2944, 5888, 1, 128]
-    - [666, 4776.19]
+    - [802, 4776.19]
   - - [704, 5888, 1, 1280]
-    - [681, 8435.91]
+    - [817, 8435.91]
   - - [2368, 3584, 1, 128]
-    - [663, 4590.71]
+    - [799, 4590.71]
   - - [1856, 5056, 1, 128]
-    - [674, 4503.48]
+    - [810, 4503.48]
   - - [4608, 1, 1, 1536]
-    - [572, 226.955]
+    - [708, 226.955]
   - - [448, 256, 1, 3328]
-    - [616, 5415.56]
+    - [752, 5415.56]
   - - [2944, 6784, 1, 1280]
-    - [700, 8385.11]
+    - [836, 8385.11]
   - - [448, 1856, 1, 128]
-    - [670, 2618.96]
+    - [806, 2618.96]
   - - [128, 1024, 1, 128]
-    - [579, 940.527]
+    - [715, 940.527]
   - - [7680, 4, 1, 2560]
-    - [603, 985.104]
+    - [739, 985.104]
   - - [1024, 704, 1, 1280]
-    - [689, 7204.56]
+    - [825, 7204.56]
   - - [128, 5888, 1, 256]
-    - [679, 6313.52]
+    - [815, 6313.52]
   - - [1024, 5056, 1, 1280]
-    - [684, 8979.76]
+    - [820, 8979.76]
   - - [4288, 1024, 1, 256]
-    - [676, 7198.29]
+    - [812, 7198.29]
   - - [2944, 2368, 1, 128]
-    - [661, 4624.57]
+    - [797, 4624.57]
   - - [704, 704, 1, 3328]
-    - [702, 5870.71]
+    - [838, 5870.71]
   - - [704, 1408, 1, 1280]
-    - [691, 7680.32]
+    - [827, 7680.32]
   - - [5888, 448, 1, 1280]
-    - [679, 7718.66]
+    - [815, 7718.66]
   - - [3584, 256, 1, 3328]
-    - [684, 7523.88]
+    - [820, 7523.88]
   - - [704, 5888, 1, 3328]
-    - [689, 8196.99]
+    - [825, 8196.99]
   - - [704, 1856, 1, 128]
-    - [667, 3388.43]
+    - [803, 3388.43]
   - - [128, 3584, 1, 3328]
-    - [641, 6626.5]
+    - [777, 6626.5]
   - - [4, 4288, 1, 128]
-    - [714, 159.648]
+    - [850, 159.648]
   - - [128, 704, 1, 1280]
-    - [604, 4038.73]
+    - [740, 4038.73]
   - - [3584, 2944, 1, 256]
-    - [677, 7685.99]
+    - [813, 7685.99]
   - - [1856, 128, 1, 3328]
-    - [633, 6070.63]
+    - [769, 6070.63]
   - - [1856, 2368, 1, 3328]
-    - [694, 8460.62]
+    - [830, 8460.62]
   - - [512, 6000, 1, 2816]
-    - [697, 9019.55]
+    - [833, 9019.55]
   - - [2944, 448, 1, 128]
-    - [660, 3027.73]
+    - [796, 3027.73]
   - - [64, 193600, 1, 256]
-    - [703, 7080.32]
+    - [839, 7080.32]
   - - [128, 2944, 1, 1280]
-    - [679, 5397.87]
+    - [815, 5397.87]
   - - [448, 2944, 1, 1280]
-    - [689, 6996.97]
+    - [825, 6996.97]
   - - [512, 24000, 1, 2048]
-    - [697, 8832.67]
+    - [833, 8832.67]
   - - [128, 256, 1, 3328]
-    - [636, 3531.57]
+    - [772, 3531.57]
   - - [1408, 5056, 1, 3328]
-    - [692, 7969.94]
+    - [828, 7969.94]
   - - [1856, 1856, 1, 3328]
-    - [679, 8140.34]
+    - [815, 8140.34]
   - - [3584, 128, 1, 256]
-    - [689, 4861.05]
+    - [825, 4861.05]
   - - [448, 1408, 1, 3328]
-    - [679, 6353.75]
+    - [815, 6353.75]
   - - [2368, 2368, 1, 256]
-    - [693, 8369.37]
+    - [829, 8369.37]
   - - [4288, 4288, 1, 1280]
-    - [683, 8666.52]
+    - [819, 8666.52]
   - - [64, 448, 1, 1280]
-    - [636, 2591.92]
+    - [772, 2591.92]
   - - [5888, 1024, 1, 1280]
-    - [676, 8526.6]
+    - [812, 8526.6]
   - - [704, 1024, 1, 256]
-    - [689, 4971.8]
+    - [825, 4971.8]
   - - [1024, 12544, 1, 256]
-    - [727, 8611.9]
+    - [863, 8611.9]
   - - [448, 4, 1, 256]
-    - [632, 78.6534]
+    - [768, 78.6534]
   - - [5888, 448, 1, 128]
-    - [663, 3592.03]
+    - [799, 3592.03]
   - - [512, 48000, 1, 2560]
-    - [697, 9237.44]
+    - [833, 9237.44]
   - - [8448, 16, 1, 2816]
-    - [562, 3360.21]
+    - [698, 3360.21]
   - - [704, 6784, 1, 3328]
-    - [698, 7774.95]
+    - [834, 7774.95]
   - - [5888, 5888, 1, 1280]
-    - [684, 9238.25]
+    - [820, 9238.25]
   - - [5056, 1024, 1, 1280]
-    - [712, 8227.88]
+    - [848, 8227.88]
   - - [448, 5888, 1, 3328]
-    - [687, 7777.63]
+    - [823, 7777.63]
   - - [3072, 2, 1, 1024]
-    - [624, 376.383]
+    - [760, 376.383]
   - - [1024, 2944, 1, 1280]
-    - [677, 8650.45]
+    - [813, 8650.45]
   - - [5056, 5888, 1, 1280]
-    - [687, 8861.6]
+    - [823, 8861.6]
   - - [4288, 5888, 1, 128]
-    - [667, 5049.01]
+    - [803, 5049.01]
   - - [256, 3584, 1, 256]
-    - [679, 6314.11]
+    - [815, 6314.11]
   - - [256, 4, 1, 1280]
-    - [723, 163.94]
+    - [859, 163.94]
   - - [1408, 3584, 1, 128]
-    - [667, 4290.22]
+    - [803, 4290.22]
   - - [256, 2944, 1, 3328]
-    - [689, 7620.99]
+    - [825, 7620.99]
   - - [448, 3584, 1, 128]
-    - [667, 3353.9]
+    - [803, 3353.9]
   - - [5888, 2944, 1, 1280]
-    - [677, 9498.31]
+    - [813, 9498.31]
   - - [4, 6784, 1, 1280]
-    - [627, 623.916]
+    - [763, 623.916]
   - - [2368, 5888, 1, 128]
-    - [666, 4840.29]
+    - [802, 4840.29]
   - - [35, 8457, 1, 1760]
-    - [573, 4059.88]
+    - [709, 4059.88]
   - - [64, 2944, 1, 128]
-    - [584, 1310.82]
+    - [720, 1310.82]
   - - [2368, 4, 1, 256]
-    - [718, 369.739]
+    - [854, 369.739]
   - - [3584, 5888, 1, 256]
-    - [695, 7996.33]
+    - [831, 7996.33]
   - - [2368, 1024, 1, 128]
-    - [661, 3915.07]
+    - [797, 3915.07]
   - - [2368, 704, 1, 128]
-    - [661, 3658.97]
+    - [797, 3658.97]
   - - [512, 32, 1, 512]
-    - [650, 1127.6]
+    - [786, 1127.6]
   - - [3584, 2368, 1, 128]
-    - [661, 4462.48]
+    - [797, 4462.48]
   - - [5056, 704, 1, 128]
-    - [660, 4062.21]
+    - [796, 4062.21]
   - - [448, 2368, 1, 128]
-    - [661, 2829.07]
+    - [797, 2829.07]
   - - [4, 5056, 1, 256]
-    - [609, 425.868]
+    - [745, 425.868]
   - - [5056, 1408, 1, 3328]
-    - [694, 8848.92]
+    - [830, 8848.92]
   - - [1408, 704, 1, 256]
-    - [689, 5394.56]
+    - [825, 5394.56]
   - - [6784, 1024, 1, 3328]
-    - [676, 9232.02]
+    - [812, 9232.02]
   - - [6784, 2944, 1, 3328]
-    - [687, 8714.84]
+    - [823, 8714.84]
   - - [7680, 1, 1, 2560]
-    - [623, 248.845]
+    - [759, 248.845]
   - - [1856, 1856, 1, 256]
-    - [688, 7586.58]
+    - [824, 7586.58]
   - - [64, 64, 1, 3328]
-    - [658, 1363.25]
+    - [794, 1363.25]
   - - [512, 1, 1, 512]
-    - [572, 43.2158]
+    - [708, 43.2158]
   - - [6784, 2368, 1, 1280]
-    - [689, 8665.74]
+    - [825, 8665.74]
   - - [4608, 2, 1, 1536]
-    - [572, 452.65]
+    - [708, 452.65]
   - - [4288, 3584, 1, 256]
-    - [697, 8936.7]
+    - [833, 8936.7]
   - - [4288, 5888, 1, 1280]
-    - [694, 8957.15]
+    - [830, 8957.15]
   - - [4608, 4, 1, 1536]
-    - [565, 846.737]
+    - [701, 846.737]
   - - [1024, 6000, 1, 1536]
-    - [687, 8398.54]
+    - [823, 8398.54]
   - - [8448, 32, 1, 2816]
-    - [647, 5343.07]
+    - [783, 5343.07]
   - - [448, 2944, 1, 3328]
-    - [694, 7247.04]
+    - [830, 7247.04]
   - - [4288, 1856, 1, 1280]
-    - [677, 8902.86]
+    - [813, 8902.86]
   - - [1856, 2944, 1, 3328]
-    - [689, 8622.86]
+    - [825, 8622.86]
   - - [256, 6784, 1, 3328]
-    - [689, 8050.77]
+    - [825, 8050.77]
   - - [512, 3000, 1, 1536]
-    - [710, 7108.12]
+    - [846, 7108.12]
   - - [64, 5888, 1, 256]
-    - [702, 3567.74]
+    - [838, 3567.74]
   - - [256, 5056, 1, 128]
-    - [669, 3041.12]
+    - [805, 3041.12]
   - - [5056, 1024, 1, 256]
-    - [693, 8401.47]
+    - [829, 8401.47]
   - - [704, 64, 1, 3328]
-    - [652, 4299.02]
+    - [788, 4299.02]
   - - [5056, 1856, 1, 3328]
-    - [697, 8660.77]
+    - [833, 8660.77]
   - - [4, 2944, 1, 3328]
-    - [627, 618.637]
+    - [763, 618.637]
   - - [512, 1500, 1, 2048]
-    - [709, 5481.22]
+    - [845, 5481.22]
   - - [1024, 1, 1, 500000]
-    - [563, 260.061]
+    - [699, 260.061]
   - - [256, 4, 1, 256]
-    - [627, 50.5123]
+    - [763, 50.5123]
   - - [6784, 128, 1, 3328]
-    - [681, 6950.91]
+    - [817, 6950.91]
   - - [4288, 1408, 1, 128]
-    - [661, 4539.58]
+    - [797, 4539.58]
   - - [1856, 5888, 1, 3328]
-    - [687, 8712.93]
+    - [823, 8712.93]
   - - [4288, 5056, 1, 256]
-    - [693, 8997.15]
+    - [829, 8997.15]
   - - [1408, 128, 1, 1280]
-    - [616, 4599.12]
+    - [752, 4599.12]
   - - [4096, 7000, 1, 4096]
-    - [683, 8555.89]
+    - [819, 8555.89]
   - - [5056, 256, 1, 3328]
-    - [689, 8257.16]
+    - [825, 8257.16]
   - - [704, 704, 1, 256]
-    - [679, 5852.39]
+    - [815, 5852.39]
   - - [1024, 3000, 1, 2560]
-    - [676, 8258.84]
+    - [812, 8258.84]
   - - [1024, 5888, 1, 1280]
-    - [676, 8988.99]
+    - [812, 8988.99]
   - - [6784, 2368, 1, 128]
-    - [662, 4562.25]
+    - [798, 4562.25]
   - - [4, 5056, 1, 1280]
-    - [627, 600.441]
+    - [763, 600.441]
   - - [256, 64, 1, 1280]
-    - [650, 1899.69]
+    - [786, 1899.69]
   - - [128, 1856, 1, 1280]
-    - [689, 5185.76]
+    - [825, 5185.76]
   - - [1856, 1024, 1, 1280]
-    - [694, 7875.95]
+    - [830, 7875.95]
   - - [6784, 4288, 1, 1280]
-    - [697, 8981.18]
+    - [833, 8981.18]
   - - [1856, 1856, 1, 1280]
-    - [678, 7794.71]
+    - [814, 7794.71]
   - - [35, 1500, 1, 2048]
-    - [578, 2192.6]
+    - [714, 2192.6]
   - - [3072, 24000, 1, 1024]
-    - [690, 8690.58]
+    - [826, 8690.58]
   - - [1408, 5056, 1, 1280]
-    - [689, 8427.87]
+    - [825, 8427.87]
   - - [4, 2368, 1, 3328]
-    - [632, 594.422]
+    - [768, 594.422]
   - - [5888, 1856, 1, 128]
-    - [661, 4294.05]
+    - [797, 4294.05]
   - - [448, 704, 1, 1280]
-    - [684, 4136.39]
+    - [820, 4136.39]
   - - [448, 6784, 1, 128]
-    - [662, 3976.2]
+    - [798, 3976.2]
   - - [1024, 448, 1, 3328]
-    - [694, 6376.33]
+    - [830, 6376.33]
   - - [2944, 128, 1, 256]
-    - [679, 4466.26]
+    - [815, 4466.26]
   - - [5056, 3584, 1, 128]
-    - [667, 4997.18]
+    - [803, 4997.18]
   - - [5888, 5888, 1, 3328]
-    - [697, 8870.37]
+    - [833, 8870.37]
   - - [6784, 1024, 1, 256]
-    - [676, 8520.53]
+    - [812, 8520.53]
   - - [2944, 2368, 1, 256]
-    - [713, 6174.59]
+    - [849, 6174.59]
   - - [256, 448, 1, 256]
-    - [689, 1844.33]
+    - [825, 1844.33]
   - - [5056, 5888, 1, 3328]
-    - [678, 8076.65]
+    - [814, 8076.65]
   - - [1856, 1024, 1, 256]
-    - [689, 7188.92]
+    - [825, 7188.92]
   - - [512, 48000, 1, 1536]
-    - [700, 7282.2]
+    - [836, 7282.2]
   - - [3584, 448, 1, 1280]
-    - [679, 6869.1]
+    - [815, 6869.1]
   - - [1024, 1024, 1, 1280]
-    - [689, 8027.45]
+    - [825, 8027.45]
   - - [448, 5888, 1, 256]
-    - [679, 5765.84]
+    - [815, 5765.84]
   - - [2048, 128, 1, 2048]
-    - [637, 4835.01]
+    - [773, 4835.01]
   - - [1408, 6784, 1, 3328]
-    - [689, 8613.76]
+    - [825, 8613.76]
   - - [448, 1024, 1, 128]
-    - [660, 2315.57]
+    - [796, 2315.57]
   - - [4288, 704, 1, 128]
-    - [661, 4138.92]
+    - [797, 4138.92]
   - - [128, 1856, 1, 128]
-    - [596, 1397.56]
+    - [732, 1397.56]
   - - [448, 2368, 1, 3328]
-    - [679, 6786.48]
+    - [815, 6786.48]
   - - [5056, 64, 1, 128]
-    - [661, 1664.84]
+    - [797, 1664.84]
   - - [5056, 2944, 1, 256]
-    - [712, 7697.49]
+    - [848, 7697.49]
   - - [6784, 5888, 1, 128]
-    - [661, 5003.67]
+    - [797, 5003.67]
   - - [1024, 700, 1, 512]
-    - [689, 6036.31]
+    - [825, 6036.31]
   - - [3072, 1, 1, 128]
-    - [643, 70.3171]
+    - [779, 70.3171]
   - - [1024, 4, 1, 256]
-    - [601, 154.302]
+    - [737, 154.302]
   - - [2944, 704, 1, 128]
-    - [667, 3697.0]
+    - [803, 3697.0]
   - - [128, 6784, 1, 1280]
-    - [679, 6731.51]
+    - [815, 6731.51]
   - - [1408, 3584, 1, 3328]
-    - [677, 9258.07]
+    - [813, 9258.07]
   - - [2368, 6784, 1, 256]
-    - [676, 8840.4]
+    - [812, 8840.4]
   - - [5056, 1408, 1, 1280]
-    - [677, 9240.84]
+    - [813, 9240.84]
   - - [5056, 4288, 1, 128]
-    - [672, 4309.18]
+    - [808, 4309.18]
   - - [4, 704, 1, 256]
-    - [627, 130.697]
+    - [763, 130.697]
   - - [4288, 2368, 1, 3328]
-    - [690, 8755.33]
+    - [826, 8755.33]
   - - [1408, 1856, 1, 128]
-    - [660, 3918.75]
+    - [796, 3918.75]
   - - [1408, 5888, 1, 3328]
-    - [697, 8910.47]
+    - [833, 8910.47]
   - - [1856, 256, 1, 256]
-    - [679, 5631.34]
+    - [815, 5631.34]
   - - [6784, 6784, 1, 256]
-    - [687, 9298.76]
+    - [823, 9298.76]
   - - [5888, 5056, 1, 128]
-    - [662, 4811.36]
+    - [798, 4811.36]
   - - [4288, 2368, 1, 128]
-    - [661, 4749.1]
+    - [797, 4749.1]
   - - [128, 5888, 1, 1280]
-    - [688, 6393.86]
+    - [824, 6393.86]
   - - [256, 4288, 1, 1280]
-    - [679, 6887.79]
+    - [815, 6887.79]
   - - [2368, 2944, 1, 256]
-    - [693, 8314.82]
+    - [829, 8314.82]
   - - [4, 1856, 1, 256]
-    - [716, 267.03]
+    - [852, 267.03]
   - - [3584, 1856, 1, 1280]
-    - [677, 8631.91]
+    - [813, 8631.91]
   - - [6784, 6784, 1, 128]
-    - [667, 5059.96]
+    - [803, 5059.96]
   - - [256, 1856, 1, 128]
-    - [660, 1858.82]
+    - [796, 1858.82]
   - - [49, 512, 64, 2048]
-    - [731, 3053.67]
+    - [867, 3053.67]
   - - [704, 64, 1, 1280]
-    - [610, 2849.49]
+    - [746, 2849.49]
   - - [5888, 5056, 1, 256]
-    - [696, 8202.52]
+    - [832, 8202.52]
   - - [8448, 48000, 1, 2816]
-    - [687, 4281.94]
+    - [823, 4281.94]
   - - [512, 6000, 1, 2048]
-    - [679, 8047.89]
+    - [815, 8047.89]
   - - [3584, 448, 1, 256]
-    - [689, 6805.43]
+    - [825, 6805.43]
   - - [448, 4288, 1, 128]
-    - [667, 3500.83]
+    - [803, 3500.83]
   - - [7680, 64, 1, 2560]
-    - [622, 5957.9]
+    - [758, 5957.9]
   - - [256, 6784, 1, 256]
-    - [689, 7331.83]
+    - [825, 7331.83]
   - - [1408, 4288, 1, 128]
-    - [661, 4501.49]
+    - [797, 4501.49]
   - - [2944, 704, 1, 3328]
-    - [689, 8439.7]
+    - [825, 8439.7]
   - - [128, 448, 1, 256]
-    - [610, 1555.19]
+    - [746, 1555.19]
   - - [2048, 32, 1, 2048]
-    - [621, 3226.49]
+    - [757, 3226.49]
   - - [3584, 3584, 1, 256]
-    - [693, 8784.9]
+    - [829, 8784.9]
   - - [448, 1408, 1, 128]
-    - [660, 2535.92]
+    - [796, 2535.92]
   - - [128, 256, 1, 1280]
-    - [636, 2896.72]
+    - [772, 2896.72]
   - - [3584, 5056, 1, 256]
-    - [680, 8566.52]
+    - [816, 8566.52]
   - - [6784, 128, 1, 256]
-    - [679, 6053.97]
+    - [815, 6053.97]
   - - [4288, 4, 1, 256]
-    - [599, 428.9]
+    - [735, 428.9]
   - - [64, 1408, 1, 3328]
-    - [604, 5025.11]
+    - [740, 5025.11]
   - - [704, 448, 1, 256]
-    - [703, 3409.74]
+    - [839, 3409.74]
   - - [2944, 2368, 1, 1280]
-    - [677, 9066.35]
+    - [813, 9066.35]
   - - [448, 64, 1, 3328]
-    - [652, 3528.96]
+    - [788, 3528.96]
   - - [704, 6784, 1, 128]
-    - [666, 4212.61]
+    - [802, 4212.61]
   - - [3584, 4, 1, 3328]
-    - [719, 658.353]
+    - [855, 658.353]
   - - [6784, 3584, 1, 256]
-    - [687, 9061.84]
+    - [823, 9061.84]
   - - [704, 448, 1, 128]
-    - [666, 1552.8]
+    - [802, 1552.8]
   - - [256, 128, 1, 128]
-    - [591, 281.975]
+    - [727, 281.975]
   - - [704, 1408, 1, 128]
-    - [666, 3026.76]
+    - [802, 3026.76]
   - - [4, 448, 1, 128]
-    - [715, 5.56127]
+    - [851, 5.56127]
   - - [4288, 128, 1, 1280]
-    - [646, 5471.64]
+    - [782, 5471.64]
   - - [128, 1408, 1, 256]
-    - [689, 2813.35]
+    - [825, 2813.35]
   - - [4, 2944, 1, 256]
-    - [609, 316.766]
+    - [745, 316.766]
   - - [64, 128, 1, 3328]
-    - [657, 1872.56]
+    - [793, 1872.56]
   - - [1856, 1408, 1, 256]
-    - [679, 7735.89]
+    - [815, 7735.89]
   - - [5056, 2368, 1, 128]
-    - [661, 4830.19]
+    - [797, 4830.19]
   - - [2944, 2944, 1, 3328]
-    - [697, 8890.11]
+    - [833, 8890.11]
   - - [5056, 6784, 1, 256]
-    - [687, 9015.25]
+    - [823, 9015.25]
   - - [1856, 3584, 1, 128]
-    - [668, 4455.12]
+    - [804, 4455.12]
   - - [5888, 4, 1, 1280]
-    - [717, 642.063]
+    - [853, 642.063]
   - - [128, 2944, 1, 128]
-    - [586, 2037.03]
+    - [722, 2037.03]
   - - [35, 8457, 1, 2560]
-    - [574, 3988.23]
+    - [710, 3988.23]
   - - [3584, 6784, 1, 128]
-    - [661, 4774.54]
+    - [797, 4774.54]
   - - [128, 4288, 1, 256]
-    - [679, 4851.85]
+    - [815, 4851.85]
   - - [704, 448, 1, 3328]
-    - [694, 4432.63]
+    - [830, 4432.63]
   - - [2368, 6784, 1, 1280]
-    - [677, 9161.48]
+    - [813, 9161.48]
   - - [128, 128, 1, 3328]
-    - [651, 2839.99]
+    - [787, 2839.99]
   - - [5056, 1856, 1, 256]
-    - [693, 8380.94]
+    - [829, 8380.94]
   - - [256, 128, 1, 256]
-    - [635, 1165.18]
+    - [771, 1165.18]
   - - [1024, 3000, 1, 2816]
-    - [694, 8714.27]
+    - [830, 8714.27]
   - - [1024, 1856, 1, 256]
-    - [684, 7014.79]
+    - [820, 7014.79]
   - - [64, 1, 1, 1216]
-    - [657, 11.8205]
+    - [793, 11.8205]
   - - [4288, 64, 1, 128]
-    - [588, 1669.65]
+    - [724, 1669.65]
   - - [256, 448, 1, 3328]
-    - [612, 5152.39]
+    - [748, 5152.39]
   - - [1408, 6784, 1, 1280]
-    - [697, 8735.22]
+    - [833, 8735.22]
   - - [3584, 3584, 1, 1280]
-    - [694, 9020.09]
+    - [830, 9020.09]
   - - [7680, 24000, 1, 2560]
-    - [697, 6940.24]
+    - [833, 6940.24]
   - - [64, 2368, 1, 1280]
-    - [607, 4433.07]
+    - [743, 4433.07]
   - - [448, 2368, 1, 1280]
-    - [682, 5352.92]
+    - [818, 5352.92]
   - - [4608, 48000, 1, 1536]
-    - [676, 8129.11]
+    - [812, 8129.11]
   - - [5888, 5888, 1, 128]
-    - [669, 4700.91]
+    - [805, 4700.91]
   - - [64, 6784, 1, 3328]
-    - [679, 6170.82]
+    - [815, 6170.82]
   - - [2944, 256, 1, 1280]
-    - [709, 6177.65]
+    - [845, 6177.65]
   - - [2048, 16, 1, 2048]
-    - [631, 2167.7]
+    - [767, 2167.7]
   - - [256, 2368, 1, 128]
-    - [660, 2037.77]
+    - [796, 2037.77]
   - - [5056, 2368, 1, 3328]
-    - [677, 9040.6]
+    - [813, 9040.6]
   - - [2944, 4288, 1, 256]
-    - [708, 7552.22]
+    - [844, 7552.22]
   - - [1408, 3584, 1, 1280]
-    - [684, 8808.76]
+    - [820, 8808.76]
   - - [2368, 64, 1, 256]
-    - [620, 2320.51]
+    - [756, 2320.51]
   - - [1024, 128, 1, 128]
-    - [580, 1075.56]
+    - [716, 1075.56]
   - - [704, 128, 1, 3328]
-    - [613, 4985.02]
+    - [749, 4985.02]
   - - [5888, 4, 1, 128]
-    - [714, 33.6558]
+    - [850, 33.6558]
   - - [1856, 704, 1, 256]
-    - [689, 7110.98]
+    - [825, 7110.98]
   - - [1024, 1500, 1, 2816]
-    - [684, 8499.88]
+    - [820, 8499.88]
   - - [8448, 1, 1, 2816]
-    - [567, 251.469]
+    - [703, 251.469]
   - - [1024, 4, 1, 3328]
-    - [723, 541.032]
+    - [859, 541.032]
   - - [1024, 6000, 1, 2048]
-    - [684, 8698.59]
+    - [820, 8698.59]
   - - [512, 24000, 1, 2560]
-    - [677, 8963.7]
+    - [813, 8963.7]
   - - [6144, 3000, 1, 2560]
-    - [700, 8761.97]
+    - [836, 8761.97]
   - - [2368, 6784, 1, 3328]
-    - [694, 8867.49]
+    - [830, 8867.49]
   - - [1856, 1408, 1, 1280]
-    - [681, 7908.53]
+    - [817, 7908.53]
   - - [1856, 448, 1, 1280]
-    - [694, 6544.01]
+    - [830, 6544.01]
   - - [6784, 704, 1, 128]
-    - [660, 4086.45]
+    - [796, 4086.45]
   - - [4, 4, 1, 256]
-    - [627, 0.852941]
+    - [763, 0.852941]
   - - [128, 5888, 1, 128]
-    - [584, 2582.25]
+    - [720, 2582.25]
   - - [5056, 2944, 1, 128]
-    - [664, 4579.17]
+    - [800, 4579.17]
   - - [1408, 5888, 1, 256]
-    - [676, 8810.77]
+    - [812, 8810.77]
   - - [704, 2944, 1, 1280]
-    - [691, 8420.9]
+    - [827, 8420.9]
   - - [4288, 64, 1, 1280]
-    - [616, 4906.15]
+    - [752, 4906.15]
   - - [256, 64, 1, 256]
-    - [618, 689.953]
+    - [754, 689.953]
   - - [1024, 1024, 1, 256]
-    - [694, 5528.01]
+    - [830, 5528.01]
   - - [704, 1856, 1, 256]
-    - [678, 4452.92]
+    - [814, 4452.92]
   - - [2560, 64, 1, 2560]
-    - [607, 4563.09]
+    - [743, 4563.09]
   - - [3584, 704, 1, 1280]
-    - [684, 7898.77]
+    - [820, 7898.77]
   - - [256, 128, 1, 1280]
-    - [636, 2865.06]
+    - [772, 2865.06]
   - - [5888, 2368, 1, 256]
-    - [683, 8628.37]
+    - [819, 8628.37]
   - - [256, 2368, 1, 1280]
-    - [679, 6073.57]
+    - [815, 6073.57]
   - - [2944, 6784, 1, 128]
-    - [660, 4756.77]
+    - [796, 4756.77]
   - - [3584, 448, 1, 3328]
-    - [679, 7265.07]
+    - [815, 7265.07]
   - - [1408, 4, 1, 256]
-    - [720, 234.157]
+    - [856, 234.157]
   - - [704, 2368, 1, 3328]
-    - [677, 7248.98]
+    - [813, 7248.98]
   - - [2944, 448, 1, 256]
-    - [684, 6365.89]
+    - [820, 6365.89]
   - - [1856, 448, 1, 128]
-    - [662, 2976.34]
+    - [798, 2976.34]
   - - [4608, 6000, 1, 1536]
-    - [697, 9469.42]
+    - [833, 9469.42]
   - - [2368, 128, 1, 1280]
-    - [646, 4773.39]
+    - [782, 4773.39]
   - - [256, 5888, 1, 128]
-    - [661, 3112.0]
+    - [797, 3112.0]
   - - [64, 6784, 1, 256]
-    - [679, 3755.14]
+    - [815, 3755.14]
   - - [64, 5056, 1, 1280]
-    - [640, 4935.6]
+    - [776, 4935.6]
   - - [4, 6784, 1, 128]
-    - [715, 111.142]
+    - [851, 111.142]
   - - [3025, 64, 64, 64]
-    - [729, 6643.75]
+    - [865, 6643.75]
   - - [2944, 2944, 1, 1280]
-    - [677, 8869.55]
+    - [813, 8869.55]
   - - [5056, 448, 1, 3328]
-    - [710, 6706.2]
+    - [846, 6706.2]
   - - [4, 3584, 1, 1280]
-    - [627, 573.54]
+    - [763, 573.54]
   - - [1408, 128, 1, 128]
-    - [579, 1293.19]
+    - [715, 1293.19]
   - - [6784, 704, 1, 3328]
-    - [694, 8368.33]
+    - [830, 8368.33]
   - - [128, 64, 1, 1280]
-    - [653, 1260.41]
+    - [789, 1260.41]
   - - [2368, 256, 1, 1280]
-    - [679, 6154.47]
+    - [815, 6154.47]
   - - [4, 448, 1, 3328]
-    - [632, 351.738]
+    - [768, 351.738]
   - - [5888, 4288, 1, 128]
-    - [661, 4340.99]
+    - [797, 4340.99]
   - - [4, 5888, 1, 256]
-    - [609, 428.318]
+    - [745, 428.318]
   - - [1408, 2944, 1, 3328]
-    - [676, 9400.85]
+    - [812, 9400.85]
   - - [3584, 704, 1, 128]
-    - [663, 3392.55]
+    - [799, 3392.55]
   - - [64, 1024, 1, 256]
-    - [610, 1762.41]
+    - [746, 1762.41]
   - - [2368, 448, 1, 1280]
-    - [703, 5972.58]
+    - [839, 5972.58]
   - - [128, 3584, 1, 256]
-    - [679, 5224.32]
+    - [815, 5224.32]
   - - [704, 448, 1, 1280]
-    - [679, 4566.86]
+    - [815, 4566.86]
   - - [448, 5056, 1, 128]
-    - [661, 3876.19]
+    - [797, 3876.19]
   - - [6144, 4, 1, 2560]
-    - [603, 948.751]
+    - [739, 948.751]
   - - [5056, 3584, 1, 256]
-    - [693, 8162.56]
+    - [829, 8162.56]
   - - [4288, 4288, 1, 256]
-    - [700, 7653.34]
+    - [836, 7653.34]
   - - [1408, 5056, 1, 128]
-    - [667, 4554.34]
+    - [803, 4554.34]
   - - [2944, 3584, 1, 128]
-    - [673, 4147.0]
+    - [809, 4147.0]
   - - [3584, 2368, 1, 256]
-    - [694, 8195.05]
+    - [830, 8195.05]
   - - [5888, 5056, 1, 1280]
-    - [693, 9413.43]
+    - [829, 9413.43]
   - - [128, 1024, 1, 1280]
-    - [646, 4433.83]
+    - [782, 4433.83]
   - - [8448, 24000, 1, 2816]
-    - [687, 5227.12]
+    - [823, 5227.12]
   - - [64, 704, 1, 256]
-    - [610, 1441.89]
+    - [746, 1441.89]
   - - [4288, 256, 1, 1280]
-    - [709, 5687.8]
+    - [845, 5687.8]
   - - [3584, 3584, 1, 3328]
-    - [684, 9183.63]
+    - [820, 9183.63]
   - - [704, 64, 1, 128]
-    - [588, 402.835]
+    - [724, 402.835]
   - - [3072, 1500, 1, 128]
-    - [683, 7395.08]
+    - [819, 7395.08]
   - - [2048, 3136, 1, 512]
-    - [725, 8447.3]
+    - [861, 8447.3]
   - - [3025, 256, 64, 64]
-    - [733, 8063.79]
+    - [869, 8063.79]
   - - [5888, 6784, 1, 256]
-    - [677, 9282.01]
+    - [813, 9282.01]
   - - [4288, 2944, 1, 3328]
-    - [677, 9153.87]
+    - [813, 9153.87]
   - - [2944, 64, 1, 128]
-    - [594, 1463.53]
+    - [730, 1463.53]
   - - [1024, 128, 1, 3328]
-    - [644, 5377.41]
+    - [780, 5377.41]
   - - [1024, 16, 1, 500000]
-    - [560, 3997.13]
+    - [696, 3997.13]
   - - [4288, 128, 1, 3328]
-    - [648, 6053.31]
+    - [784, 6053.31]
   - - [7680, 128, 1, 2560]
-    - [694, 7769.24]
+    - [830, 7769.24]
   - - [256, 5056, 1, 1280]
-    - [703, 7200.84]
+    - [839, 7200.84]
   - - [1408, 256, 1, 128]
-    - [671, 1671.74]
+    - [807, 1671.74]
   - - [2944, 5888, 1, 3328]
-    - [683, 8642.18]
+    - [819, 8642.18]
   - - [6784, 5888, 1, 1280]
-    - [697, 8871.15]
+    - [833, 8871.15]
   - - [3072, 1, 1, 1024]
-    - [643, 205.972]
+    - [779, 205.972]
   - - [704, 128, 1, 256]
-    - [606, 1935.39]
+    - [742, 1935.39]
   - - [5888, 4288, 1, 1280]
-    - [684, 9176.7]
+    - [820, 9176.7]
   - - [1024, 24000, 1, 2048]
-    - [683, 8667.79]
+    - [819, 8667.79]
   - - [448, 256, 1, 1280]
-    - [616, 4327.95]
+    - [752, 4327.95]
   - - [5888, 3584, 1, 128]
-    - [661, 4669.45]
+    - [797, 4669.45]
   - - [64, 4288, 1, 3328]
-    - [641, 5375.04]
+    - [777, 5375.04]
   - - [448, 4, 1, 1280]
-    - [632, 289.716]
+    - [768, 289.716]
   - - [6784, 6784, 1, 3328]
-    - [690, 8306.73]
+    - [826, 8306.73]
   - - [5056, 4, 1, 1280]
-    - [602, 607.199]
+    - [738, 607.199]
   - - [4, 5888, 1, 3328]
-    - [627, 651.538]
+    - [763, 651.538]
   - - [256, 1408, 1, 1280]
-    - [679, 5177.09]
+    - [815, 5177.09]
   - - [3072, 16, 1, 1024]
-    - [638, 2207.63]
+    - [774, 2207.63]
   - - [704, 3584, 1, 128]
-    - [671, 3653.51]
+    - [807, 3653.51]
   - - [1024, 2, 1, 512]
-    - [658, 156.138]
+    - [794, 156.138]
   - - [5888, 448, 1, 3328]
-    - [679, 7896.85]
+    - [815, 7896.85]
   - - [2368, 4288, 1, 1280]
-    - [676, 8517.63]
+    - [812, 8517.63]
   - - [4288, 2944, 1, 128]
-    - [665, 4439.26]
+    - [801, 4439.26]
   - - [256, 64, 1, 3328]
-    - [651, 2704.76]
+    - [787, 2704.76]
   - - [2944, 64, 1, 3328]
-    - [616, 5647.15]
+    - [752, 5647.15]
   - - [6784, 64, 1, 3328]
-    - [689, 6434.61]
+    - [825, 6434.61]
   - - [5056, 2944, 1, 3328]
-    - [700, 8497.2]
+    - [836, 8497.2]
   - - [448, 128, 1, 256]
-    - [618, 1516.64]
+    - [754, 1516.64]
   - - [2944, 3584, 1, 256]
-    - [694, 8365.83]
+    - [830, 8365.83]
   - - [1408, 1408, 1, 3328]
-    - [677, 8440.42]
+    - [813, 8440.42]
   - - [1856, 128, 1, 1280]
-    - [679, 5242.93]
+    - [815, 5242.93]
   - - [3584, 3584, 1, 128]
-    - [661, 4385.94]
+    - [797, 4385.94]
   - - [64, 3584, 1, 256]
-    - [679, 3276.9]
+    - [815, 3276.9]
   - - [1408, 4, 1, 3328]
-    - [602, 605.504]
+    - [738, 605.504]
   - - [128, 2944, 1, 3328]
-    - [647, 6295.75]
+    - [783, 6295.75]
   - - [3584, 704, 1, 256]
-    - [684, 7711.64]
+    - [820, 7711.64]
   - - [2944, 448, 1, 3328]
-    - [695, 6503.97]
+    - [831, 6503.97]
   - - [1024, 2, 1, 500000]
-    - [564, 521.803]
+    - [700, 521.803]
   - - [3584, 1408, 1, 3328]
-    - [686, 8296.2]
+    - [822, 8296.2]
   - - [704, 3584, 1, 1280]
-    - [691, 7670.65]
+    - [827, 7670.65]
   - - [1024, 1408, 1, 128]
-    - [666, 2830.61]
+    - [802, 2830.61]
   - - [1856, 6784, 1, 256]
-    - [697, 8149.67]
+    - [833, 8149.67]
   - - [4288, 448, 1, 3328]
-    - [678, 7406.44]
+    - [814, 7406.44]
   - - [6784, 4288, 1, 128]
-    - [673, 4418.09]
+    - [809, 4418.09]
   - - [6784, 704, 1, 1280]
-    - [694, 8302.45]
+    - [830, 8302.45]
   - - [6144, 1, 1, 2560]
-    - [603, 243.427]
+    - [739, 243.427]
   - - [3584, 6784, 1, 256]
-    - [676, 9036.59]
+    - [812, 9036.59]
   - - [6144, 16, 1, 2560]
-    - [610, 3266.69]
+    - [746, 3266.69]
   - - [3584, 64, 1, 128]
-    - [594, 1555.19]
+    - [730, 1555.19]
   - - [5888, 1024, 1, 3328]
-    - [684, 8888.08]
+    - [820, 8888.08]
   - - [448, 64, 1, 128]
-    - [580, 248.074]
+    - [716, 248.074]
   - - [704, 6784, 1, 1280]
-    - [680, 7892.56]
+    - [816, 7892.56]
   - - [4, 448, 1, 256]
-    - [602, 70.8951]
+    - [738, 70.8951]
   - - [196, 1024, 64, 256]
-    - [728, 6630.86]
+    - [864, 6630.86]
   - - [5888, 128, 1, 256]
-    - [678, 5715.09]
+    - [814, 5715.09]
   - - [4096, 16, 1, 4096]
-    - [624, 3251.5]
+    - [760, 3251.5]
   - - [1856, 5056, 1, 3328]
-    - [693, 8740.27]
+    - [829, 8740.27]
   - - [4, 6784, 1, 256]
-    - [716, 360.412]
+    - [852, 360.412]
   - - [1024, 3584, 1, 128]
-    - [661, 3456.27]
+    - [797, 3456.27]
   - - [64, 704, 1, 3328]
-    - [629, 3817.47]
+    - [765, 3817.47]
   - - [2368, 2944, 1, 128]
-    - [667, 4605.47]
+    - [803, 4605.47]
   - - [5056, 64, 1, 256]
-    - [679, 3863.79]
+    - [815, 3863.79]
   - - [512, 1500, 1, 1536]
-    - [679, 6801.56]
+    - [815, 6801.56]
   - - [512, 1, 1, 500000]
-    - [568, 261.068]
+    - [704, 261.068]
   - - [5888, 2944, 1, 3328]
-    - [683, 8501.88]
+    - [819, 8501.88]
   - - [128, 3584, 1, 1280]
-    - [684, 5938.64]
+    - [820, 5938.64]
   - - [1024, 704, 1, 128]
-    - [670, 2172.29]
+    - [806, 2172.29]
   - - [1408, 2368, 1, 128]
-    - [666, 4023.2]
+    - [802, 4023.2]
   - - [5888, 2368, 1, 128]
-    - [667, 4424.62]
+    - [803, 4424.62]
   - - [128, 5056, 1, 3328]
-    - [679, 6692.16]
+    - [815, 6692.16]
   - - [3584, 6784, 1, 1280]
-    - [677, 9488.64]
+    - [813, 9488.64]
   - - [4288, 1856, 1, 256]
-    - [687, 8287.52]
+    - [823, 8287.52]
   - - [1856, 5888, 1, 256]
-    - [698, 7707.83]
+    - [834, 7707.83]
   - - [256, 256, 1, 256]
-    - [645, 1613.29]
+    - [781, 1613.29]
   - - [4288, 4288, 1, 3328]
-    - [687, 8923.59]
+    - [823, 8923.59]
   - - [1024, 1024, 1, 128]
-    - [667, 2553.71]
+    - [803, 2553.71]
   - - [4288, 1408, 1, 1280]
-    - [687, 8930.47]
+    - [823, 8930.47]
   - - [3584, 5056, 1, 128]
-    - [671, 4495.15]
+    - [807, 4495.15]
   - - [4, 1024, 1, 3328]
-    - [627, 415.694]
+    - [763, 415.694]
   - - [4, 704, 1, 128]
-    - [715, 13.9634]
+    - [851, 13.9634]
   - - [4288, 2368, 1, 256]
-    - [712, 7135.08]
+    - [848, 7135.08]
   - - [2944, 5056, 1, 1280]
-    - [684, 9118.61]
+    - [820, 9118.61]
   - - [448, 6784, 1, 256]
-    - [708, 5430.31]
+    - [844, 5430.31]
   - - [64, 128, 1, 128]
-    - [591, 83.057]
+    - [727, 83.057]
   - - [1856, 2368, 1, 128]
-    - [667, 4422.75]
+    - [803, 4422.75]
   - - [6784, 2368, 1, 3328]
-    - [680, 8769.4]
+    - [816, 8769.4]
   - - [1408, 6784, 1, 128]
-    - [667, 4739.0]
+    - [803, 4739.0]
   - - [256, 1024, 1, 1280]
-    - [689, 5722.21]
+    - [825, 5722.21]
   - - [704, 4, 1, 128]
-    - [715, 8.66578]
+    - [851, 8.66578]
   - - [1408, 4, 1, 128]
-    - [715, 26.1439]
+    - [851, 26.1439]
   - - [4288, 128, 1, 256]
-    - [689, 4865.38]
+    - [825, 4865.38]
   - - [4288, 1856, 1, 3328]
-    - [676, 9250.04]
+    - [812, 9250.04]
   - - [3584, 448, 1, 128]
-    - [667, 3029.59]
+    - [803, 3029.59]
   - - [64, 4288, 1, 128]
-    - [584, 1535.38]
+    - [720, 1535.38]
   - - [64, 448, 1, 3328]
-    - [654, 3457.36]
+    - [790, 3457.36]
   - - [448, 4, 1, 3328]
-    - [632, 367.328]
+    - [768, 367.328]
   - - [256, 4, 1, 3328]
-    - [723, 320.389]
+    - [859, 320.389]
   - - [4, 1408, 1, 1280]
-    - [720, 344.039]
+    - [856, 344.039]
   - - [3584, 64, 1, 1280]
-    - [608, 5191.07]
+    - [744, 5191.07]
   - - [1408, 448, 1, 128]
-    - [668, 2218.24]
+    - [804, 2218.24]
   - - [3584, 1024, 1, 1280]
-    - [690, 8253.11]
+    - [826, 8253.11]
   - - [1856, 5056, 1, 256]
-    - [708, 7552.55]
+    - [844, 7552.55]
   - - [4, 3584, 1, 256]
-    - [627, 325.456]
+    - [763, 325.456]
   - - [6784, 4288, 1, 3328]
-    - [683, 8655.34]
+    - [819, 8655.34]
   - - [4, 2944, 1, 1280]
-    - [627, 547.821]
+    - [763, 547.821]
   - - [1024, 4288, 1, 256]
-    - [684, 7788.83]
+    - [820, 7788.83]
   - - [5888, 3584, 1, 3328]
-    - [687, 9173.39]
+    - [823, 9173.39]
   - - [1856, 4, 1, 256]
-    - [718, 282.919]
+    - [854, 282.919]
   - - [4, 256, 1, 256]
-    - [627, 49.7485]
+    - [763, 49.7485]
   - - [5056, 3584, 1, 3328]
-    - [693, 8457.53]
+    - [829, 8457.53]
   - - [1408, 128, 1, 3328]
-    - [647, 5714.52]
+    - [783, 5714.52]
   - - [4, 64, 1, 1280]
-    - [723, 42.7667]
+    - [859, 42.7667]
   - - [2368, 1408, 1, 1280]
-    - [684, 8224.92]
+    - [820, 8224.92]
   - - [5056, 2944, 1, 1280]
-    - [676, 9295.13]
+    - [812, 9295.13]
   - - [8448, 6000, 1, 2816]
-    - [680, 8037.97]
+    - [816, 8037.97]
   - - [4, 4, 1, 128]
-    - [715, 0.1433898]
+    - [851, 0.1433898]
   - - [3584, 256, 1, 256]
-    - [679, 6116.79]
+    - [815, 6116.79]
   - - [3584, 2944, 1, 1280]
-    - [676, 8796.49]
+    - [812, 8796.49]
   - - [1024, 6784, 1, 256]
-    - [683, 8187.86]
+    - [819, 8187.86]
   - - [4, 128, 1, 256]
-    - [627, 30.4407]
+    - [763, 30.4407]
   - - [6784, 448, 1, 256]
-    - [679, 7862.3]
+    - [815, 7862.3]
   - - [5124, 9124, 1, 2048]
-    - [681, 8176.41]
+    - [817, 8176.41]
   - - [2944, 5056, 1, 3328]
-    - [676, 9328.34]
+    - [812, 9328.34]
   - - [6784, 4, 1, 128]
-    - [714, 204.9]
+    - [850, 204.9]
   - - [2944, 1408, 1, 128]
-    - [665, 3838.2]
+    - [801, 3838.2]
   - - [448, 128, 1, 3328]
-    - [630, 4632.16]
+    - [766, 4632.16]
   - - [64, 2944, 1, 3328]
-    - [647, 5663.47]
+    - [783, 5663.47]
   - - [5056, 6784, 1, 3328]
-    - [683, 8420.17]
+    - [819, 8420.17]
   - - [704, 2368, 1, 128]
-    - [667, 3321.79]
+    - [803, 3321.79]
   - - [3072, 1500, 1, 1024]
-    - [684, 8221.77]
+    - [820, 8221.77]
   - - [128, 2944, 1, 256]
-    - [679, 4550.52]
+    - [815, 4550.52]
   - - [128, 6784, 1, 128]
-    - [584, 2767.76]
+    - [720, 2767.76]
   - - [3584, 4288, 1, 256]
-    - [683, 8808.64]
+    - [819, 8808.64]
   - - [448, 1856, 1, 256]
-    - [688, 5166.63]
+    - [824, 5166.63]
   - - [1856, 6784, 1, 3328]
-    - [680, 8339.76]
+    - [816, 8339.76]
   - - [3584, 128, 1, 3328]
-    - [689, 6791.57]
+    - [825, 6791.57]
   - - [64, 1856, 1, 256]
-    - [611, 2210.03]
+    - [747, 2210.03]
   - - [64, 448, 1, 256]
-    - [643, 1008.35]
+    - [779, 1008.35]
   - - [5888, 4288, 1, 256]
-    - [683, 8869.63]
+    - [819, 8869.63]
   - - [128, 1500, 1, 1280]
-    - [640, 4733.54]
+    - [776, 4733.54]
   - - [5056, 1408, 1, 256]
-    - [681, 7523.31]
+    - [817, 7523.31]
   - - [35, 8457, 1, 4096]
-    - [574, 4023.17]
+    - [710, 4023.17]
   - - [64, 256, 1, 1280]
-    - [635, 1941.91]
+    - [771, 1941.91]
   - - [2944, 4, 1, 128]
-    - [714, 95.7426]
+    - [850, 95.7426]
   - - [3584, 1024, 1, 256]
-    - [706, 6553.68]
+    - [842, 6553.68]
   - - [512, 6000, 1, 1536]
-    - [680, 7357.25]
+    - [816, 7357.25]
   - - [256, 704, 1, 256]
-    - [679, 2912.81]
+    - [815, 2912.81]
   - - [5888, 5888, 1, 256]
-    - [690, 8802.7]
+    - [826, 8802.7]
   - - [4288, 1024, 1, 1280]
-    - [683, 8248.83]
+    - [819, 8248.83]
   - - [5888, 128, 1, 3328]
-    - [633, 6848.59]
+    - [769, 6848.59]
   - - [448, 6784, 1, 3328]
-    - [679, 8343.78]
+    - [815, 8343.78]
   - - [2944, 1408, 1, 1280]
-    - [676, 9229.48]
+    - [812, 9229.48]
   - - [3072, 6000, 1, 1024]
-    - [697, 9015.01]
+    - [833, 9015.01]
   - - [1024, 32, 1, 512]
-    - [618, 1498.07]
+    - [754, 1498.07]
   - - [2944, 1856, 1, 3328]
-    - [693, 7176.48]
+    - [829, 7176.48]
   - - [2368, 64, 1, 128]
-    - [584, 1206.48]
+    - [720, 1206.48]
   - - [256, 1024, 1, 128]
-    - [661, 1178.28]
+    - [797, 1178.28]
   - - [3584, 5888, 1, 1280]
-    - [683, 9023.58]
+    - [819, 9023.58]
   - - [64, 4, 1, 128]
-    - [715, 1.089372]
+    - [851, 1.089372]
   - - [6784, 1856, 1, 1280]
-    - [677, 8964.51]
+    - [813, 8964.51]
   - - [2944, 5056, 1, 256]
-    - [683, 8860.12]
+    - [819, 8860.12]
   - - [5888, 256, 1, 3328]
-    - [694, 8308.66]
+    - [830, 8308.66]
   - - [2944, 4288, 1, 128]
-    - [662, 4507.61]
+    - [798, 4507.61]
   - - [3584, 1408, 1, 256]
-    - [677, 8234.71]
+    - [813, 8234.71]
   - - [704, 3584, 1, 3328]
-    - [689, 7377.26]
+    - [825, 7377.26]
   - - [5056, 448, 1, 1280]
-    - [678, 7145.47]
+    - [814, 7145.47]
   - - [3584, 1856, 1, 3328]
-    - [694, 8954.81]
+    - [830, 8954.81]
   - - [64, 1408, 1, 128]
-    - [591, 731.974]
+    - [727, 731.974]
   - - [4288, 6784, 1, 1280]
-    - [683, 9166.55]
+    - [819, 9166.55]
   - - [1024, 3000, 1, 2048]
-    - [694, 7723.83]
+    - [830, 7723.83]
   - - [1408, 704, 1, 1280]
-    - [684, 7863.1]
+    - [820, 7863.1]
   - - [2944, 1024, 1, 256]
-    - [677, 5035.02]
+    - [813, 5035.02]
   - - [256, 64, 1, 128]
-    - [583, 150.757]
+    - [719, 150.757]
   - - [2368, 4288, 1, 3328]
-    - [681, 8568.84]
+    - [817, 8568.84]
   - - [4, 1408, 1, 256]
-    - [627, 219.885]
+    - [763, 219.885]
   - - [1024, 1408, 1, 1280]
-    - [709, 6761.13]
+    - [845, 6761.13]
   - - [64, 64, 1, 256]
-    - [609, 198.694]
+    - [745, 198.694]
   - - [704, 256, 1, 3328]
-    - [679, 4291.62]
+    - [815, 4291.62]
   - - [6784, 5056, 1, 256]
-    - [678, 8545.02]
+    - [814, 8545.02]
   - - [1856, 1856, 1, 128]
-    - [666, 4034.93]
+    - [802, 4034.93]
   - - [4288, 5888, 1, 256]
-    - [697, 8998.05]
+    - [833, 8998.05]
   - - [4, 704, 1, 3328]
-    - [632, 452.4]
+    - [768, 452.4]
   - - [35, 8457, 1, 2048]
-    - [575, 3375.37]
+    - [711, 3375.37]
   - - [448, 2944, 1, 256]
-    - [679, 6346.74]
+    - [815, 6346.74]
   - - [4, 4288, 1, 3328]
-    - [632, 630.978]
+    - [768, 630.978]
   - - [2944, 6784, 1, 256]
-    - [706, 8002.92]
+    - [842, 8002.92]
   - - [2944, 2944, 1, 128]
-    - [661, 4661.41]
+    - [797, 4661.41]
   - - [4, 4, 1, 1280]
-    - [632, 3.14762]
+    - [768, 3.14762]
   - - [1856, 3584, 1, 1280]
-    - [676, 8677.66]
+    - [812, 8677.66]
   - - [64, 2944, 1, 256]
-    - [679, 2926.95]
+    - [815, 2926.95]
   - - [3584, 1408, 1, 1280]
-    - [690, 8238.9]
+    - [826, 8238.9]
   - - [448, 256, 1, 128]
-    - [591, 1042.72]
+    - [727, 1042.72]
   - - [4288, 448, 1, 128]
-    - [667, 3698.82]
+    - [803, 3698.82]
   - - [5056, 256, 1, 1280]
-    - [684, 7058.5]
+    - [820, 7058.5]
   - - [1856, 1408, 1, 3328]
-    - [681, 8348.35]
+    - [817, 8348.35]
   - - [128, 128, 1, 128]
-    - [591, 145.736]
+    - [727, 145.736]
   - - [1024, 4288, 1, 3328]
-    - [677, 8042.61]
+    - [813, 8042.61]
   - - [448, 2368, 1, 256]
-    - [689, 5935.0]
+    - [825, 5935.0]
   - - [1024, 4, 1, 128]
-    - [715, 15.93]
+    - [851, 15.93]
   - - [64, 1408, 1, 1280]
-    - [613, 3865.49]
+    - [749, 3865.49]
   - - [64, 6784, 1, 1280]
-    - [709, 5629.61]
+    - [845, 5629.61]
   - - [5056, 448, 1, 256]
-    - [679, 7637.91]
+    - [815, 7637.91]
   - - [2944, 2368, 1, 3328]
-    - [687, 9112.44]
+    - [823, 9112.44]
   - - [704, 4288, 1, 3328]
-    - [679, 7950.2]
+    - [815, 7950.2]
   - - [1408, 128, 1, 256]
-    - [679, 2898.17]
+    - [815, 2898.17]
   - - [1024, 1856, 1, 1280]
-    - [677, 8087.51]
+    - [813, 8087.51]
   - - [6784, 1856, 1, 256]
-    - [708, 7538.25]
+    - [844, 7538.25]
   - - [512, 48000, 1, 2816]
-    - [676, 9704.21]
+    - [812, 9704.21]
   - - [512, 3000, 1, 2816]
-    - [678, 7621.63]
+    - [814, 7621.63]
   - - [128, 2368, 1, 3328]
-    - [641, 6038.94]
+    - [777, 6038.94]
   - - [1024, 5888, 1, 256]
-    - [693, 8185.82]
+    - [829, 8185.82]
   - - [64, 2944, 1, 1280]
-    - [640, 4540.24]
+    - [776, 4540.24]
   - - [6784, 1408, 1, 256]
-    - [693, 8574.0]
+    - [829, 8574.0]
   - - [5056, 64, 1, 3328]
-    - [641, 6310.97]
+    - [777, 6310.97]
   - - [128, 704, 1, 128]
-    - [580, 696.618]
+    - [716, 696.618]
   - - [1408, 2368, 1, 256]
-    - [679, 4995.06]
+    - [815, 4995.06]
   - - [1408, 1408, 1, 256]
-    - [676, 7552.34]
+    - [812, 7552.34]
   - - [4, 64, 1, 128]
-    - [714, 1.90441]
+    - [850, 1.90441]
   - - [64, 128, 1, 1280]
-    - [653, 1272.64]
+    - [789, 1272.64]
   - - [1024, 8, 1, 500000]
-    - [561, 2013.23]
+    - [697, 2013.23]
   - - [4, 2368, 1, 128]
-    - [715, 49.9526]
+    - [851, 49.9526]
   - - [2368, 2368, 1, 128]
-    - [666, 4483.8]
+    - [802, 4483.8]
   - - [64, 5888, 1, 128]
-    - [583, 1957.67]
+    - [719, 1957.67]
   - - [5888, 4, 1, 3328]
-    - [716, 638.798]
+    - [852, 638.798]
   - - [6784, 1408, 1, 128]
-    - [661, 4715.61]
+    - [797, 4715.61]
   - - [1408, 5056, 1, 256]
-    - [693, 8557.67]
+    - [829, 8557.67]
   - - [512, 50176, 1, 128]
-    - [724, 8809.39]
+    - [860, 8809.39]
   - - [5056, 128, 1, 3328]
-    - [616, 6810.66]
+    - [752, 6810.66]
   - - [128, 128, 1, 1280]
-    - [650, 1899.69]
+    - [786, 1899.69]
   - - [512, 2, 1, 512]
-    - [570, 87.4813]
+    - [706, 87.4813]
   - - [448, 704, 1, 256]
-    - [689, 3765.97]
+    - [825, 3765.97]
   - - [4288, 3584, 1, 128]
-    - [674, 4563.77]
+    - [810, 4563.77]
   - - [2944, 128, 1, 3328]
-    - [616, 6507.45]
+    - [752, 6507.45]
   - - [128, 5056, 1, 1280]
-    - [679, 6557.85]
+    - [815, 6557.85]
   - - [3584, 5056, 1, 1280]
-    - [676, 9407.93]
+    - [812, 9407.93]
   - - [256, 448, 1, 1280]
-    - [640, 4096.1]
+    - [776, 4096.1]
   - - [704, 704, 1, 128]
-    - [666, 2374.31]
+    - [802, 2374.31]
   - - [5056, 4, 1, 128]
-    - [714, 125.52]
+    - [850, 125.52]
   - - [704, 256, 1, 1280]
-    - [689, 4016.23]
+    - [825, 4016.23]
   - - [64, 2368, 1, 3328]
-    - [646, 5159.29]
+    - [782, 5159.29]
   - - [1856, 1024, 1, 128]
-    - [666, 3356.47]
+    - [802, 3356.47]
   - - [1856, 64, 1, 128]
-    - [583, 945.644]
+    - [719, 945.644]
   - - [4096, 64, 1, 4096]
-    - [649, 6260.24]
+    - [785, 6260.24]
   - - [1024, 24000, 1, 1536]
-    - [693, 9368.5]
+    - [829, 9368.5]
   - - [704, 4288, 1, 256]
-    - [690, 7329.39]
+    - [826, 7329.39]
   - - [5888, 2368, 1, 1280]
-    - [679, 8624.71]
+    - [815, 8624.71]
   - - [6784, 1856, 1, 3328]
-    - [683, 9012.45]
+    - [819, 9012.45]
   - - [64, 128, 1, 256]
-    - [609, 374.591]
+    - [745, 374.591]
   - - [2368, 5888, 1, 1280]
-    - [677, 9045.76]
+    - [813, 9045.76]
   - - [5888, 256, 1, 1280]
-    - [694, 7999.17]
+    - [830, 7999.17]
   - - [4, 5888, 1, 1280]
-    - [627, 615.839]
+    - [763, 615.839]
   - - [704, 128, 1, 128]
-    - [583, 693.269]
+    - [719, 693.269]
   - - [1024, 4, 1, 1280]
-    - [722, 372.464]
+    - [858, 372.464]
   - - [2368, 1856, 1, 3328]
-    - [694, 8246.91]
+    - [830, 8246.91]
   - - [2368, 128, 1, 128]
-    - [584, 1963.53]
+    - [720, 1963.53]
   - - [2944, 704, 1, 256]
-    - [694, 7116.24]
+    - [830, 7116.24]
   - - [5056, 128, 1, 128]
-    - [587, 2519.49]
+    - [723, 2519.49]
   - - [2368, 1024, 1, 3328]
-    - [679, 7959.13]
+    - [815, 7959.13]
   - - [35, 700, 1, 2048]
-    - [575, 1766.86]
+    - [711, 1766.86]
   - - [256, 704, 1, 3328]
-    - [679, 4296.56]
+    - [815, 4296.56]
   - - [704, 3584, 1, 256]
-    - [678, 7441.61]
+    - [814, 7441.61]
   - - [704, 2944, 1, 3328]
-    - [695, 7195.81]
+    - [831, 7195.81]
   - - [6784, 1024, 1, 128]
-    - [666, 4509.18]
+    - [802, 4509.18]
   - - [256, 448, 1, 128]
-    - [591, 838.003]
+    - [727, 838.003]
   - - [448, 1024, 1, 3328]
-    - [689, 6515.65]
+    - [825, 6515.65]
   - - [2944, 1024, 1, 3328]
-    - [684, 8751.63]
+    - [820, 8751.63]
   - - [2944, 5056, 1, 128]
-    - [661, 4799.73]
+    - [797, 4799.73]
   - - [2368, 256, 1, 256]
-    - [678, 4754.67]
+    - [814, 4754.67]
   - - [1408, 6784, 1, 256]
-    - [706, 7477.09]
+    - [842, 7477.09]
   - - [6784, 1408, 1, 3328]
-    - [684, 8968.57]
+    - [820, 8968.57]
   - - [4288, 6784, 1, 128]
-    - [659, 4455.74]
+    - [795, 4455.74]
   - - [1408, 2944, 1, 128]
-    - [671, 3862.79]
+    - [807, 3862.79]
   - - [704, 64, 1, 256]
-    - [610, 1441.89]
+    - [746, 1441.89]
   - - [3072, 4, 1, 1024]
-    - [628, 711.803]
+    - [764, 711.803]
   - - [256, 2368, 1, 3328]
-    - [703, 5199.73]
+    - [839, 5199.73]
   - - [6784, 2944, 1, 1280]
-    - [687, 8914.45]
+    - [823, 8914.45]
   - - [4288, 1856, 1, 128]
-    - [667, 4683.3]
+    - [803, 4683.3]
   - - [1856, 2944, 1, 128]
-    - [661, 4589.34]
+    - [797, 4589.34]
   - - [6784, 448, 1, 128]
-    - [661, 3918.53]
+    - [797, 3918.53]
   - - [64, 3584, 1, 128]
-    - [592, 1468.11]
+    - [728, 1468.11]
   - - [448, 5056, 1, 1280]
-    - [684, 7561.4]
+    - [820, 7561.4]
   - - [4288, 5056, 1, 1280]
-    - [676, 9304.11]
+    - [812, 9304.11]
   - - [2368, 1856, 1, 128]
-    - [666, 4322.17]
+    - [802, 4322.17]
   - - [128, 448, 1, 1280]
-    - [646, 3336.48]
+    - [782, 3336.48]
   - - [4288, 704, 1, 256]
-    - [689, 7834.65]
+    - [825, 7834.65]
   - - [256, 3584, 1, 128]
-    - [662, 2500.96]
+    - [798, 2500.96]
   - - [5888, 704, 1, 256]
-    - [708, 7244.49]
+    - [844, 7244.49]
   - - [3584, 1024, 1, 128]
-    - [673, 3169.03]
+    - [809, 3169.03]
   - - [256, 5888, 1, 3328]
-    - [694, 7763.47]
+    - [830, 7763.47]
   - - [1408, 4288, 1, 3328]
-    - [676, 9273.8]
+    - [812, 9273.8]
   - - [6784, 4288, 1, 256]
-    - [684, 8825.2]
+    - [820, 8825.2]
   - - [4288, 256, 1, 128]
-    - [663, 2621.54]
+    - [799, 2621.54]
   - - [448, 1856, 1, 3328]
-    - [704, 5859.8]
+    - [840, 5859.8]
   - - [5888, 256, 1, 256]
-    - [694, 7124.84]
+    - [830, 7124.84]
   - - [1024, 4, 1, 500000]
-    - [559, 1030.2]
+    - [695, 1030.2]
   - - [6784, 1024, 1, 1280]
-    - [676, 9083.11]
+    - [812, 9083.11]
   - - [5888, 1024, 1, 128]
-    - [663, 4297.16]
+    - [799, 4297.16]
   - - [1024, 128, 1, 256]
-    - [679, 2086.82]
+    - [815, 2086.82]
   - - [512, 16, 1, 500000]
-    - [560, 3921.96]
+    - [696, 3921.96]
   - - [128, 64, 1, 3328]
-    - [650, 1969.97]
+    - [786, 1969.97]
   - - [448, 64, 1, 256]
-    - [635, 1092.37]
+    - [771, 1092.37]
   - - [2368, 256, 1, 128]
-    - [666, 2174.84]
+    - [802, 2174.84]
   - - [6784, 3584, 1, 1280]
-    - [676, 9558.82]
+    - [812, 9558.82]
   - - [1024, 6784, 1, 1280]
-    - [685, 8637.72]
+    - [821, 8637.72]
   - - [2944, 64, 1, 1280]
-    - [607, 4770.13]
+    - [743, 4770.13]
   - - [1408, 2944, 1, 1280]
-    - [676, 9238.47]
+    - [812, 9238.47]
   - - [256, 1856, 1, 256]
-    - [702, 4498.43]
+    - [838, 4498.43]
   - - [1408, 2368, 1, 3328]
-    - [684, 8344.97]
+    - [820, 8344.97]
   - - [2944, 4, 1, 3328]
-    - [719, 661.209]
+    - [855, 661.209]
   - - [128, 1408, 1, 3328]
-    - [647, 5641.42]
+    - [783, 5641.42]
   - - [2944, 1856, 1, 128]
-    - [661, 4488.04]
+    - [797, 4488.04]
   - - [256, 2944, 1, 128]
-    - [671, 2233.18]
+    - [807, 2233.18]
   - - [256, 6784, 1, 128]
-    - [660, 3139.9]
+    - [796, 3139.9]
   - - [2368, 4, 1, 128]
-    - [715, 38.7612]
+    - [851, 38.7612]
   - - [1408, 256, 1, 3328]
-    - [711, 4927.67]
+    - [847, 4927.67]
   - - [1856, 4, 1, 128]
-    - [715, 42.3719]
+    - [851, 42.3719]
   - - [1024, 16, 1, 512]
-    - [627, 1115.61]
+    - [763, 1115.61]
   - - [5056, 6784, 1, 128]
-    - [662, 4963.45]
+    - [798, 4963.45]
   - - [4288, 5056, 1, 128]
-    - [660, 4928.09]
+    - [796, 4928.09]
   - - [1856, 5888, 1, 128]
-    - [667, 4865.15]
+    - [803, 4865.15]
   - - [7680, 2, 1, 2560]
-    - [603, 499.612]
+    - [739, 499.612]
   - - [3584, 1856, 1, 256]
-    - [693, 7978.38]
+    - [829, 7978.38]
   - - [4288, 3584, 1, 1280]
-    - [693, 7852.26]
+    - [829, 7852.26]
   - - [2368, 448, 1, 256]
-    - [708, 5238.93]
+    - [844, 5238.93]
   - - [4288, 256, 1, 3328]
-    - [679, 6751.34]
+    - [815, 6751.34]
   - - [1856, 704, 1, 128]
-    - [661, 3525.56]
+    - [797, 3525.56]
   - - [1408, 64, 1, 256]
-    - [620, 1884.8]
+    - [756, 1884.8]
   - - [64, 1856, 1, 128]
-    - [597, 888.205]
+    - [733, 888.205]
   - - [4, 256, 1, 128]
-    - [714, 7.38178]
+    - [850, 7.38178]
   - - [512, 16, 1, 512]
-    - [627, 663.756]
+    - [763, 663.756]
   - - [704, 5888, 1, 128]
-    - [661, 4424.55]
+    - [797, 4424.55]
   - - [6784, 3584, 1, 128]
-    - [663, 3823.4]
+    - [799, 3823.4]
   - - [1024, 64, 1, 256]
-    - [605, 1379.81]
+    - [741, 1379.81]
   - - [64, 2368, 1, 256]
-    - [679, 2424.93]
+    - [815, 2424.93]
   - - [5124, 1500, 1, 2048]
-    - [697, 8391.84]
+    - [833, 8391.84]
   - - [4288, 5056, 1, 3328]
-    - [683, 9274.14]
+    - [819, 9274.14]
   - - [4, 1856, 1, 1280]
-    - [627, 453.474]
+    - [763, 453.474]
   - - [4288, 128, 1, 128]
-    - [661, 2157.8]
+    - [797, 2157.8]
   - - [512, 2, 1, 500000]
-    - [571, 516.895]
+    - [707, 516.895]
   - - [1408, 1408, 1, 128]
-    - [662, 3600.49]
+    - [798, 3600.49]
   - - [7680, 16, 1, 2560]
-    - [642, 3542.59]
+    - [778, 3542.59]
   - - [1856, 128, 1, 128]
-    - [594, 1532.8]
+    - [730, 1532.8]
   - - [5056, 2368, 1, 256]
-    - [706, 7684.07]
+    - [842, 7684.07]
   - - [4288, 704, 1, 3328]
-    - [679, 7642.96]
+    - [815, 7642.96]
   - - [448, 3584, 1, 256]
-    - [689, 6734.07]
+    - [825, 6734.07]
   - - [2368, 64, 1, 1280]
-    - [640, 3962.24]
+    - [776, 3962.24]
   - - [2368, 1024, 1, 1280]
-    - [691, 7989.64]
+    - [827, 7989.64]
   - - [2944, 1408, 1, 3328]
-    - [694, 8954.66]
+    - [830, 8954.66]
   - - [6144, 1500, 1, 2560]
-    - [712, 8170.07]
+    - [848, 8170.07]
   - - [4224, 1, 1, 128]
-    - [643, 76.9]
+    - [779, 76.9]
   - - [1024, 1408, 1, 3328]
-    - [709, 6961.38]
+    - [845, 6961.38]
   - - [2944, 5888, 1, 1280]
-    - [690, 8797.53]
+    - [826, 8797.53]
   - - [8448, 2, 1, 2816]
-    - [565, 496.958]
+    - [701, 496.958]
   - - [1408, 4, 1, 1280]
-    - [720, 471.891]
+    - [856, 471.891]
   - - [5888, 3584, 1, 256]
-    - [697, 8246.3]
+    - [833, 8246.3]
   - - [2368, 5056, 1, 128]
-    - [660, 4906.9]
+    - [796, 4906.9]
   - - [1408, 1856, 1, 3328]
-    - [684, 9006.8]
+    - [820, 9006.8]
   - - [4, 4, 1, 3328]
-    - [632, 5.83793]
+    - [768, 5.83793]
   - - [5888, 5056, 1, 3328]
-    - [697, 8545.1]
+    - [833, 8545.1]
   - - [7680, 6000, 1, 2560]
-    - [690, 7996.0]
+    - [826, 7996.0]
   - - [6784, 1408, 1, 1280]
-    - [684, 8888.13]
+    - [820, 8888.13]
   - - [4, 1024, 1, 1280]
-    - [632, 302.109]
+    - [768, 302.109]
   - - [512, 3000, 1, 2560]
-    - [684, 7809.43]
+    - [820, 7809.43]
   - - [704, 2944, 1, 256]
-    - [689, 4909.24]
+    - [825, 4909.24]
   - - [4288, 64, 1, 256]
-    - [689, 3264.72]
+    - [825, 3264.72]
   - - [6784, 5888, 1, 3328]
-    - [697, 9544.52]
+    - [833, 9544.52]
   - - [2368, 4288, 1, 128]
-    - [660, 4873.03]
+    - [796, 4873.03]
   - - [64, 4288, 1, 1280]
-    - [646, 4656.42]
+    - [782, 4656.42]
   - - [6784, 64, 1, 1280]
-    - [679, 6230.43]
+    - [815, 6230.43]
   - - [3584, 128, 1, 128]
-    - [587, 2315.57]
+    - [723, 2315.57]
   - - [1024, 6784, 1, 128]
-    - [661, 3758.94]
+    - [797, 3758.94]
   - - [1024, 1500, 1, 1536]
-    - [710, 6972.0]
+    - [846, 6972.0]
   - - [1408, 64, 1, 3328]
-    - [613, 5079.58]
+    - [749, 5079.58]
   - - [6784, 4, 1, 256]
-    - [599, 487.938]
+    - [735, 487.938]
   - - [1408, 1408, 1, 1280]
-    - [712, 7423.31]
+    - [848, 7423.31]
   - - [256, 2368, 1, 256]
-    - [679, 4986.9]
+    - [815, 4986.9]
   - - [3072, 3000, 1, 1024]
-    - [681, 7844.01]
+    - [817, 7844.01]
   - - [448, 4288, 1, 3328]
-    - [680, 7204.79]
+    - [816, 7204.79]
   - - [2368, 1408, 1, 256]
-    - [712, 5897.96]
+    - [848, 5897.96]
   - - [704, 2368, 1, 256]
-    - [679, 7000.93]
+    - [815, 7000.93]
   - - [1024, 24000, 1, 2560]
-    - [706, 8562.31]
+    - [842, 8562.31]
   - - [2944, 448, 1, 1280]
-    - [694, 7155.93]
+    - [830, 7155.93]
   - - [5888, 2368, 1, 3328]
-    - [693, 9252.42]
+    - [829, 9252.42]
   - - [1024, 256, 1, 128]
-    - [675, 1255.88]
+    - [811, 1255.88]
   - - [5124, 9124, 1, 1760]
-    - [687, 9168.49]
+    - [823, 9168.49]
   - - [448, 1408, 1, 1280]
-    - [679, 6150.34]
+    - [815, 6150.34]
   - - [448, 1856, 1, 1280]
-    - [694, 6489.76]
+    - [830, 6489.76]
   - - [4288, 448, 1, 1280]
-    - [709, 6887.02]
+    - [845, 6887.02]
   - - [5888, 704, 1, 3328]
-    - [689, 8230.64]
+    - [825, 8230.64]
   - - [4, 1856, 1, 128]
-    - [715, 27.0964]
+    - [851, 27.0964]
   - - [5056, 256, 1, 128]
-    - [660, 3469.01]
+    - [796, 3469.01]
   - - [1856, 256, 1, 128]
-    - [661, 2534.16]
+    - [797, 2534.16]
   - - [128, 2368, 1, 256]
-    - [679, 3660.22]
+    - [815, 3660.22]
   - - [704, 4, 1, 256]
-    - [627, 134.596]
+    - [763, 134.596]
   - - [1024, 6784, 1, 3328]
-    - [681, 8482.75]
+    - [817, 8482.75]
   - - [1408, 5888, 1, 128]
-    - [661, 4644.52]
+    - [797, 4644.52]
   - - [4288, 4, 1, 128]
-    - [714, 35.8799]
+    - [850, 35.8799]
   - - [512, 3136, 1, 2048]
-    - [726, 6386.69]
+    - [862, 6386.69]
   - - [1408, 1024, 1, 256]
-    - [679, 5440.82]
+    - [815, 5440.82]
   - - [128, 64, 1, 256]
-    - [609, 380.019]
+    - [745, 380.019]
   - - [8448, 1500, 1, 2816]
-    - [676, 9155.92]
+    - [812, 9155.92]
   - - [256, 704, 1, 128]
-    - [661, 895.623]
+    - [797, 895.623]
   - - [2560, 7000, 1, 2560]
-    - [688, 8565.66]
+    - [824, 8565.66]
   - - [5888, 64, 1, 1280]
-    - [703, 5007.83]
+    - [839, 5007.83]
   - - [128, 4, 1, 3328]
-    - [722, 165.21]
+    - [858, 165.21]
   - - [5056, 6784, 1, 1280]
-    - [687, 9331.48]
+    - [823, 9331.48]
   - - [1024, 448, 1, 1280]
-    - [689, 6501.46]
+    - [825, 6501.46]
   - - [704, 5056, 1, 3328]
-    - [676, 8090.13]
+    - [812, 8090.13]
   - - [128, 5056, 1, 256]
-    - [689, 5537.37]
+    - [825, 5537.37]
   - - [3584, 5056, 1, 3328]
-    - [685, 8633.24]
+    - [821, 8633.24]
   - - [1856, 4, 1, 3328]
-    - [723, 582.814]
+    - [859, 582.814]
   - - [4, 2944, 1, 128]
-    - [714, 114.292]
+    - [850, 114.292]
   - - [2368, 2944, 1, 3328]
-    - [693, 8749.55]
+    - [829, 8749.55]
   - - [448, 448, 1, 1280]
-    - [617, 4694.93]
+    - [753, 4694.93]
   - - [128, 4, 1, 128]
-    - [714, 4.94734]
+    - [850, 4.94734]
   - - [2368, 3584, 1, 256]
-    - [693, 8418.59]
+    - [829, 8418.59]
   - - [4608, 3000, 1, 1536]
-    - [683, 9076.47]
+    - [819, 9076.47]
   - - [1024, 256, 1, 1280]
-    - [689, 5562.84]
+    - [825, 5562.84]
   - - [5056, 3584, 1, 1280]
-    - [683, 8365.09]
+    - [819, 8365.09]
   - - [5124, 9124, 1, 4096]
-    - [693, 8648.58]
+    - [829, 8648.58]
   - - [7680, 48000, 1, 2560]
-    - [687, 4098.26]
+    - [823, 4098.26]
   - - [1856, 704, 1, 1280]
-    - [679, 8141.04]
+    - [815, 8141.04]
   - - [1856, 2944, 1, 1280]
-    - [681, 8214.4]
+    - [817, 8214.4]
   - - [4608, 1500, 1, 1536]
-    - [689, 8424.53]
+    - [825, 8424.53]
   - - [1024, 48000, 1, 2816]
-    - [680, 8513.18]
+    - [816, 8513.18]
   - - [5124, 9124, 1, 2560]
-    - [697, 8641.24]
+    - [833, 8641.24]
   - - [128, 1024, 1, 256]
-    - [611, 2356.45]
+    - [747, 2356.45]
   - - [2944, 1408, 1, 256]
-    - [693, 8254.29]
+    - [829, 8254.29]
   - - [4288, 1408, 1, 3328]
-    - [687, 9138.49]
+    - [823, 9138.49]
   - - [3584, 64, 1, 3328]
-    - [600, 5629.62]
+    - [736, 5629.62]
   - - [5888, 2944, 1, 128]
-    - [661, 4119.33]
+    - [797, 4119.33]
   - - [2944, 1024, 1, 128]
-    - [663, 4002.96]
+    - [799, 4002.96]
   - - [128, 1, 1, 1024]
-    - [657, 20.0805]
+    - [793, 20.0805]
   - - [5124, 700, 1, 2048]
-    - [694, 7653.84]
+    - [830, 7653.84]
   - - [4, 4288, 1, 1280]
-    - [627, 587.749]
+    - [763, 587.749]
   - - [6784, 5056, 1, 128]
-    - [666, 4855.85]
+    - [802, 4855.85]
   - - [256, 1024, 1, 3328]
-    - [689, 6116.28]
+    - [825, 6116.28]
   - - [3584, 4, 1, 256]
-    - [601, 395.576]
+    - [737, 395.576]
   - - [1856, 64, 1, 3328]
-    - [616, 5732.6]
+    - [752, 5732.6]
   - - [4, 128, 1, 3328]
-    - [722, 162.689]
+    - [858, 162.689]
   - - [256, 12544, 1, 1024]
-    - [726, 7628.92]
+    - [862, 7628.92]
   - - [5888, 1408, 1, 3328]
-    - [687, 9524.43]
+    - [823, 9524.43]
   - - [448, 2944, 1, 128]
-    - [661, 3163.91]
+    - [797, 3163.91]
   - - [2368, 1856, 1, 256]
-    - [689, 8167.36]
+    - [825, 8167.36]
   - - [256, 5056, 1, 256]
-    - [679, 7292.13]
+    - [815, 7292.13]
   - - [5056, 5056, 1, 128]
-    - [667, 5043.99]
+    - [803, 5043.99]
   - - [448, 3584, 1, 3328]
-    - [684, 6839.56]
+    - [820, 6839.56]
   - - [4, 5056, 1, 3328]
-    - [632, 639.886]
+    - [768, 639.886]
   - - [256, 256, 1, 128]
-    - [591, 554.902]
+    - [727, 554.902]
   - - [5888, 256, 1, 128]
-    - [663, 3562.47]
+    - [799, 3562.47]
   - - [4, 5056, 1, 128]
-    - [714, 149.907]
+    - [850, 149.907]
   - - [448, 256, 1, 256]
-    - [610, 2121.5]
+    - [746, 2121.5]
   - - [704, 4, 1, 3328]
-    - [720, 455.919]
+    - [856, 455.919]
   - - [1408, 256, 1, 256]
-    - [679, 4352.68]
+    - [815, 4352.68]
   - - [3584, 1856, 1, 128]
-    - [670, 3933.23]
+    - [806, 3933.23]
   - - [4288, 4288, 1, 128]
-    - [661, 4888.61]
+    - [797, 4888.61]
   - - [1856, 1024, 1, 3328]
-    - [697, 8242.64]
+    - [833, 8242.64]
   - - [1856, 4288, 1, 128]
-    - [666, 4647.4]
+    - [802, 4647.4]
   - - [1024, 6000, 1, 2560]
-    - [691, 8526.75]
+    - [827, 8526.75]
   - - [1024, 5056, 1, 256]
-    - [676, 7343.83]
+    - [812, 7343.83]
   - - [5056, 5888, 1, 128]
-    - [665, 4053.5]
+    - [801, 4053.5]
   - - [2368, 1408, 1, 3328]
-    - [679, 8466.2]
+    - [815, 8466.2]
   - - [1024, 48000, 1, 1536]
-    - [697, 9487.74]
+    - [833, 9487.74]
   - - [5888, 448, 1, 256]
-    - [710, 6081.54]
+    - [846, 6081.54]
   - - [5888, 6784, 1, 128]
-    - [662, 4820.27]
+    - [798, 4820.27]
   - - [2368, 4, 1, 3328]
-    - [721, 620.628]
+    - [857, 620.628]
   - - [6784, 5056, 1, 1280]
-    - [706, 8525.5]
+    - [842, 8525.5]
   - - [5056, 704, 1, 1280]
-    - [676, 7933.06]
+    - [812, 7933.06]
   - - [1024, 48000, 1, 2560]
-    - [697, 8877.94]
+    - [833, 8877.94]
   - - [4608, 32, 1, 1536]
-    - [626, 3556.83]
+    - [762, 3556.83]
   - - [1024, 2368, 1, 128]
-    - [669, 2943.75]
+    - [805, 2943.75]
   - - [128, 704, 1, 256]
-    - [610, 2059.8]
+    - [746, 2059.8]
   - - [2368, 448, 1, 3328]
-    - [689, 5290.42]
+    - [825, 5290.42]
   - - [128, 5888, 1, 3328]
-    - [689, 7764.43]
+    - [825, 7764.43]
   - - [448, 128, 1, 1280]
-    - [640, 3373.28]
+    - [776, 3373.28]
   - - [6784, 4, 1, 3328]
-    - [599, 676.063]
+    - [735, 676.063]
   - - [4288, 4, 1, 1280]
-    - [632, 564.775]
+    - [768, 564.775]
   - - [1024, 64, 1, 3328]
-    - [646, 4293.48]
+    - [782, 4293.48]
   - - [3072, 48000, 1, 1024]
-    - [696, 7826.51]
+    - [832, 7826.51]
   - - [256, 4, 1, 128]
-    - [715, 4.93304]
+    - [851, 4.93304]
   - - [1024, 5888, 1, 128]
-    - [674, 3610.46]
+    - [810, 3610.46]
   - - [3584, 5888, 1, 128]
-    - [662, 4722.35]
+    - [798, 4722.35]
   - - [5056, 5888, 1, 256]
-    - [697, 9159.11]
+    - [833, 9159.11]
   - - [2368, 1024, 1, 256]
-    - [689, 7482.71]
+    - [825, 7482.71]
   - - [2944, 1856, 1, 256]
-    - [693, 8209.0]
+    - [829, 8209.0]
   - - [1856, 6784, 1, 1280]
-    - [689, 8205.43]
+    - [825, 8205.43]
   - - [64, 5056, 1, 128]
-    - [584, 2079.35]
+    - [720, 2079.35]
   - - [64, 6784, 1, 128]
-    - [584, 2437.58]
+    - [720, 2437.58]
   - - [448, 704, 1, 128]
-    - [660, 1506.45]
+    - [796, 1506.45]
   - - [4, 1024, 1, 128]
-    - [715, 17.3463]
+    - [851, 17.3463]
   - - [1408, 448, 1, 256]
-    - [679, 5545.45]
+    - [815, 5545.45]
   - - [1408, 704, 1, 128]
-    - [665, 2931.65]
+    - [801, 2931.65]
   - - [64, 256, 1, 3328]
-    - [651, 2816.52]
+    - [787, 2816.52]
   - - [8448, 3000, 1, 2816]
-    - [685, 8872.99]
+    - [821, 8872.99]
   - - [6784, 448, 1, 3328]
-    - [679, 7555.48]
+    - [815, 7555.48]
   - - [5056, 1856, 1, 1280]
-    - [677, 8652.36]
+    - [813, 8652.36]
   - - [1408, 1024, 1, 3328]
-    - [681, 7781.42]
+    - [817, 7781.42]
   - - [2368, 256, 1, 3328]
-    - [685, 5392.06]
+    - [821, 5392.06]
   - - [7680, 1500, 1, 2560]
-    - [683, 8919.72]
+    - [819, 8919.72]
   - - [5888, 3584, 1, 1280]
-    - [683, 9235.85]
+    - [819, 9235.85]
   - - [1856, 3584, 1, 3328]
-    - [694, 8348.83]
+    - [830, 8348.83]
   - - [5888, 128, 1, 1280]
-    - [679, 5928.61]
+    - [815, 5928.61]
   - - [1024, 2944, 1, 256]
-    - [710, 6630.27]
+    - [846, 6630.27]
   - - [448, 6784, 1, 1280]
-    - [691, 8332.45]
+    - [827, 8332.45]
   - - [256, 3584, 1, 1280]
-    - [681, 7140.19]
+    - [817, 7140.19]
   - - [448, 128, 1, 128]
-    - [583, 552.813]
+    - [719, 552.813]
   - - [704, 5056, 1, 256]
-    - [689, 7959.68]
+    - [825, 7959.68]
   - - [3584, 1024, 1, 3328]
-    - [681, 8386.84]
+    - [817, 8386.84]
   - - [2944, 1856, 1, 1280]
-    - [697, 7670.29]
+    - [833, 7670.29]
   - - [128, 256, 1, 128]
-    - [598, 258.37]
+    - [734, 258.37]
   - - [5056, 256, 1, 256]
-    - [689, 5736.77]
+    - [825, 5736.77]
   - - [2944, 4288, 1, 3328]
-    - [676, 8730.8]
+    - [812, 8730.8]
   - - [2368, 3584, 1, 3328]
-    - [678, 8437.71]
+    - [814, 8437.71]
   - - [2944, 704, 1, 1280]
-    - [689, 8342.53]
+    - [825, 8342.53]
   - - [128, 4, 1, 256]
-    - [609, 24.9242]
+    - [745, 24.9242]
   - - [2944, 3584, 1, 1280]
-    - [691, 8322.11]
+    - [827, 8322.11]
   - - [1856, 5888, 1, 1280]
-    - [676, 8911.91]
+    - [812, 8911.91]
   - - [256, 256, 1, 1280]
-    - [640, 3653.67]
+    - [776, 3653.67]
   - - [4608, 24000, 1, 1536]
-    - [690, 8931.06]
+    - [826, 8931.06]
   - - [4288, 1408, 1, 256]
-    - [677, 8338.45]
+    - [813, 8338.45]
   - - [3584, 64, 1, 256]
-    - [689, 3414.07]
+    - [825, 3414.07]
   - - [64, 1856, 1, 3328]
-    - [616, 5460.23]
+    - [752, 5460.23]
   - - [256, 1408, 1, 128]
-    - [660, 1424.09]
+    - [796, 1424.09]
   - - [5888, 1408, 1, 128]
-    - [671, 4177.88]
+    - [807, 4177.88]
   - - [4288, 2368, 1, 1280]
-    - [680, 8596.05]
+    - [816, 8596.05]
   - - [4, 4288, 1, 256]
-    - [716, 370.954]
+    - [852, 370.954]
   - - [256, 4288, 1, 128]
-    - [661, 2907.99]
+    - [797, 2907.99]
   - - [256, 128, 1, 3328]
-    - [654, 3644.88]
+    - [790, 3644.88]
   - - [512, 8, 1, 500000]
-    - [566, 2025.89]
+    - [702, 2025.89]
   - - [6784, 2368, 1, 256]
-    - [679, 8470.41]
+    - [815, 8470.41]
   - - [5888, 128, 1, 128]
-    - [584, 2604.55]
+    - [720, 2604.55]
   - - [1408, 448, 1, 3328]
-    - [689, 6540.62]
+    - [825, 6540.62]
   - - [1024, 24000, 1, 2816]
-    - [706, 8364.03]
+    - [842, 8364.03]
   - - [704, 1024, 1, 1280]
-    - [689, 7277.28]
+    - [825, 7277.28]
   - - [1856, 256, 1, 3328]
-    - [679, 7039.14]
+    - [815, 7039.14]
   - - [1856, 2944, 1, 256]
-    - [688, 8151.59]
+    - [824, 8151.59]
   - - [5056, 1024, 1, 128]
-    - [662, 4422.82]
+    - [798, 4422.82]
   - - [64, 5888, 1, 1280]
-    - [640, 4854.62]
+    - [776, 4854.62]
   - - [7680, 3000, 1, 2560]
-    - [693, 8789.57]
+    - [829, 8789.57]
   - - [4224, 1500, 1, 176]
-    - [689, 7902.14]
+    - [825, 7902.14]
   - - [5124, 700, 1, 2560]
-    - [679, 8232.59]
+    - [815, 8232.59]
   - - [6784, 256, 1, 128]
-    - [660, 3548.92]
+    - [796, 3548.92]
   - - [5888, 704, 1, 128]
-    - [667, 3959.65]
+    - [803, 3959.65]
   - - [6784, 64, 1, 128]
-    - [595, 2150.82]
+    - [731, 2150.82]
   - - [4, 448, 1, 1280]
-    - [720, 268.063]
+    - [856, 268.063]
   - - [1024, 4288, 1, 1280]
-    - [694, 8363.72]
+    - [830, 8363.72]
   - - [2368, 5056, 1, 3328]
-    - [693, 8581.85]
+    - [829, 8581.85]
   - - [448, 4, 1, 128]
-    - [714, 16.8673]
+    - [850, 16.8673]
   - - [4, 256, 1, 3328]
-    - [723, 201.988]
+    - [859, 201.988]
   - - [4288, 1024, 1, 3328]
-    - [689, 8567.72]
+    - [825, 8567.72]
   - - [6144, 48000, 1, 2560]
-    - [697, 3751.68]
+    - [833, 3751.68]
   - - [1024, 5056, 1, 3328]
-    - [676, 9440.66]
+    - [812, 9440.66]
   - - [1024, 1856, 1, 3328]
-    - [697, 8244.36]
+    - [833, 8244.36]
   - - [704, 704, 1, 1280]
-    - [689, 5529.99]
+    - [825, 5529.99]
   - - [128, 2368, 1, 1280]
-    - [646, 5062.38]
+    - [782, 5062.38]
   - - [3584, 4, 1, 128]
-    - [715, 61.5949]
+    - [851, 61.5949]
   - - [3584, 256, 1, 1280]
-    - [713, 6260.24]
+    - [849, 6260.24]
   - - [4, 128, 1, 128]
-    - [714, 1.2587]
+    - [850, 1.2587]
   - - [128, 4288, 1, 3328]
-    - [625, 6186.15]
+    - [761, 6186.15]
   - - [5124, 1500, 1, 2560]
-    - [693, 8432.62]
+    - [829, 8432.62]
   - - [3584, 128, 1, 1280]
-    - [679, 6547.85]
+    - [815, 6547.85]
   - - [4, 256, 1, 1280]
-    - [632, 180.144]
+    - [768, 180.144]
   - - [128, 704, 1, 3328]
-    - [604, 5177.81]
+    - [740, 5177.81]
   - - [4288, 6784, 1, 256]
-    - [677, 9005.34]
+    - [813, 9005.34]
   - - [3584, 2944, 1, 3328]
-    - [694, 8872.27]
+    - [830, 8872.27]
   - - [128, 1856, 1, 256]
-    - [679, 3690.48]
+    - [815, 3690.48]
   - - [64, 4288, 1, 256]
-    - [679, 3007.57]
+    - [815, 3007.57]
   - - [4, 3584, 1, 3328]
-    - [609, 639.99]
+    - [745, 639.99]
   - - [64, 4, 1, 3328]
-    - [723, 98.7074]
+    - [859, 98.7074]
   - - [4, 64, 1, 3328]
-    - [723, 91.9069]
+    - [859, 91.9069]
   - - [35, 700, 1, 2560]
-    - [577, 2397.65]
+    - [713, 2397.65]
   - - [5888, 2944, 1, 256]
-    - [687, 9031.28]
+    - [823, 9031.28]
   - - [4, 2368, 1, 256]
-    - [627, 256.968]
+    - [763, 256.968]
   - - [1856, 64, 1, 256]
-    - [611, 2222.96]
+    - [747, 2222.96]
   - - [5056, 128, 1, 1280]
-    - [679, 6557.85]
+    - [815, 6557.85]
   - - [448, 4288, 1, 1280]
-    - [703, 6891.66]
+    - [839, 6891.66]
   - - [256, 4288, 1, 256]
-    - [679, 6250.51]
+    - [815, 6250.51]
   - - [1024, 4288, 1, 128]
-    - [663, 3951.41]
+    - [799, 3951.41]
   - - [4, 1024, 1, 256]
-    - [627, 182.144]
+    - [763, 182.144]
   - - [5056, 4288, 1, 256]
-    - [683, 8933.43]
+    - [819, 8933.43]
   - - [1024, 448, 1, 256]
-    - [689, 4573.33]
+    - [825, 4573.33]
   - - [1024, 3584, 1, 256]
-    - [684, 7447.18]
+    - [820, 7447.18]
   - - [2944, 128, 1, 1280]
-    - [689, 5417.27]
+    - [825, 5417.27]
   - - [49, 2048, 64, 512]
-    - [732, 5916.91]
+    - [868, 5916.91]
   - - [2560, 32, 1, 2560]
-    - [626, 4076.99]
+    - [762, 4076.99]
   - - [64, 256, 1, 256]
-    - [643, 689.953]
+    - [779, 689.953]
   - - [1024, 4, 1, 512]
-    - [635, 288.17]
+    - [771, 288.17]
   - - [128, 2368, 1, 128]
-    - [589, 1809.68]
+    - [725, 1809.68]
   - - [256, 704, 1, 1280]
-    - [679, 4033.08]
+    - [815, 4033.08]
   - - [64, 2368, 1, 128]
-    - [580, 1165.88]
+    - [716, 1165.88]
   - - [176, 1500, 1, 1408]
-    - [607, 4922.13]
+    - [743, 4922.13]
   - - [448, 5888, 1, 1280]
-    - [689, 7550.21]
+    - [825, 7550.21]
   - - [512, 3000, 1, 2048]
-    - [711, 6562.44]
+    - [847, 6562.44]
   - - [5056, 448, 1, 128]
-    - [661, 3947.97]
+    - [797, 3947.97]
   - - [4288, 704, 1, 1280]
-    - [679, 8243.82]
+    - [815, 8243.82]
   - - [3584, 2944, 1, 128]
-    - [671, 4284.88]
+    - [807, 4284.88]
   - - [6784, 256, 1, 1280]
-    - [679, 7955.21]
+    - [815, 7955.21]
   - - [256, 2944, 1, 1280]
-    - [709, 6691.9]
+    - [845, 6691.9]
   - - [2560, 128, 1, 2560]
-    - [647, 5347.23]
+    - [783, 5347.23]
   - - [2368, 5888, 1, 3328]
-    - [684, 8919.07]
+    - [820, 8919.07]
   - - [4, 64, 1, 256]
-    - [632, 13.1032]
+    - [768, 13.1032]
   - - [704, 1024, 1, 3328]
-    - [709, 6648.12]
+    - [845, 6648.12]
   - - [2368, 1856, 1, 1280]
-    - [695, 8016.51]
+    - [831, 8016.51]
   - - [448, 5056, 1, 3328]
-    - [679, 8231.73]
+    - [815, 8231.73]
   - - [128, 448, 1, 128]
-    - [588, 441.208]
+    - [724, 441.208]
   - - [128, 6784, 1, 256]
-    - [689, 5850.05]
+    - [825, 5850.05]
   - - [512, 4, 1, 500000]
-    - [569, 1027.14]
+    - [705, 1027.14]
   - - [3584, 4288, 1, 128]
-    - [665, 4260.9]
+    - [801, 4260.9]
   - - [64, 448, 1, 128]
-    - [588, 253.554]
+    - [724, 253.554]
   - - [1024, 6000, 1, 2816]
-    - [693, 8886.14]
+    - [829, 8886.14]
   - - [5888, 4288, 1, 3328]
-    - [693, 8968.16]
+    - [829, 8968.16]
   - - [2368, 704, 1, 256]
-    - [709, 4663.24]
+    - [845, 4663.24]
   - - [256, 1856, 1, 3328]
-    - [681, 6480.63]
+    - [817, 6480.63]
   - - [1856, 128, 1, 256]
-    - [679, 3726.66]
+    - [815, 3726.66]
   - - [6784, 128, 1, 128]
-    - [582, 2824.01]
+    - [718, 2824.01]
   - - [3584, 1408, 1, 128]
-    - [665, 3666.78]
+    - [801, 3666.78]
   - - [1856, 5056, 1, 1280]
-    - [676, 8651.36]
+    - [812, 8651.36]
   - - [2944, 1024, 1, 1280]
-    - [687, 8765.21]
+    - [823, 8765.21]
   - - [5056, 4, 1, 256]
-    - [601, 428.688]
+    - [737, 428.688]
   - - [3584, 5888, 1, 3328]
-    - [687, 9347.75]
+    - [823, 9347.75]
   - - [2368, 4288, 1, 256]
-    - [697, 8013.1]
+    - [833, 8013.1]
   - - [1024, 2368, 1, 3328]
-    - [684, 8119.29]
+    - [820, 8119.29]
   - - [128, 3584, 1, 128]
-    - [584, 2584.62]
+    - [720, 2584.62]
   - - [704, 1408, 1, 256]
-    - [689, 6792.27]
+    - [825, 6792.27]
   - - [4096, 128, 1, 4096]
-    - [711, 6624.84]
+    - [847, 6624.84]
   - - [1024, 2944, 1, 128]
-    - [663, 3771.37]
+    - [799, 3771.37]
   - - [1024, 3584, 1, 1280]
-    - [684, 8952.71]
+    - [820, 8952.71]
   - - [4288, 5888, 1, 3328]
-    - [697, 9048.05]
+    - [833, 9048.05]
   - - [4288, 4, 1, 3328]
-    - [602, 615.206]
+    - [738, 615.206]
   - - [4608, 16, 1, 1536]
-    - [606, 2894.94]
+    - [742, 2894.94]
   - - [5888, 64, 1, 128]
-    - [593, 1827.16]
+    - [729, 1827.16]
   - - [4, 5888, 1, 128]
-    - [714, 179.544]
+    - [850, 179.544]
   - - [1024, 2944, 1, 3328]
-    - [685, 8298.77]
+    - [821, 8298.77]
   - - [2048, 64, 1, 2048]
-    - [614, 4963.77]
+    - [750, 4963.77]
   - - [6144, 2, 1, 2560]
-    - [603, 477.88]
+    - [739, 477.88]
   - - [256, 6784, 1, 1280]
-    - [677, 7491.94]
+    - [813, 7491.94]
   - - [1856, 3584, 1, 256]
-    - [689, 7580.6]
+    - [825, 7580.6]
   - - [128, 448, 1, 3328]
-    - [640, 4417.71]
+    - [776, 4417.71]
   - - [6784, 1856, 1, 128]
-    - [668, 4621.74]
+    - [804, 4621.74]
   - - [1024, 1500, 1, 2048]
-    - [689, 6284.5]
+    - [825, 6284.5]
   - - [5056, 128, 1, 256]
-    - [689, 5705.16]
+    - [825, 5705.16]
   - - [512, 24000, 1, 2816]
-    - [676, 8919.85]
+    - [812, 8919.85]
   - - [256, 5888, 1, 1280]
-    - [691, 7978.0]
+    - [827, 7978.0]
   - - [4, 128, 1, 1280]
-    - [632, 94.2609]
+    - [768, 94.2609]
   - - [4288, 6784, 1, 3328]
-    - [697, 9012.58]
+    - [833, 9012.58]
   - - [6784, 128, 1, 1280]
-    - [681, 6807.35]
+    - [817, 6807.35]
   - - [64, 1408, 1, 256]
-    - [610, 2045.19]
+    - [746, 2045.19]
   - - [2368, 1408, 1, 128]
-    - [661, 4340.73]
+    - [797, 4340.73]
   - - [1856, 448, 1, 256]
-    - [710, 3639.99]
+    - [846, 3639.99]
   - - [1408, 1024, 1, 128]
-    - [669, 3417.68]
+    - [805, 3417.68]
   - - [128, 64, 1, 128]
-    - [590, 68.7241]
+    - [726, 68.7241]
   - - [6784, 3584, 1, 3328]
-    - [687, 9425.63]
+    - [823, 9425.63]
   - - [1760, 7000, 1, 1760]
-    - [684, 8780.41]
+    - [820, 8780.41]
   - - [1024, 704, 1, 3328]
-    - [701, 5644.6]
+    - [837, 5644.6]
   - - [64, 64, 1, 128]
-    - [580, 38.2023]
+    - [716, 38.2023]
   - - [2368, 5056, 1, 1280]
-    - [698, 8462.41]
+    - [834, 8462.41]
   - - [64, 4, 1, 1280]
-    - [632, 46.6455]
+    - [768, 46.6455]
   - - [1408, 2368, 1, 1280]
-    - [684, 8235.08]
+    - [820, 8235.08]
   - - [128, 1408, 1, 1280]
-    - [646, 4491.66]
+    - [782, 4491.66]
   - - [1024, 1, 1, 512]
-    - [650, 82.02]
+    - [786, 82.02]
   - - [4, 1408, 1, 128]
-    - [714, 56.42]
+    - [850, 56.42]
   - - [704, 4288, 1, 128]
-    - [668, 3942.96]
+    - [804, 3942.96]
   - - [128, 1856, 1, 3328]
-    - [634, 6111.93]
+    - [770, 6111.93]
   - - [2944, 2944, 1, 256]
-    - [693, 8640.22]
+    - [829, 8640.22]
   - - [2944, 4, 1, 1280]
-    - [627, 554.265]
+    - [763, 554.265]
   - - [5888, 4, 1, 256]
-    - [609, 435.744]
+    - [745, 435.744]
   - - [6784, 256, 1, 256]
-    - [689, 7025.96]
+    - [825, 7025.96]
   - - [256, 5056, 1, 3328]
-    - [689, 8249.57]
+    - [825, 8249.57]
   - - [128, 4288, 1, 1280]
-    - [679, 5561.74]
+    - [815, 5561.74]
   - - [5056, 1856, 1, 128]
-    - [673, 3975.28]
+    - [809, 3975.28]
   - - [1024, 3000, 1, 1536]
-    - [694, 8544.54]
+    - [830, 8544.54]
   - - [5056, 1024, 1, 3328]
-    - [687, 9361.47]
+    - [823, 9361.47]
   - - [128, 128, 1, 256]
-    - [639, 699.151]
+    - [775, 699.151]
   - - [1760, 64, 1, 1760]
-    - [607, 4956.26]
+    - [743, 4956.26]
   - - [4288, 3584, 1, 3328]
-    - [707, 7506.18]
+    - [843, 7506.18]
   - - [448, 704, 1, 3328]
-    - [679, 4697.66]
+    - [815, 4697.66]
   - - [448, 448, 1, 128]
-    - [596, 1249.62]
+    - [732, 1249.62]
   - - [1024, 2368, 1, 1280]
-    - [689, 7756.44]
+    - [825, 7756.44]
   - - [1856, 704, 1, 3328]
-    - [689, 8340.66]
+    - [825, 8340.66]
   - - [512, 1500, 1, 2560]
-    - [691, 6041.39]
+    - [827, 6041.39]
   - - [5888, 6784, 1, 3328]
-    - [687, 9199.38]
+    - [823, 9199.38]
   - - [704, 4288, 1, 1280]
-    - [681, 8342.06]
+    - [817, 8342.06]
   - - [128, 50176, 1, 512]
-    - [727, 7589.48]
+    - [863, 7589.48]
   - - [704, 256, 1, 256]
-    - [679, 2912.81]
+    - [815, 2912.81]
   - - [1024, 48000, 1, 2048]
-    - [684, 8947.42]
+    - [820, 8947.42]
   - - [4288, 1024, 1, 128]
-    - [660, 4291.75]
+    - [796, 4291.75]
   - - [3136, 64, 128, 64]
-    - [742, 8175.16]
-  - - [784, 512, 64, 128]
-    - [740, 8378.44]
-  - - [3136, 256, 64, 64]
-    - [743, 8506.75]
-  - - [12544, 1024, 1, 256]
-    - [736, 8928.03]
+    - [878, 8175.16]
   - - [784, 128, 128, 512]
-    - [741, 8190.63]
+    - [877, 8190.63]
   - - [784, 512, 256, 128]
-    - [739, 8637.24]
-  - - [3136, 64, 64, 256]
-    - [738, 8783.03]
-  - - [3136, 512, 1, 2048]
-    - [735, 7298.42]
-  - - [12544, 256, 1, 1024]
-    - [747, 7667.35]
-  - - [3136, 2048, 1, 512]
-    - [746, 8447.32]
+    - [875, 8637.24]
   - - [3136, 256, 256, 64]
-    - [739, 8663.18]
+    - [875, 8663.18]
   - - [3136, 64, 128, 256]
-    - [737, 8943.56]
-  - - [784, 128, 64, 512]
-    - [745, 8006.37]
+    - [873, 8943.56]
   - - [3136, 64, 256, 64]
-    - [742, 8267.22]
+    - [878, 8267.22]
   - - [784, 512, 128, 128]
-    - [739, 8564.35]
-  - - [3136, 64, 64, 64]
-    - [742, 8009.45]
+    - [875, 8564.35]
   - - [784, 128, 256, 512]
-    - [743, 8377.16]
+    - [879, 8377.16]
   - - [3136, 64, 256, 256]
-    - [744, 9033.98]
+    - [880, 9033.98]
   - - [3136, 256, 128, 64]
-    - [739, 8624.56]
+    - [875, 8624.56]
   - - [1024, 256, 1, 1024]
-    - [765, 6331.13]
+    - [901, 6331.13]
   - - [1024, 512, 1, 2048]
-    - [764, 8100.14]
+    - [900, 8100.14]
   - - [512, 200, 1, 512]
-    - [773, 2861.93]
+    - [909, 2861.93]
   - - [4096, 256, 1, 2048]
-    - [756, 8812.82]
+    - [892, 8812.82]
   - - [4096, 512, 1, 1024]
-    - [766, 9068.87]
+    - [902, 9068.87]
   - - [1024, 200, 1, 1024]
-    - [765, 5110.12]
+    - [901, 5110.12]
   - - [1024, 512, 1, 1024]
-    - [758, 7785.35]
+    - [894, 7785.35]
   - - [2048, 256, 1, 4096]
-    - [768, 8438.81]
+    - [904, 8438.81]
   - - [2048, 768, 1, 512]
-    - [750, 8618.53]
+    - [886, 8618.53]
   - - [512, 256, 1, 1024]
-    - [770, 4835.03]
+    - [906, 4835.03]
   - - [512, 768, 1, 2048]
-    - [767, 6909.04]
+    - [903, 6909.04]
   - - [2048, 256, 1, 1024]
-    - [763, 7941.98]
+    - [899, 7941.98]
   - - [1024, 256, 1, 2048]
-    - [760, 6997.9]
+    - [896, 6997.9]
   - - [2048, 200, 1, 512]
-    - [763, 5649.76]
+    - [899, 5649.76]
   - - [4096, 200, 1, 1024]
-    - [761, 6678.93]
+    - [897, 6678.93]
   - - [2048, 200, 1, 4096]
-    - [769, 6706.69]
+    - [905, 6706.69]
   - - [2048, 512, 1, 1024]
-    - [766, 8549.0]
+    - [902, 8549.0]
   - - [1024, 1024, 1, 512]
-    - [761, 8046.73]
+    - [897, 8046.73]
   - - [1024, 200, 1, 4096]
-    - [760, 5884.36]
+    - [896, 5884.36]
   - - [2048, 512, 1, 4096]
-    - [771, 8995.94]
+    - [907, 8995.94]
   - - [4096, 512, 1, 2048]
-    - [766, 9298.18]
-  - - [512, 256, 1, 2048]
-    - [759, 5186.26]
+    - [902, 9298.18]
   - - [4096, 1024, 1, 2048]
-    - [748, 9790.77]
+    - [884, 9790.77]
   - - [2048, 1024, 1, 2048]
-    - [749, 9278.9]
+    - [885, 9278.9]
   - - [1024, 200, 1, 512]
-    - [765, 4535.46]
+    - [901, 4535.46]
   - - [1024, 1024, 1, 4096]
-    - [756, 8967.39]
+    - [892, 8967.39]
   - - [2048, 1024, 1, 4096]
-    - [751, 9500.56]
+    - [887, 9500.56]
   - - [4096, 200, 1, 2048]
-    - [757, 7082.68]
+    - [893, 7082.68]
   - - [2048, 200, 1, 1024]
-    - [763, 6212.04]
+    - [899, 6212.04]
   - - [1024, 768, 1, 512]
-    - [764, 7401.81]
+    - [900, 7401.81]
   - - [2048, 512, 1, 512]
-    - [761, 8124.66]
+    - [897, 8124.66]
   - - [2048, 200, 1, 2048]
-    - [763, 6561.9]
+    - [899, 6561.9]
   - - [2048, 256, 1, 2048]
-    - [764, 8224.23]
+    - [900, 8224.23]
   - - [512, 768, 1, 512]
-    - [762, 6469.46]
+    - [898, 6469.46]
   - - [512, 200, 1, 1024]
-    - [765, 3755.74]
+    - [901, 3755.74]
   - - [4096, 1024, 1, 1024]
-    - [748, 9605.95]
+    - [884, 9605.95]
   - - [4096, 256, 1, 4096]
-    - [771, 8961.39]
+    - [907, 8961.39]
   - - [1024, 512, 1, 512]
-    - [764, 7109.09]
+    - [900, 7109.09]
   - - [512, 256, 1, 512]
-    - [772, 4033.08]
+    - [908, 4033.08]
   - - [1024, 256, 1, 4096]
-    - [760, 7326.4]
-  - - [4096, 512, 1, 4096]
-    - [752, 9472.07]
+    - [896, 7326.4]
   - - [1024, 200, 1, 2048]
-    - [753, 5530.56]
+    - [889, 5530.56]
   - - [2048, 1024, 1, 512]
-    - [754, 8995.93]
+    - [890, 8995.93]
   - - [1024, 1024, 1, 2048]
-    - [761, 8830.21]
+    - [897, 8830.21]
   - - [4096, 256, 1, 1024]
-    - [761, 8581.8]
+    - [897, 8581.8]
   - - [512, 768, 1, 1024]
-    - [762, 6876.01]
+    - [898, 6876.01]
   - - [1024, 512, 1, 4096]
-    - [758, 8484.15]
+    - [894, 8484.15]
   - - [1024, 256, 1, 512]
-    - [755, 5668.08]
+    - [891, 5668.08]
   - - [4096, 200, 1, 4096]
-    - [768, 7018.69]
+    - [904, 7018.69]
   - - [2048, 256, 1, 512]
-    - [768, 7079.09]
+    - [904, 7079.09]
   - - [512, 200, 1, 2048]
-    - [773, 4283.5]
+    - [909, 4283.5]
   - - [1024, 1024, 1, 1024]
-    - [756, 8565.37]
+    - [892, 8565.37]
   - - [2048, 512, 1, 2048]
-    - [756, 8850.59]
+    - [892, 8850.59]
   - - [4096, 1024, 1, 4096]
-    - [749, 9843.28]
+    - [885, 9843.28]
   - - [2048, 1024, 1, 1024]
-    - [754, 9234.21]
+    - [890, 9234.21]
   - - [4096, 384, 1, 2048]
-    - [796, 8892.62]
+    - [932, 8892.62]
   - - [4096, 192, 1, 2048]
-    - [790, 8024.28]
+    - [926, 8024.28]
   - - [289, 160, 64, 768]
-    - [792, 6783.73]
+    - [928, 6783.73]
   - - [1225, 192, 64, 384]
-    - [779, 9373.93]
+    - [915, 9373.93]
   - - [5329, 64, 64, 160]
-    - [783, 9186.79]
+    - [919, 9186.79]
   - - [1225, 64, 64, 288]
-    - [774, 8492.51]
+    - [910, 8492.51]
   - - [1225, 64, 64, 384]
-    - [778, 8735.86]
+    - [914, 8735.86]
   - - [289, 128, 64, 1024]
-    - [793, 7000.3]
+    - [929, 7000.3]
   - - [4096, 320, 1, 1280]
-    - [798, 8302.36]
+    - [934, 8302.36]
   - - [4096, 384, 1, 1536]
-    - [780, 9052.55]
+    - [916, 9052.55]
   - - [4096, 192, 1, 1280]
-    - [795, 7561.95]
+    - [931, 7561.95]
   - - [289, 192, 64, 768]
-    - [791, 7882.6]
+    - [927, 7882.6]
   - - [1225, 48, 64, 256]
-    - [782, 6620.35]
+    - [918, 6620.35]
   - - [289, 192, 64, 1024]
-    - [789, 7347.09]
+    - [925, 7347.09]
   - - [1225, 64, 64, 192]
-    - [775, 8098.45]
+    - [911, 8098.45]
   - - [1225, 96, 64, 384]
-    - [776, 8303.18]
+    - [912, 8303.18]
   - - [1225, 48, 64, 288]
-    - [784, 6746.87]
+    - [920, 6746.87]
   - - [4096, 320, 1, 2048]
-    - [785, 8384.52]
+    - [921, 8384.52]
   - - [4096, 256, 1, 1536]
-    - [797, 8734.44]
+    - [933, 8734.44]
   - - [1225, 48, 64, 192]
-    - [784, 6516.46]
+    - [920, 6516.46]
   - - [4096, 384, 1, 1280]
-    - [794, 9023.34]
+    - [930, 9023.34]
   - - [1225, 64, 64, 256]
-    - [781, 8319.44]
+    - [917, 8319.44]
   - - [4096, 448, 1, 1280]
-    - [785, 8343.42]
+    - [921, 8343.42]
   - - [289, 128, 64, 768]
-    - [787, 7668.08]
+    - [923, 7668.08]
   - - [289, 256, 64, 1024]
-    - [788, 7535.56]
+    - [924, 7535.56]
   - - [4096, 448, 1, 2048]
-    - [785, 8572.41]
+    - [921, 8572.41]
   - - [5329, 80, 64, 64]
-    - [784, 6492.54]
+    - [920, 6492.54]
   - - [1225, 32, 64, 192]
-    - [777, 6278.64]
+    - [913, 6278.64]
   - - [289, 384, 64, 1024]
-    - [786, 7767.67]
+    - [922, 7767.67]
   - - [1024, 3594, 1, 4096]
-    - [805, 8661.52]
+    - [941, 8661.52]
   - - [4096, 3103, 1, 1024]
-    - [815, 9652.23]
+    - [951, 9652.23]
   - - [4096, 3136, 1, 1024]
-    - [799, 9723.15]
+    - [935, 9723.15]
   - - [1024, 3141, 1, 4096]
-    - [817, 8612.12]
+    - [953, 8612.12]
   - - [64, 147, 432, 148]
-    - [832, 6372.03]
+    - [968, 6372.03]
   - - [4096, 3559, 1, 1024]
-    - [804, 9906.35]
+    - [940, 9906.35]
   - - [4096, 3368, 1, 1024]
-    - [799, 9721.01]
+    - [935, 9721.01]
   - - [1024, 3335, 1, 4096]
-    - [823, 8990.29]
+    - [959, 8990.29]
   - - [1024, 3510, 1, 4096]
-    - [823, 9440.68]
+    - [959, 9440.68]
   - - [4096, 3209, 1, 1024]
-    - [804, 9632.76]
+    - [940, 9632.76]
   - - [4096, 3322, 1, 1024]
-    - [803, 9939.52]
+    - [939, 9939.52]
   - - [1024, 3400, 1, 4096]
-    - [822, 9156.09]
+    - [958, 9156.09]
   - - [1024, 3995, 1, 4096]
-    - [805, 9610.25]
+    - [941, 9610.25]
   - - [1024, 3503, 1, 4096]
-    - [823, 9446.57]
+    - [959, 9446.57]
   - - [4096, 3594, 1, 1024]
-    - [814, 9691.96]
+    - [950, 9691.96]
   - - [4096, 3473, 1, 1024]
-    - [803, 9698.9]
+    - [939, 9698.9]
   - - [4096, 3522, 1, 1024]
-    - [804, 9816.92]
+    - [940, 9816.92]
   - - [1024, 3103, 1, 4096]
-    - [801, 8491.05]
+    - [937, 8491.05]
   - - [1024, 3214, 1, 4096]
-    - [822, 8667.67]
+    - [958, 8667.67]
   - - [4096, 3449, 1, 1024]
-    - [814, 9795.71]
+    - [950, 9795.71]
   - - [1024, 3136, 1, 4096]
-    - [823, 8500.61]
+    - [959, 8500.61]
   - - [1024, 3955, 1, 33708]
-    - [803, 9634.94]
+    - [939, 9634.94]
   - - [1024, 3780, 1, 4096]
-    - [806, 9088.88]
+    - [942, 9088.88]
   - - [1024, 3906, 1, 33708]
-    - [804, 9515.46]
+    - [940, 9515.46]
   - - [1024, 3386, 1, 4096]
-    - [823, 9116.05]
+    - [959, 9116.05]
   - - [4096, 3396, 1, 1024]
-    - [814, 9665.6]
+    - [950, 9665.6]
   - - [1024, 3183, 1, 4096]
-    - [801, 8662.94]
+    - [937, 8662.94]
   - - [1024, 3098, 1, 4096]
-    - [817, 8490.22]
+    - [953, 8490.22]
   - - [1024, 3548, 1, 4096]
-    - [823, 9555.63]
+    - [959, 9555.63]
   - - [1024, 3224, 1, 4096]
-    - [816, 8760.88]
+    - [952, 8760.88]
   - - [4096, 3469, 1, 1024]
-    - [803, 9687.21]
+    - [939, 9687.21]
   - - [1024, 3582, 1, 4096]
-    - [820, 9691.0]
+    - [956, 9691.0]
   - - [1024, 2977, 1, 4096]
-    - [805, 9379.38]
+    - [941, 9379.38]
   - - [1024, 3939, 1, 1024]
-    - [802, 9172.11]
+    - [938, 9172.11]
   - - [64, 123, 528, 123]
-    - [850, 6346.17]
+    - [986, 6346.17]
   - - [64, 12, 5040, 12]
-    - [827, 1536.1]
+    - [963, 1536.1]
   - - [4096, 3176, 1, 1024]
-    - [815, 9712.2]
+    - [951, 9712.2]
   - - [1024, 3559, 1, 4096]
-    - [819, 9579.84]
+    - [955, 9579.84]
   - - [1024, 3478, 1, 4096]
-    - [823, 9373.85]
+    - [959, 9373.85]
   - - [4096, 3343, 1, 1024]
-    - [799, 9638.77]
+    - [935, 9638.77]
   - - [4096, 3440, 1, 1024]
-    - [799, 9853.96]
+    - [935, 9853.96]
   - - [1024, 3996, 1, 33708]
-    - [803, 9733.55]
+    - [939, 9733.55]
   - - [1024, 4012, 1, 4096]
-    - [804, 9636.99]
+    - [940, 9636.99]
   - - [1024, 3322, 1, 4096]
-    - [823, 8945.12]
+    - [959, 8945.12]
   - - [1024, 3990, 1, 33708]
-    - [803, 9720.31]
+    - [939, 9720.31]
   - - [1024, 3314, 1, 4096]
-    - [823, 8944.72]
+    - [959, 8944.72]
   - - [4096, 3513, 1, 1024]
-    - [803, 9794.95]
+    - [939, 9794.95]
   - - [1024, 3562, 1, 4096]
-    - [823, 9597.28]
+    - [959, 9597.28]
   - - [1024, 3443, 1, 4096]
-    - [823, 9279.52]
+    - [959, 9279.52]
   - - [1024, 3554, 1, 4096]
-    - [820, 9552.16]
+    - [956, 9552.16]
   - - [1024, 3063, 1, 4096]
-    - [805, 9622.58]
+    - [941, 9622.58]
   - - [64, 111, 576, 112]
-    - [850, 6274.65]
+    - [986, 6274.65]
   - - [4096, 3460, 1, 1024]
-    - [803, 9665.69]
+    - [939, 9665.69]
   - - [1024, 3209, 1, 4096]
-    - [802, 8708.39]
+    - [938, 8708.39]
   - - [1024, 3147, 1, 4096]
-    - [823, 8492.23]
+    - [959, 8492.23]
   - - [4096, 3387, 1, 1024]
-    - [800, 9761.34]
+    - [936, 9761.34]
   - - [4096, 3436, 1, 1024]
-    - [799, 9815.15]
+    - [935, 9815.15]
   - - [1024, 3341, 1, 4096]
-    - [822, 9005.07]
+    - [958, 9005.07]
   - - [1024, 3516, 1, 4096]
-    - [822, 9471.39]
+    - [958, 9471.39]
   - - [4096, 3277, 1, 1024]
-    - [803, 9807.12]
+    - [939, 9807.12]
   - - [1024, 3454, 1, 4096]
-    - [823, 9301.03]
+    - [959, 9301.03]
   - - [1024, 3969, 1, 4096]
-    - [803, 9539.82]
+    - [939, 9539.82]
   - - [1024, 3999, 1, 4096]
-    - [804, 9607.52]
+    - [940, 9607.52]
   - - [1024, 4032, 1, 4096]
-    - [805, 9693.47]
+    - [941, 9693.47]
   - - [4096, 3541, 1, 1024]
-    - [804, 9866.73]
+    - [940, 9866.73]
   - - [4096, 3334, 1, 1024]
-    - [815, 9614.41]
+    - [951, 9614.41]
   - - [1024, 3365, 1, 4096]
-    - [823, 9058.58]
+    - [959, 9058.58]
   - - [1024, 3527, 1, 4096]
-    - [823, 9510.31]
+    - [959, 9510.31]
   - - [1024, 3190, 1, 4096]
-    - [822, 8627.8]
+    - [958, 8627.8]
   - - [4096, 3906, 1, 1024]
-    - [800, 9817.78]
+    - [936, 9817.78]
   - - [1024, 3593, 1, 4096]
-    - [805, 8663.09]
+    - [941, 8663.09]
   - - [1024, 3336, 1, 4096]
-    - [823, 8991.13]
+    - [959, 8991.13]
   - - [4096, 3504, 1, 1024]
-    - [803, 9769.86]
+    - [939, 9769.86]
   - - [4096, 3977, 1, 1024]
-    - [804, 9742.62]
+    - [940, 9742.62]
   - - [1024, 3906, 1, 4096]
-    - [804, 9386.25]
+    - [940, 9386.25]
   - - [4096, 3415, 1, 1024]
-    - [814, 9802.7]
+    - [950, 9802.7]
   - - [1024, 3295, 1, 4096]
-    - [822, 8879.26]
+    - [958, 8879.26]
   - - [4096, 3321, 1, 1024]
-    - [804, 9931.43]
+    - [940, 9931.43]
   - - [1024, 3072, 1, 4096]
-    - [805, 9671.71]
+    - [941, 9671.71]
   - - [1024, 3408, 1, 4096]
-    - [822, 9182.83]
+    - [958, 9182.83]
   - - [1024, 3522, 1, 4096]
-    - [823, 9484.63]
+    - [959, 9484.63]
   - - [4096, 3751, 1, 1024]
-    - [804, 9778.86]
+    - [940, 9778.86]
   - - [4096, 3378, 1, 1024]
-    - [814, 9692.77]
+    - [950, 9692.77]
   - - [64, 77, 816, 77]
-    - [856, 4850.29]
+    - [992, 4850.29]
   - - [1024, 3925, 1, 33708]
-    - [803, 9560.88]
+    - [939, 9560.88]
   - - [1024, 3990, 1, 1024]
-    - [805, 9272.75]
+    - [941, 9272.75]
   - - [1024, 3290, 1, 4096]
-    - [816, 8905.61]
+    - [952, 8905.61]
   - - [4096, 3500, 1, 1024]
-    - [804, 9761.82]
+    - [940, 9761.82]
   - - [4096, 3565, 1, 1024]
-    - [803, 9919.37]
+    - [939, 9919.37]
   - - [1024, 3484, 1, 4096]
-    - [822, 9376.52]
+    - [958, 9376.52]
   - - [4096, 3395, 1, 1024]
-    - [815, 9788.16]
+    - [951, 9788.16]
   - - [64, 92, 688, 92]
-    - [842, 5606.1]
+    - [978, 5606.1]
   - - [1024, 3681, 1, 1024]
-    - [807, 8690.23]
+    - [943, 8690.23]
   - - [64, 159, 400, 159]
-    - [834, 6518.97]
+    - [970, 6518.97]
   - - [1024, 3584, 1, 1024]
-    - [822, 9365.37]
+    - [958, 9365.37]
   - - [4096, 3093, 1, 1024]
-    - [814, 9623.41]
+    - [950, 9623.41]
   - - [1024, 4050, 1, 1024]
-    - [806, 9354.14]
+    - [942, 9354.14]
   - - [1024, 3301, 1, 4096]
-    - [823, 8889.04]
+    - [959, 8889.04]
   - - [1024, 3581, 1, 4096]
-    - [822, 9673.82]
+    - [958, 9673.82]
   - - [4096, 3374, 1, 1024]
-    - [815, 9707.33]
+    - [951, 9707.33]
   - - [1024, 3449, 1, 4096]
-    - [823, 9270.9]
+    - [959, 9270.9]
   - - [4096, 3215, 1, 1024]
-    - [804, 9645.25]
+    - [940, 9645.25]
   - - [4096, 3312, 1, 1024]
-    - [804, 9888.72]
+    - [940, 9888.72]
   - - [4096, 3479, 1, 1024]
-    - [804, 9698.61]
+    - [940, 9698.61]
   - - [4096, 3544, 1, 1024]
-    - [804, 9875.09]
+    - [940, 9875.09]
   - - [1024, 3263, 1, 4096]
-    - [823, 8787.61]
+    - [959, 8787.61]
   - - [4096, 3455, 1, 1024]
-    - [814, 9845.29]
+    - [950, 9845.29]
   - - [1024, 3379, 1, 4096]
-    - [820, 9100.01]
+    - [956, 9100.01]
   - - [1024, 3490, 1, 4096]
-    - [823, 9397.49]
+    - [959, 9397.49]
   - - [1024, 3368, 1, 4096]
-    - [823, 9079.25]
+    - [959, 9079.25]
   - - [4096, 3186, 1, 1024]
-    - [799, 9750.17]
+    - [935, 9750.17]
   - - [1024, 3428, 1, 4096]
-    - [823, 9232.92]
+    - [959, 9232.92]
   - - [64, 85, 752, 84]
-    - [838, 5342.67]
+    - [974, 5342.67]
   - - [4096, 3561, 1, 1024]
-    - [804, 9914.02]
+    - [940, 9914.02]
   - - [4096, 3418, 1, 1024]
-    - [814, 9765.86]
+    - [950, 9765.86]
   - - [1024, 3064, 1, 4096]
-    - [805, 9621.68]
+    - [941, 9621.68]
   - - [4096, 3259, 1, 1024]
-    - [804, 9765.52]
+    - [940, 9765.52]
   - - [4096, 3308, 1, 1024]
-    - [803, 9900.46]
+    - [939, 9900.46]
   - - [1024, 3533, 1, 4096]
-    - [823, 9520.12]
+    - [959, 9520.12]
   - - [1024, 3344, 1, 4096]
-    - [823, 9014.55]
+    - [959, 9014.55]
   - - [1024, 4030, 1, 1024]
-    - [805, 9354.1]
+    - [941, 9354.1]
   - - [4096, 3459, 1, 1024]
-    - [804, 9656.2]
+    - [940, 9656.2]
   - - [1024, 3572, 1, 4096]
-    - [820, 9640.07]
+    - [956, 9640.07]
   - - [1024, 3925, 1, 1024]
-    - [816, 9173.74]
+    - [952, 9173.74]
   - - [4096, 3435, 1, 1024]
-    - [799, 9778.2]
+    - [935, 9778.2]
   - - [1024, 3956, 1, 4096]
-    - [806, 9498.56]
+    - [942, 9498.56]
   - - [1024, 3463, 1, 4096]
-    - [823, 9332.46]
+    - [959, 9332.46]
   - - [4096, 3182, 1, 1024]
-    - [814, 9826.84]
+    - [950, 9826.84]
   - - [4096, 3976, 1, 1024]
-    - [814, 9741.99]
+    - [950, 9741.99]
   - - [1024, 3417, 1, 4096]
-    - [823, 9208.97]
+    - [959, 9208.97]
   - - [1024, 3528, 1, 4096]
-    - [823, 9509.09]
+    - [959, 9509.09]
   - - [4096, 3446, 1, 1024]
-    - [814, 9816.97]
+    - [950, 9816.97]
   - - [64, 122, 528, 123]
-    - [850, 6325.98]
+    - [986, 6325.98]
   - - [1024, 3543, 1, 4096]
-    - [823, 9538.73]
+    - [959, 9538.73]
   - - [4096, 3287, 1, 1024]
-    - [803, 9846.04]
+    - [939, 9846.04]
   - - [1024, 3499, 1, 4096]
-    - [823, 9428.51]
+    - [959, 9428.51]
   - - [1024, 3231, 1, 4096]
-    - [816, 8769.91]
+    - [952, 8769.91]
   - - [64, 17, 3632, 17]
-    - [838, 1934.94]
+    - [974, 1934.94]
   - - [4096, 3519, 1, 1024]
-    - [803, 9804.38]
+    - [939, 9804.38]
   - - [4096, 3552, 1, 1024]
-    - [803, 9892.65]
+    - [939, 9892.65]
   - - [1024, 3458, 1, 4096]
-    - [823, 9312.28]
+    - [959, 9312.28]
   - - [64, 93, 688, 92]
-    - [842, 5660.22]
+    - [978, 5660.22]
   - - [1024, 3374, 1, 4096]
-    - [817, 9110.41]
+    - [953, 9110.41]
   - - [1024, 3396, 1, 4096]
-    - [823, 9145.79]
+    - [959, 9145.79]
   - - [1024, 2967, 1, 4096]
-    - [805, 9364.76]
+    - [941, 9364.76]
   - - [64, 19, 3264, 19]
-    - [842, 2142.47]
+    - [978, 2142.47]
   - - [4096, 3482, 1, 1024]
-    - [803, 9714.2]
+    - [939, 9714.2]
   - - [64, 32, 1984, 32]
-    - [853, 3619.91]
+    - [989, 3619.91]
   - - [64, 102, 624, 99]
-    - [844, 5515.33]
+    - [980, 5515.33]
   - - [1024, 3226, 1, 4096]
-    - [802, 8790.47]
+    - [938, 8790.47]
   - - [4096, 3377, 1, 1024]
-    - [800, 9684.08]
+    - [936, 9684.08]
   - - [4096, 3426, 1, 1024]
-    - [815, 9869.94]
+    - [951, 9869.94]
   - - [4096, 2935, 1, 1024]
-    - [815, 9762.11]
+    - [951, 9762.11]
   - - [64, 133, 480, 133]
-    - [854, 5891.32]
+    - [990, 5891.32]
   - - [1024, 3439, 1, 4096]
-    - [823, 9253.99]
+    - [959, 9253.99]
   - - [4096, 3267, 1, 1024]
-    - [803, 9783.9]
+    - [939, 9783.9]
   - - [4096, 3499, 1, 1024]
-    - [804, 9761.11]
+    - [940, 9761.11]
   - - [4096, 3356, 1, 1024]
-    - [815, 9679.44]
+    - [951, 9679.44]
   - - [64, 232, 272, 232]
-    - [858, 7181.03]
+    - [994, 7181.03]
   - - [64, 162, 400, 159]
-    - [818, 6444.63]
+    - [954, 6444.63]
   - - [4096, 3939, 1, 1024]
-    - [814, 9878.0]
+    - [950, 9878.0]
   - - [1024, 3526, 1, 4096]
-    - [823, 9508.1]
+    - [959, 9508.1]
   - - [1024, 3859, 1, 33708]
-    - [804, 9402.13]
+    - [940, 9402.13]
   - - [1024, 3385, 1, 4096]
-    - [822, 9107.28]
+    - [958, 9107.28]
   - - [1024, 3496, 1, 4096]
-    - [823, 9418.0]
+    - [959, 9418.0]
   - - [4096, 3141, 1, 1024]
-    - [815, 9682.54]
+    - [951, 9682.54]
   - - [4096, 3510, 1, 1024]
-    - [803, 9786.59]
+    - [939, 9786.59]
   - - [1024, 3434, 1, 4096]
-    - [823, 9246.7]
+    - [959, 9246.7]
   - - [4096, 3969, 1, 1024]
-    - [803, 9714.85]
+    - [939, 9714.85]
   - - [1024, 3121, 1, 4096]
-    - [801, 8464.32]
+    - [937, 8464.32]
   - - [1024, 3232, 1, 4096]
-    - [823, 8711.73]
+    - [959, 8711.73]
   - - [1024, 4030, 1, 33708]
-    - [804, 9816.31]
+    - [940, 9816.31]
   - - [1024, 3780, 1, 33708]
-    - [812, 9315.54]
+    - [948, 9315.54]
   - - [1024, 3969, 1, 1024]
-    - [801, 9248.54]
+    - [937, 9248.54]
   - - [4096, 3527, 1, 1024]
-    - [803, 9832.94]
+    - [939, 9832.94]
   - - [4096, 3336, 1, 1024]
-    - [800, 9623.35]
+    - [936, 9623.35]
   - - [4096, 3290, 1, 1024]
-    - [803, 9852.21]
+    - [939, 9852.21]
   - - [64, 9, 6544, 9]
-    - [843, 1068.24]
+    - [979, 1068.24]
   - - [1024, 3469, 1, 4096]
-    - [823, 9350.55]
+    - [959, 9350.55]
   - - [4096, 3490, 1, 1024]
-    - [803, 9737.56]
+    - [939, 9737.56]
   - - [4096, 3064, 1, 1024]
-    - [803, 9890.02]
+    - [939, 9890.02]
   - - [4096, 3582, 1, 1024]
-    - [804, 9961.38]
+    - [940, 9961.38]
   - - [1024, 3956, 1, 1024]
-    - [801, 9294.25]
+    - [937, 9294.25]
   - - [4096, 3417, 1, 1024]
-    - [799, 9811.66]
+    - [935, 9811.66]
   - - [1024, 2736, 1, 4096]
-    - [805, 8636.7]
+    - [941, 8636.7]
   - - [64, 78, 816, 78]
-    - [842, 4946.1]
+    - [978, 4946.1]
   - - [1024, 3205, 1, 4096]
-    - [817, 8657.21]
+    - [953, 8657.21]
   - - [1024, 3143, 1, 4096]
-    - [817, 8567.87]
+    - [953, 8567.87]
   - - [1024, 4020, 1, 4096]
-    - [805, 9664.62]
+    - [941, 9664.62]
   - - [1024, 3318, 1, 4096]
-    - [802, 8967.05]
+    - [938, 8967.05]
   - - [4096, 3364, 1, 1024]
-    - [815, 9697.18]
+    - [951, 9697.18]
   - - [1024, 3353, 1, 4096]
-    - [823, 9034.17]
+    - [959, 9034.17]
   - - [1024, 3464, 1, 4096]
-    - [823, 9326.05]
+    - [959, 9326.05]
   - - [4096, 3205, 1, 1024]
-    - [803, 9619.1]
+    - [939, 9619.1]
   - - [4096, 3318, 1, 1024]
-    - [804, 9932.66]
+    - [940, 9932.66]
   - - [1024, 3402, 1, 4096]
-    - [822, 9153.49]
+    - [958, 9153.49]
   - - [4096, 3181, 1, 1024]
-    - [814, 9789.15]
+    - [950, 9789.15]
   - - [4096, 3550, 1, 1024]
-    - [804, 9888.13]
+    - [940, 9888.13]
   - - [4096, 3445, 1, 1024]
-    - [814, 9752.65]
+    - [950, 9752.65]
   - - [1024, 3138, 1, 4096]
-    - [800, 8484.1]
+    - [936, 8484.1]
   - - [64, 99, 624, 99]
-    - [850, 5323.99]
+    - [986, 5323.99]
   - - [4096, 3079, 1, 1024]
-    - [800, 9562.26]
+    - [936, 9562.26]
   - - [4096, 3144, 1, 1024]
-    - [814, 9686.66]
+    - [950, 9686.66]
   - - [4096, 3860, 1, 1024]
-    - [815, 9733.42]
+    - [951, 9733.42]
   - - [1024, 3515, 1, 4096]
-    - [823, 9478.44]
+    - [959, 9478.44]
   - - [4096, 3408, 1, 1024]
-    - [800, 9764.96]
+    - [936, 9764.96]
   - - [64, 101, 624, 102]
-    - [850, 5482.79]
+    - [986, 5482.79]
   - - [1024, 3181, 1, 4096]
-    - [802, 8593.26]
+    - [938, 8593.26]
   - - [4096, 3298, 1, 1024]
-    - [804, 9867.72]
+    - [940, 9867.72]
   - - [4096, 3585, 1, 1024]
-    - [814, 9633.01]
+    - [950, 9633.01]
   - - [1024, 3550, 1, 4096]
-    - [823, 9564.46]
+    - [959, 9564.46]
   - - [1024, 4020, 1, 1024]
-    - [806, 9339.15]
+    - [942, 9339.15]
   - - [4096, 3481, 1, 1024]
-    - [804, 9714.0]
+    - [940, 9714.0]
   - - [4096, 3530, 1, 1024]
-    - [804, 9833.99]
+    - [940, 9833.99]
   - - [4096, 3425, 1, 1024]
-    - [800, 9675.66]
+    - [936, 9675.66]
   - - [4096, 4026, 1, 1024]
-    - [804, 9849.77]
+    - [940, 9849.77]
   - - [1024, 3860, 1, 1024]
-    - [817, 9073.59]
+    - [953, 9073.59]
   - - [4096, 3975, 1, 1024]
-    - [804, 9737.72]
+    - [940, 9737.72]
   - - [1024, 3286, 1, 4096]
-    - [801, 8884.24]
+    - [937, 8884.24]
   - - [1024, 3176, 1, 4096]
-    - [801, 8597.48]
+    - [937, 8597.48]
   - - [1024, 3894, 1, 4096]
-    - [805, 9359.13]
+    - [941, 9359.13]
   - - [4096, 3355, 1, 1024]
-    - [814, 9693.09]
+    - [950, 9693.09]
   - - [4096, 3404, 1, 1024]
-    - [814, 9786.12]
+    - [950, 9786.12]
   - - [1024, 3501, 1, 4096]
-    - [822, 9426.14]
+    - [958, 9426.14]
   - - [4096, 3245, 1, 1024]
-    - [804, 9723.57]
+    - [940, 9723.57]
   - - [1024, 3431, 1, 4096]
-    - [820, 9244.32]
+    - [956, 9244.32]
   - - [1024, 4000, 1, 1024]
-    - [816, 9344.03]
+    - [952, 9344.03]
   - - [4096, 3509, 1, 1024]
-    - [803, 9781.72]
+    - [939, 9781.72]
   - - [4096, 3558, 1, 1024]
-    - [804, 9905.15]
+    - [940, 9905.15]
   - - [1024, 3535, 1, 4096]
-    - [822, 9519.15]
+    - [958, 9519.15]
   - - [1024, 3414, 1, 4096]
-    - [820, 9198.05]
+    - [956, 9198.05]
   - - [1024, 3445, 1, 4096]
-    - [823, 9279.66]
+    - [959, 9279.66]
   - - [1024, 3436, 1, 4096]
-    - [823, 9259.7]
+    - [959, 9259.7]
   - - [4096, 3472, 1, 1024]
-    - [804, 9685.27]
+    - [940, 9685.27]
   - - [1024, 3211, 1, 4096]
-    - [802, 8708.41]
+    - [938, 8708.41]
   - - [64, 7, 8192, 7]
-    - [839, 802.916]
+    - [975, 802.916]
   - - [4096, 3383, 1, 1024]
-    - [814, 9734.82]
+    - [950, 9734.82]
   - - [4096, 3448, 1, 1024]
-    - [815, 9828.54]
+    - [951, 9828.54]
   - - [1024, 3343, 1, 4096]
-    - [816, 9010.46]
+    - [952, 9010.46]
   - - [1024, 3518, 1, 4096]
-    - [823, 9468.02]
+    - [959, 9468.02]
   - - [4096, 3289, 1, 1024]
-    - [804, 9844.16]
+    - [940, 9844.16]
   - - [1024, 3440, 1, 4096]
-    - [819, 9269.52]
+    - [955, 9269.52]
   - - [1024, 4032, 1, 33708]
-    - [803, 9822.41]
+    - [939, 9822.41]
   - - [4096, 3489, 1, 1024]
-    - [803, 9742.03]
+    - [939, 9742.03]
   - - [4096, 3346, 1, 1024]
-    - [800, 9616.74]
+    - [936, 9616.74]
   - - [1024, 3534, 1, 4096]
-    - [822, 9524.29]
+    - [958, 9524.29]
   - - [1024, 3079, 1, 4096]
-    - [817, 8397.77]
+    - [953, 8397.77]
   - - [1024, 3955, 1, 4096]
-    - [804, 9492.25]
+    - [940, 9492.25]
   - - [4096, 3236, 1, 1024]
-    - [804, 9706.03]
+    - [940, 9706.03]
   - - [1024, 3545, 1, 4096]
-    - [822, 9551.97]
+    - [958, 9551.97]
   - - [1024, 3144, 1, 4096]
-    - [816, 8556.8]
+    - [952, 8556.8]
   - - [4096, 3780, 1, 1024]
-    - [803, 9847.6]
+    - [939, 9847.6]
   - - [4096, 3163, 1, 1024]
-    - [814, 9717.79]
+    - [950, 9717.79]
   - - [4096, 3468, 1, 1024]
-    - [804, 9686.49]
+    - [940, 9686.49]
   - - [1024, 3539, 1, 4096]
-    - [823, 9526.99]
+    - [959, 9526.99]
   - - [1024, 3541, 1, 4096]
-    - [823, 9532.86]
+    - [959, 9532.86]
   - - [4096, 3363, 1, 1024]
-    - [799, 9699.1]
+    - [935, 9699.1]
   - - [1024, 3475, 1, 4096]
-    - [823, 9357.1]
+    - [959, 9357.1]
   - - [4096, 3110, 1, 1024]
-    - [815, 9659.68]
+    - [951, 9659.68]
   - - [1024, 3509, 1, 4096]
-    - [822, 9450.59]
+    - [958, 9450.59]
   - - [1024, 3413, 1, 4096]
-    - [823, 9185.91]
+    - [959, 9185.91]
   - - [1024, 3975, 1, 1024]
-    - [801, 9315.52]
+    - [937, 9315.52]
   - - [4096, 3549, 1, 1024]
-    - [804, 9884.82]
+    - [940, 9884.82]
   - - [4096, 3342, 1, 1024]
-    - [814, 9644.37]
+    - [950, 9644.37]
   - - [1024, 2985, 1, 4096]
-    - [804, 9392.17]
+    - [940, 9392.17]
   - - [1024, 3876, 1, 33708]
-    - [803, 9442.32]
+    - [939, 9442.32]
   - - [4096, 3280, 1, 1024]
-    - [803, 9820.02]
+    - [939, 9820.02]
   - - [4096, 3191, 1, 1024]
-    - [815, 9862.18]
+    - [951, 9862.18]
   - - [4096, 3512, 1, 1024]
-    - [804, 9793.21]
+    - [940, 9793.21]
   - - [1024, 3560, 1, 4096]
-    - [820, 9555.55]
+    - [956, 9555.55]
   - - [4096, 2499, 1, 1024]
-    - [804, 9669.45]
+    - [940, 9669.45]
   - - [1024, 3248, 1, 4096]
-    - [801, 8811.94]
+    - [937, 8811.94]
   - - [4096, 3423, 1, 1024]
-    - [815, 9729.77]
+    - [951, 9729.77]
   - - [64, 111, 576, 111]
-    - [850, 5982.73]
+    - [986, 5982.73]
   - - [4096, 3297, 1, 1024]
-    - [803, 9865.29]
+    - [939, 9865.29]
   - - [4096, 3154, 1, 1024]
-    - [815, 9613.52]
+    - [951, 9613.52]
   - - [1024, 3303, 1, 4096]
-    - [802, 8951.89]
+    - [938, 8951.89]
   - - [1024, 3222, 1, 4096]
-    - [822, 8682.99]
+    - [958, 8682.99]
   - - [1024, 3978, 1, 1024]
-    - [806, 9235.03]
+    - [942, 9235.03]
   - - [4096, 3529, 1, 1024]
-    - [804, 9831.72]
+    - [940, 9831.72]
   - - [4096, 3386, 1, 1024]
-    - [814, 9755.77]
+    - [950, 9755.77]
   - - [64, 134, 480, 134]
-    - [829, 5990.63]
+    - [965, 5990.63]
   - - [1024, 3451, 1, 4096]
-    - [820, 9277.71]
+    - [956, 9277.71]
   - - [4096, 3562, 1, 1024]
-    - [804, 9908.92]
+    - [940, 9908.92]
   - - [4096, 3276, 1, 1024]
-    - [803, 9818.14]
+    - [939, 9818.14]
   - - [64, 135, 480, 132]
-    - [858, 6071.87]
+    - [994, 6071.87]
   - - [1024, 3894, 1, 33708]
-    - [803, 9487.89]
+    - [939, 9487.89]
   - - [64, 134, 480, 132]
-    - [857, 6091.75]
+    - [993, 6091.75]
   - - [4096, 3540, 1, 1024]
-    - [804, 9862.89]
+    - [940, 9862.89]
   - - [1024, 3416, 1, 4096]
-    - [822, 9206.27]
+    - [958, 9206.27]
   - - [1024, 4005, 1, 33708]
-    - [803, 9757.29]
+    - [939, 9757.29]
   - - [1024, 3942, 1, 4096]
-    - [806, 9455.85]
+    - [942, 9455.85]
   - - [4096, 3403, 1, 1024]
-    - [814, 9739.46]
+    - [950, 9739.46]
   - - [4096, 3381, 1, 1024]
-    - [815, 9760.14]
+    - [951, 9760.14]
   - - [1024, 3492, 1, 4096]
-    - [819, 9391.79]
+    - [955, 9391.79]
   - - [4096, 3101, 1, 1024]
-    - [815, 9626.02]
+    - [951, 9626.02]
   - - [1024, 3430, 1, 4096]
-    - [823, 9232.14]
+    - [959, 9232.14]
   - - [1024, 3977, 1, 4096]
-    - [806, 9563.0]
+    - [942, 9563.0]
   - - [1024, 3640, 1, 4096]
-    - [805, 8761.5]
+    - [941, 8761.5]
   - - [4096, 3557, 1, 1024]
-    - [804, 9905.52]
+    - [940, 9905.52]
   - - [4096, 3414, 1, 1024]
-    - [800, 9755.49]
+    - [936, 9755.49]
   - - [1024, 3391, 1, 4096]
-    - [823, 9142.66]
+    - [959, 9142.66]
   - - [64, 134, 480, 135]
-    - [832, 5922.15]
+    - [968, 5922.15]
   - - [64, 16, 3840, 16]
-    - [848, 2080.61]
+    - [984, 2080.61]
   - - [1024, 3356, 1, 4096]
-    - [823, 9051.09]
+    - [959, 9051.09]
   - - [4096, 3320, 1, 1024]
-    - [804, 9929.57]
+    - [940, 9929.57]
   - - [4096, 2765, 1, 1024]
-    - [804, 9750.28]
+    - [940, 9750.28]
   - - [64, 162, 400, 162]
-    - [821, 6515.29]
+    - [957, 6515.29]
   - - [1024, 3411, 1, 4096]
-    - [823, 9185.72]
+    - [959, 9185.72]
   - - [1024, 3978, 1, 4096]
-    - [803, 9562.77]
+    - [939, 9562.77]
   - - [4096, 3487, 1, 1024]
-    - [804, 9733.85]
+    - [940, 9733.85]
   - - [4096, 3520, 1, 1024]
-    - [803, 9813.95]
+    - [939, 9813.95]
   - - [4096, 3942, 1, 1024]
-    - [814, 9804.39]
+    - [950, 9804.39]
   - - [4096, 3431, 1, 1024]
-    - [799, 9819.06]
+    - [935, 9819.06]
   - - [1024, 3271, 1, 4096]
-    - [816, 8913.08]
+    - [952, 8913.08]
   - - [4096, 4020, 1, 1024]
-    - [803, 9831.42]
+    - [939, 9831.42]
   - - [1024, 3481, 1, 4096]
-    - [819, 9376.15]
+    - [955, 9376.15]
   - - [1024, 3419, 1, 4096]
-    - [822, 9208.68]
+    - [958, 9208.68]
   - - [1024, 4059, 1, 4096]
-    - [806, 9733.83]
+    - [942, 9733.83]
   - - [4096, 3345, 1, 1024]
-    - [815, 9651.43]
+    - [951, 9651.43]
   - - [4096, 3394, 1, 1024]
-    - [815, 9780.43]
+    - [951, 9780.43]
   - - [1024, 3298, 1, 4096]
-    - [822, 8889.63]
+    - [958, 8889.63]
   - - [4096, 3235, 1, 1024]
-    - [804, 9705.81]
+    - [940, 9705.81]
   - - [1024, 3681, 1, 33708]
-    - [811, 9146.22]
+    - [947, 9146.22]
   - - [1024, 3840, 1, 4096]
-    - [804, 9253.95]
+    - [940, 9253.95]
   - - [1024, 3362, 1, 4096]
-    - [823, 9059.81]
+    - [959, 9059.81]
   - - [4096, 3467, 1, 1024]
-    - [803, 9677.51]
+    - [939, 9677.51]
   - - [1024, 3349, 1, 4096]
-    - [823, 9034.07]
+    - [959, 9034.07]
   - - [1024, 3460, 1, 4096]
-    - [823, 9322.94]
+    - [959, 9322.94]
   - - [4096, 3214, 1, 1024]
-    - [804, 9644.46]
+    - [940, 9644.46]
   - - [1024, 3398, 1, 4096]
-    - [823, 9157.29]
+    - [959, 9157.29]
   - - [4096, 3478, 1, 1024]
-    - [803, 9706.66]
+    - [939, 9706.66]
   - - [1024, 4050, 1, 33708]
-    - [803, 9865.14]
+    - [939, 9865.14]
   - - [1024, 3244, 1, 4096]
-    - [819, 8744.53]
+    - [955, 8744.53]
   - - [4096, 3341, 1, 1024]
-    - [815, 9646.79]
+    - [951, 9646.79]
   - - [4096, 3454, 1, 1024]
-    - [800, 9880.56]
+    - [936, 9880.56]
   - - [1024, 3166, 1, 4096]
-    - [817, 8618.46]
+    - [953, 8618.46]
   - - [1024, 3425, 1, 4096]
-    - [823, 9225.32]
+    - [959, 9225.32]
   - - [4096, 3295, 1, 1024]
-    - [804, 9863.81]
+    - [940, 9863.81]
   - - [4096, 3072, 1, 1024]
-    - [803, 9971.09]
+    - [939, 9971.09]
   - - [4096, 3822, 1, 1024]
-    - [804, 9952.07]
+    - [940, 9952.07]
   - - [1024, 3681, 1, 4096]
-    - [805, 8856.94]
+    - [941, 8856.94]
   - - [1024, 4050, 1, 4096]
-    - [805, 9717.58]
+    - [941, 9717.58]
   - - [4096, 3495, 1, 1024]
-    - [803, 9741.14]
+    - [939, 9741.14]
   - - [4096, 3560, 1, 1024]
-    - [804, 9909.14]
+    - [940, 9909.14]
   - - [1024, 3524, 1, 4096]
-    - [822, 9503.2]
+    - [958, 9503.2]
   - - [1024, 3942, 1, 33708]
-    - [803, 9602.67]
+    - [939, 9602.67]
   - - [1024, 3304, 1, 4096]
-    - [802, 8928.76]
+    - [938, 8928.76]
   - - [1024, 3387, 1, 4096]
-    - [823, 9127.65]
+    - [959, 9127.65]
   - - [1024, 3498, 1, 4096]
-    - [822, 9423.39]
+    - [958, 9423.39]
   - - [4096, 3458, 1, 1024]
-    - [803, 9642.63]
+    - [939, 9642.63]
   - - [4096, 2967, 1, 1024]
-    - [803, 9626.71]
+    - [939, 9626.71]
   - - [64, 8, 7280, 8]
-    - [825, 1032.61]
+    - [961, 1032.61]
   - - [4096, 3385, 1, 1024]
-    - [799, 9735.77]
+    - [935, 9735.77]
   - - [4096, 3434, 1, 1024]
-    - [814, 9808.9]
+    - [950, 9808.9]
   - - [1024, 3519, 1, 4096]
-    - [823, 9484.83]
+    - [959, 9484.83]
   - - [1024, 3511, 1, 4096]
-    - [823, 9456.47]
+    - [959, 9456.47]
   - - [1024, 3288, 1, 4096]
-    - [822, 8864.05]
+    - [958, 8864.05]
   - - [1024, 2918, 1, 4096]
-    - [805, 9170.35]
+    - [941, 9170.35]
   - - [4096, 3573, 1, 1024]
-    - [804, 9945.85]
+    - [940, 9945.85]
   - - [1024, 3822, 1, 33708]
-    - [813, 9331.0]
+    - [949, 9331.0]
   - - [64, 102, 624, 102]
-    - [850, 5531.17]
+    - [986, 5531.17]
   - - [4096, 3539, 1, 1024]
-    - [804, 9855.39]
+    - [940, 9855.39]
   - - [4096, 3332, 1, 1024]
-    - [815, 9648.97]
+    - [951, 9648.97]
   - - [4096, 3286, 1, 1024]
-    - [804, 9846.42]
+    - [940, 9846.42]
   - - [1024, 4026, 1, 4096]
-    - [805, 9675.94]
+    - [941, 9675.94]
   - - [1024, 3277, 1, 4096]
-    - [819, 8836.21]
+    - [955, 8836.21]
   - - [1024, 3471, 1, 4096]
-    - [823, 9346.33]
+    - [959, 9346.33]
   - - [4096, 3518, 1, 1024]
-    - [804, 9804.2]
+    - [940, 9804.2]
   - - [1024, 3393, 1, 4096]
-    - [823, 9148.99]
+    - [959, 9148.99]
   - - [4096, 3413, 1, 1024]
-    - [800, 9785.17]
+    - [936, 9785.17]
   - - [4096, 3303, 1, 1024]
-    - [804, 9884.37]
+    - [940, 9884.37]
   - - [1024, 3207, 1, 4096]
-    - [801, 8714.69]
+    - [937, 8714.69]
   - - [1024, 3894, 1, 1024]
-    - [817, 9181.51]
+    - [953, 9181.51]
   - - [1024, 3977, 1, 1024]
-    - [817, 9240.9]
+    - [953, 9240.9]
   - - [64, 135, 480, 133]
-    - [832, 5923.4]
+    - [968, 5923.4]
   - - [4096, 3535, 1, 1024]
-    - [804, 9839.55]
+    - [940, 9839.55]
   - - [4096, 3376, 1, 1024]
-    - [799, 9712.02]
+    - [935, 9712.02]
   - - [1024, 3355, 1, 4096]
-    - [823, 9043.27]
+    - [959, 9043.27]
   - - [64, 27, 2336, 27]
-    - [851, 2929.9]
+    - [987, 2929.9]
   - - [1024, 3466, 1, 4096]
-    - [823, 9339.1]
+    - [959, 9339.1]
   - - [4096, 3266, 1, 1024]
-    - [804, 9789.29]
+    - [940, 9789.29]
   - - [1024, 3404, 1, 4096]
-    - [823, 9176.76]
+    - [959, 9176.76]
   - - [1024, 3999, 1, 1024]
-    - [816, 9391.91]
+    - [952, 9391.91]
   - - [64, 148, 432, 143]
-    - [829, 6182.92]
+    - [965, 6182.92]
   - - [4096, 3498, 1, 1024]
-    - [803, 9764.56]
+    - [939, 9764.56]
   - - [1024, 4032, 1, 1024]
-    - [801, 9402.03]
+    - [937, 9402.03]
   - - [1024, 3410, 1, 4096]
-    - [822, 9183.5]
+    - [958, 9183.5]
   - - [4096, 3393, 1, 1024]
-    - [815, 9695.49]
+    - [951, 9695.49]
   - - [1024, 3140, 1, 4096]
-    - [816, 8504.86]
+    - [952, 8504.86]
   - - [1024, 3910, 1, 33708]
-    - [803, 9526.06]
+    - [939, 9526.06]
   - - [1024, 3334, 1, 4096]
-    - [822, 8987.59]
+    - [958, 8987.59]
   - - [4096, 3140, 1, 1024]
-    - [815, 9660.71]
+    - [951, 9660.71]
   - - [1024, 4005, 1, 4096]
-    - [806, 9629.88]
+    - [942, 9629.88]
   - - [1024, 3579, 1, 4096]
-    - [822, 9661.45]
+    - [958, 9661.45]
   - - [4096, 3372, 1, 1024]
-    - [815, 9697.32]
+    - [951, 9697.32]
   - - [1024, 3245, 1, 4096]
-    - [816, 8847.76]
+    - [952, 8847.76]
   - - [64, 38, 1680, 38]
-    - [826, 3340.44]
+    - [962, 3340.44]
   - - [4096, 3956, 1, 1024]
-    - [815, 9911.15]
+    - [951, 9911.15]
   - - [4096, 3213, 1, 1024]
-    - [803, 9643.11]
+    - [939, 9643.11]
   - - [1024, 3361, 1, 4096]
-    - [823, 9062.24]
+    - [959, 9062.24]
   - - [1024, 3536, 1, 4096]
-    - [822, 9530.65]
+    - [958, 9530.65]
   - - [1024, 3968, 1, 1024]
-    - [817, 9377.92]
+    - [953, 9377.92]
   - - [4096, 3477, 1, 1024]
-    - [804, 9700.77]
+    - [940, 9700.77]
   - - [4096, 3526, 1, 1024]
-    - [804, 9824.41]
+    - [940, 9824.41]
   - - [1024, 4005, 1, 1024]
-    - [801, 9362.39]
+    - [937, 9362.39]
   - - [1024, 3530, 1, 4096]
-    - [820, 9487.17]
+    - [956, 9487.17]
   - - [1024, 3944, 1, 4096]
-    - [805, 9464.55]
+    - [941, 9464.55]
   - - [4096, 3453, 1, 1024]
-    - [814, 9826.77]
+    - [950, 9826.77]
   - - [4096, 3184, 1, 1024]
-    - [815, 9833.59]
+    - [951, 9833.59]
   - - [4096, 3579, 1, 1024]
-    - [804, 9962.55]
+    - [940, 9962.55]
   - - [4096, 3351, 1, 1024]
-    - [815, 9653.34]
+    - [951, 9653.34]
   - - [4096, 3416, 1, 1024]
-    - [799, 9810.4]
+    - [935, 9810.4]
   - - [64, 100, 624, 100]
-    - [850, 5408.55]
+    - [986, 5408.55]
   - - [1024, 3822, 1, 4096]
-    - [805, 9196.2]
+    - [941, 9196.2]
   - - [1024, 3796, 1, 4096]
-    - [805, 9131.96]
+    - [941, 9131.96]
   - - [4096, 3257, 1, 1024]
-    - [803, 9767.34]
+    - [939, 9767.34]
   - - [4096, 3306, 1, 1024]
-    - [803, 9893.35]
+    - [939, 9893.35]
   - - [1024, 3505, 1, 4096]
-    - [823, 9450.02]
+    - [959, 9450.02]
   - - [1024, 3315, 1, 4096]
-    - [816, 8979.77]
+    - [952, 8979.77]
   - - [1024, 3486, 1, 4096]
-    - [822, 9393.48]
+    - [958, 9393.48]
   - - [4096, 3457, 1, 1024]
-    - [803, 9653.19]
+    - [939, 9653.19]
   - - [4096, 3870, 1, 1024]
-    - [800, 9717.51]
+    - [936, 9717.51]
   - - [1024, 3447, 1, 4096]
-    - [823, 9273.14]
+    - [959, 9273.14]
   - - [1024, 3558, 1, 4096]
-    - [820, 9567.33]
+    - [956, 9567.33]
   - - [4096, 3433, 1, 1024]
-    - [800, 9759.26]
+    - [936, 9759.26]
   - - [4096, 3180, 1, 1024]
-    - [815, 9738.63]
+    - [951, 9738.63]
   - - [1024, 3213, 1, 4096]
-    - [801, 8692.25]
+    - [937, 8692.25]
   - - [1024, 3900, 1, 4096]
-    - [805, 9388.61]
+    - [941, 9388.61]
   - - [4096, 3444, 1, 1024]
-    - [814, 9869.73]
+    - [950, 9869.73]
   - - [1024, 3504, 1, 4096]
-    - [823, 9429.38]
+    - [959, 9429.38]
   - - [4096, 4059, 1, 1024]
-    - [804, 9920.79]
+    - [940, 9920.79]
   - - [1024, 3442, 1, 4096]
-    - [823, 9273.01]
+    - [959, 9273.01]
   - - [4096, 3517, 1, 1024]
-    - [803, 9808.19]
+    - [939, 9808.19]
   - - [1024, 3566, 1, 4096]
-    - [822, 9622.89]
+    - [958, 9622.89]
   - - [4096, 3248, 1, 1024]
-    - [803, 9730.33]
+    - [939, 9730.33]
   - - [1024, 3547, 1, 4096]
-    - [822, 9564.73]
+    - [958, 9564.73]
   - - [64, 59, 1088, 59]
-    - [841, 4611.76]
+    - [977, 4611.76]
   - - [1024, 3340, 1, 4096]
-    - [822, 8992.21]
+    - [958, 8992.21]
   - - [4096, 3480, 1, 1024]
-    - [804, 9710.17]
+    - [940, 9710.17]
   - - [1024, 3968, 1, 4096]
-    - [804, 9543.11]
+    - [940, 9543.11]
   - - [4096, 3424, 1, 1024]
-    - [800, 9808.66]
+    - [936, 9808.66]
   - - [1024, 3906, 1, 1024]
-    - [802, 9150.54]
+    - [938, 9150.54]
   - - [4096, 3265, 1, 1024]
-    - [803, 9786.85]
+    - [939, 9786.85]
   - - [1024, 3384, 1, 4096]
-    - [823, 9119.56]
+    - [959, 9119.56]
   - - [1024, 3494, 1, 4096]
-    - [820, 9415.52]
+    - [956, 9415.52]
   - - [1024, 3236, 1, 4096]
-    - [817, 8767.14]
+    - [953, 8767.14]
   - - [4096, 3497, 1, 1024]
-    - [804, 9750.86]
+    - [940, 9750.86]
   - - [4096, 3354, 1, 1024]
-    - [815, 9665.17]
+    - [951, 9665.17]
   - - [4096, 3055, 1, 1024]
-    - [804, 9884.09]
+    - [940, 9884.09]
   - - [64, 11, 5456, 11]
-    - [827, 1368.34]
+    - [963, 1368.34]
   - - [4096, 3244, 1, 1024]
-    - [803, 9720.02]
+    - [939, 9720.02]
   - - [4096, 3139, 1, 1024]
-    - [814, 9737.06]
+    - [950, 9737.06]
   - - [4096, 3508, 1, 1024]
-    - [803, 9771.66]
+    - [939, 9771.66]
   - - [4096, 4050, 1, 1024]
-    - [803, 9898.79]
+    - [939, 9898.79]
   - - [1024, 3472, 1, 4096]
-    - [822, 9353.83]
+    - [958, 9353.83]
   - - [1024, 3861, 1, 1024]
-    - [801, 9061.32]
+    - [937, 9061.32]
   - - [1024, 3910, 1, 1024]
-    - [805, 9043.54]
+    - [941, 9043.54]
   - - [4096, 3371, 1, 1024]
-    - [815, 9738.24]
+    - [951, 9738.24]
   - - [64, 65, 992, 65]
-    - [854, 4354.59]
+    - [990, 4354.59]
   - - [1024, 3751, 1, 4096]
-    - [804, 9018.74]
+    - [940, 9018.74]
   - - [4096, 3325, 1, 1024]
-    - [803, 9958.73]
+    - [939, 9958.73]
   - - [1024, 3321, 1, 4096]
-    - [823, 8952.55]
+    - [959, 8952.55]
   - - [1024, 3944, 1, 1024]
-    - [802, 9117.35]
+    - [938, 9117.35]
   - - [4096, 3525, 1, 1024]
-    - [804, 9822.14]
+    - [940, 9822.14]
   - - [4096, 3382, 1, 1024]
-    - [815, 9720.21]
+    - [951, 9720.21]
   - - [64, 122, 528, 122]
-    - [850, 6389.33]
+    - [986, 6389.33]
   - - [1024, 3453, 1, 4096]
-    - [820, 9305.03]
+    - [956, 9305.03]
   - - [4096, 3564, 1, 1024]
-    - [803, 9911.32]
+    - [939, 9911.32]
   - - [4096, 3288, 1, 1024]
-    - [803, 9841.17]
+    - [939, 9841.17]
   - - [1024, 3925, 1, 4096]
-    - [804, 9418.95]
+    - [940, 9418.95]
   - - [1024, 3057, 1, 4096]
-    - [805, 9590.51]
+    - [941, 9590.51]
   - - [4096, 3488, 1, 1024]
-    - [804, 9732.5]
+    - [940, 9732.5]
   - - [4096, 3046, 1, 1024]
-    - [804, 9850.72]
+    - [940, 9850.72]
   - - [1024, 3189, 1, 4096]
-    - [816, 8677.02]
+    - [952, 8677.02]
   - - [4096, 3399, 1, 1024]
-    - [800, 9673.09]
+    - [936, 9673.09]
   - - [1024, 3383, 1, 4096]
-    - [823, 9102.37]
+    - [959, 9102.37]
   - - [1024, 3415, 1, 4096]
-    - [823, 9216.37]
+    - [959, 9216.37]
   - - [1024, 3388, 1, 4096]
-    - [823, 9127.53]
+    - [959, 9127.53]
   - - [1024, 3376, 1, 4096]
-    - [820, 9090.53]
+    - [956, 9090.53]
   - - [1024, 3473, 1, 4096]
-    - [823, 9354.12]
+    - [959, 9354.12]
   - - [4096, 3162, 1, 1024]
-    - [799, 9694.83]
+    - [935, 9694.83]
   - - [1024, 3448, 1, 4096]
-    - [823, 9283.45]
+    - [959, 9283.45]
   - - [4096, 3362, 1, 1024]
-    - [815, 9673.33]
+    - [951, 9673.33]
   - - [64, 228, 272, 228]
-    - [808, 7039.13]
+    - [944, 7039.13]
   - - [1024, 3262, 1, 4096]
-    - [817, 8850.84]
+    - [953, 8850.84]
   - - [1024, 3184, 1, 4096]
-    - [802, 8625.37]
+    - [938, 8625.37]
   - - [1024, 3378, 1, 4096]
-    - [822, 9105.27]
+    - [958, 9105.27]
   - - [4096, 3548, 1, 1024]
-    - [803, 9877.83]
+    - [939, 9877.83]
   - - [4096, 2977, 1, 1024]
-    - [803, 9647.81]
+    - [939, 9647.81]
   - - [64, 21, 2976, 21]
-    - [838, 2364.81]
+    - [974, 2364.81]
   - - [64, 112, 576, 111]
-    - [837, 5973.68]
+    - [973, 5973.68]
   - - [4096, 3443, 1, 1024]
-    - [799, 9784.5]
+    - [935, 9784.5]
   - - [1024, 3289, 1, 4096]
-    - [823, 8874.04]
+    - [959, 8874.04]
   - - [1024, 3483, 1, 4096]
-    - [819, 9380.57]
+    - [955, 9380.57]
   - - [4096, 3190, 1, 1024]
-    - [815, 9850.96]
+    - [951, 9850.96]
   - - [1024, 3421, 1, 4096]
-    - [823, 9214.06]
+    - [959, 9214.06]
   - - [1024, 3514, 1, 4096]
-    - [822, 9458.23]
+    - [958, 9458.23]
   - - [1024, 3532, 1, 4096]
-    - [823, 9513.03]
+    - [959, 9513.03]
   - - [1024, 3565, 1, 4096]
-    - [822, 9630.6]
+    - [958, 9630.6]
   - - [4096, 3422, 1, 1024]
-    - [800, 9733.79]
+    - [936, 9733.79]
   - - [4096, 3263, 1, 1024]
-    - [804, 9776.94]
+    - [940, 9776.94]
   - - [4096, 3296, 1, 1024]
-    - [804, 9860.61]
+    - [940, 9860.61]
   - - [4096, 3640, 1, 1024]
-    - [814, 9782.3]
+    - [950, 9782.3]
   - - [4096, 3463, 1, 1024]
-    - [803, 9672.0]
+    - [939, 9672.0]
   - - [4096, 3528, 1, 1024]
-    - [804, 9829.98]
+    - [940, 9829.98]
   - - [1024, 3351, 1, 4096]
-    - [817, 9054.37]
+    - [953, 9054.37]
   - - [1024, 3462, 1, 4096]
-    - [823, 9327.85]
+    - [959, 9327.85]
   - - [4096, 3226, 1, 1024]
-    - [804, 9674.93]
+    - [940, 9674.93]
   - - [4096, 3439, 1, 1024]
-    - [799, 9823.18]
+    - [935, 9823.18]
   - - [4096, 3121, 1, 1024]
-    - [799, 9672.64]
+    - [935, 9672.64]
   - - [1024, 4059, 1, 33708]
-    - [803, 9885.72]
+    - [939, 9885.72]
   - - [1024, 3311, 1, 4096]
-    - [823, 8910.01]
+    - [959, 8910.01]
   - - [1024, 3230, 1, 4096]
-    - [823, 8705.9]
+    - [959, 8705.9]
   - - [4096, 3353, 1, 1024]
-    - [815, 9671.86]
+    - [951, 9671.86]
   - - [4096, 3402, 1, 1024]
-    - [800, 9727.04]
+    - [936, 9727.04]
   - - [1024, 3427, 1, 4096]
-    - [823, 9233.55]
+    - [959, 9233.55]
   - - [1024, 3346, 1, 4096]
-    - [823, 9015.77]
+    - [959, 9015.77]
   - - [1024, 3126, 1, 4096]
-    - [817, 8519.31]
+    - [953, 8519.31]
   - - [1024, 3796, 1, 1024]
-    - [801, 8916.75]
+    - [937, 8916.75]
   - - [1024, 3990, 1, 4096]
-    - [805, 9600.86]
+    - [941, 9600.86]
   - - [1024, 3257, 1, 4096]
-    - [801, 8790.42]
+    - [937, 8790.42]
   - - [4096, 3996, 1, 1024]
-    - [804, 9788.25]
+    - [940, 9788.25]
   - - [64, 143, 432, 143]
-    - [832, 6087.24]
+    - [968, 6087.24]
   - - [1024, 3306, 1, 4096]
-    - [816, 9035.69]
+    - [952, 9035.69]
   - - [1024, 3389, 1, 4096]
-    - [823, 9134.92]
+    - [959, 9134.92]
   - - [1024, 3500, 1, 4096]
-    - [823, 9443.33]
+    - [959, 9443.33]
   - - [1024, 3999, 1, 33708]
-    - [804, 9741.24]
+    - [940, 9741.24]
   - - [4096, 3486, 1, 1024]
-    - [804, 9719.67]
+    - [940, 9719.67]
   - - [1024, 3438, 1, 4096]
-    - [823, 9259.38]
+    - [959, 9259.38]
   - - [4096, 3616, 1, 1024]
-    - [814, 9739.77]
+    - [950, 9739.77]
   - - [1024, 3955, 1, 1024]
-    - [816, 9260.37]
+    - [952, 9260.37]
   - - [4096, 3430, 1, 1024]
-    - [815, 9819.95]
+    - [951, 9819.95]
   - - [4096, 3271, 1, 1024]
-    - [804, 9802.04]
+    - [940, 9802.04]
   - - [1024, 3364, 1, 4096]
-    - [816, 9144.63]
+    - [952, 9144.63]
   - - [64, 54, 1184, 54]
-    - [836, 4315.78]
+    - [972, 4315.78]
   - - [1024, 3497, 1, 4096]
-    - [823, 9429.42]
+    - [959, 9429.42]
   - - [4096, 3503, 1, 1024]
-    - [803, 9764.48]
+    - [939, 9764.48]
   - - [4096, 3344, 1, 1024]
-    - [800, 9614.16]
+    - [936, 9614.16]
   - - [1024, 3457, 1, 4096]
-    - [823, 9320.6]
+    - [959, 9320.6]
   - - [4096, 3466, 1, 1024]
-    - [803, 9677.81]
+    - [939, 9677.81]
   - - [1024, 3976, 1, 33708]
-    - [804, 9685.38]
+    - [940, 9685.38]
   - - [1024, 3395, 1, 4096]
-    - [822, 9146.39]
+    - [958, 9146.39]
   - - [4096, 3361, 1, 1024]
-    - [814, 9677.89]
+    - [950, 9677.89]
   - - [1024, 3751, 1, 33708]
-    - [812, 9234.69]
+    - [948, 9234.69]
   - - [1024, 3822, 1, 1024]
-    - [801, 8977.83]
+    - [937, 8977.83]
   - - [4096, 3315, 1, 1024]
-    - [804, 9922.54]
+    - [940, 9922.54]
   - - [1024, 3163, 1, 4096]
-    - [816, 8577.79]
+    - [952, 8577.79]
   - - [4096, 3547, 1, 1024]
-    - [804, 9882.92]
+    - [940, 9882.92]
   - - [4096, 3340, 1, 1024]
-    - [814, 9635.42]
+    - [950, 9635.42]
   - - [1024, 3296, 1, 4096]
-    - [823, 8874.66]
+    - [959, 8874.66]
   - - [1024, 3468, 1, 4096]
-    - [823, 9350.26]
+    - [959, 9350.26]
   - - [4096, 3294, 1, 1024]
-    - [803, 9856.87]
+    - [939, 9856.87]
   - - [1024, 3406, 1, 4096]
-    - [819, 9162.84]
+    - [955, 9162.84]
   - - [1024, 3860, 1, 33708]
-    - [803, 9403.56]
+    - [939, 9403.56]
   - - [1024, 3584, 1, 4096]
-    - [820, 9677.44]
+    - [956, 9677.44]
   - - [4096, 3189, 1, 1024]
-    - [815, 9820.69]
+    - [951, 9820.69]
   - - [4096, 3494, 1, 1024]
-    - [803, 9747.68]
+    - [939, 9747.68]
   - - [64, 135, 480, 135]
-    - [829, 5966.34]
+    - [965, 5966.34]
   - - [1024, 3093, 1, 4096]
-    - [817, 8446.06]
+    - [953, 8446.06]
   - - [4096, 3421, 1, 1024]
-    - [800, 9776.03]
+    - [936, 9776.03]
   - - [1024, 3479, 1, 4096]
-    - [823, 9376.54]
+    - [959, 9376.54]
   - - [1024, 3433, 1, 4096]
-    - [823, 9251.14]
+    - [959, 9251.14]
   - - [4096, 3311, 1, 1024]
-    - [803, 9901.53]
+    - [939, 9901.53]
   - - [1024, 3381, 1, 4096]
-    - [823, 9103.99]
+    - [959, 9103.99]
   - - [1024, 3996, 1, 4096]
-    - [804, 9609.56]
+    - [940, 9609.56]
   - - [4096, 3384, 1, 1024]
-    - [814, 9750.01]
+    - [950, 9750.01]
   - - [1024, 3247, 1, 4096]
-    - [802, 8872.59]
+    - [938, 8872.59]
   - - [1024, 3169, 1, 4096]
-    - [801, 8597.61]
+    - [937, 8597.61]
   - - [1024, 3088, 1, 4096]
-    - [817, 8410.07]
+    - [953, 8410.07]
   - - [1024, 3363, 1, 4096]
-    - [823, 9069.5]
+    - [959, 9069.5]
   - - [1024, 3538, 1, 4096]
-    - [822, 9529.68]
+    - [958, 9529.68]
   - - [1024, 3996, 1, 1024]
-    - [806, 9323.06]
+    - [942, 9323.06]
   - - [4096, 3169, 1, 1024]
-    - [800, 9821.4]
+    - [936, 9821.4]
   - - [4096, 3538, 1, 1024]
-    - [803, 9859.42]
+    - [939, 9859.42]
   - - [4096, 3401, 1, 1024]
-    - [800, 9754.5]
+    - [936, 9754.5]
   - - [4096, 3581, 1, 1024]
-    - [803, 9960.71]
+    - [939, 9960.71]
   - - [1024, 3180, 1, 4096]
-    - [801, 8635.05]
+    - [937, 8635.05]
   - - [1024, 3870, 1, 1024]
-    - [802, 9085.69]
+    - [938, 9085.69]
   - - [4096, 3555, 1, 1024]
-    - [803, 9905.74]
+    - [939, 9905.74]
   - - [4096, 3412, 1, 1024]
-    - [815, 9778.56]
+    - [951, 9778.56]
   - - [4096, 3302, 1, 1024]
-    - [803, 9888.71]
+    - [939, 9888.71]
   - - [1024, 3561, 1, 4096]
-    - [819, 9597.05]
+    - [955, 9597.05]
   - - [1024, 3302, 1, 4096]
-    - [823, 8900.87]
+    - [959, 8900.87]
   - - [1024, 3976, 1, 4096]
-    - [805, 9563.22]
+    - [941, 9563.22]
   - - [4096, 3485, 1, 1024]
-    - [803, 9722.57]
+    - [939, 9722.57]
   - - [4096, 3534, 1, 1024]
-    - [803, 9847.22]
+    - [939, 9847.22]
   - - [1024, 3110, 1, 4096]
-    - [816, 8458.56]
+    - [952, 8458.56]
   - - [1024, 3401, 1, 4096]
-    - [823, 9174.81]
+    - [959, 9174.81]
   - - [4096, 3216, 1, 1024]
-    - [803, 9645.49]
+    - [939, 9645.49]
   - - [1024, 4020, 1, 33708]
-    - [803, 9793.61]
+    - [939, 9793.61]
   - - [1024, 3215, 1, 4096]
-    - [823, 8677.51]
+    - [959, 8677.51]
   - - [4096, 3566, 1, 1024]
-    - [803, 9924.78]
+    - [939, 9924.78]
   - - [1024, 3137, 1, 4096]
-    - [801, 8547.07]
+    - [937, 8547.07]
   - - [4096, 3359, 1, 1024]
-    - [800, 9673.73]
+    - [936, 9673.73]
   - - [4096, 3392, 1, 1024]
-    - [815, 9757.51]
+    - [951, 9757.51]
   - - [1024, 3506, 1, 4096]
-    - [823, 9443.0]
+    - [959, 9443.0]
   - - [4096, 3233, 1, 1024]
-    - [803, 9698.7]
+    - [939, 9698.7]
   - - [1024, 3444, 1, 4096]
-    - [823, 9275.54]
+    - [959, 9275.54]
   - - [1024, 3975, 1, 4096]
-    - [804, 9556.87]
+    - [940, 9556.87]
   - - [1024, 3870, 1, 33708]
-    - [803, 9427.44]
+    - [939, 9427.44]
   - - [4096, 3465, 1, 1024]
-    - [804, 9675.01]
+    - [940, 9675.01]
   - - [4096, 3968, 1, 1024]
-    - [800, 9927.93]
+    - [936, 9927.93]
   - - [1024, 3523, 1, 4096]
-    - [823, 9494.15]
+    - [959, 9494.15]
   - - [64, 10, 5952, 10]
-    - [827, 1224.16]
+    - [963, 1224.16]
   - - [4096, 3990, 1, 1024]
-    - [803, 9771.27]
+    - [939, 9771.27]
   - - [1024, 3549, 1, 4096]
-    - [822, 9553.42]
+    - [958, 9553.42]
   - - [1024, 3342, 1, 4096]
-    - [823, 9007.31]
+    - [959, 9007.31]
   - - [4096, 3476, 1, 1024]
-    - [803, 9703.66]
+    - [939, 9703.66]
   - - [64, 232, 272, 228]
-    - [809, 7078.93]
+    - [945, 7078.93]
   - - [1024, 3418, 1, 4096]
-    - [823, 9213.09]
+    - [959, 9213.09]
   - - [1024, 3859, 1, 1024]
-    - [802, 9087.54]
+    - [938, 9087.54]
   - - [4096, 3339, 1, 1024]
-    - [815, 9594.0]
+    - [951, 9594.0]
   - - [4096, 3452, 1, 1024]
-    - [800, 9872.69]
+    - [936, 9872.69]
   - - [4096, 3293, 1, 1024]
-    - [803, 9842.65]
+    - [939, 9842.65]
   - - [4096, 3840, 1, 1024]
-    - [804, 10030.8]
+    - [940, 10030.8]
   - - [1024, 3369, 1, 4096]
-    - [801, 9099.72]
+    - [937, 9099.72]
   - - [64, 193, 320, 193]
-    - [831, 6425.8]
+    - [967, 6425.8]
   - - [1024, 3544, 1, 4096]
-    - [820, 9556.64]
+    - [956, 9556.64]
   - - [4096, 3493, 1, 1024]
-    - [804, 9743.34]
+    - [940, 9743.34]
   - - [4096, 3350, 1, 1024]
-    - [815, 9653.11]
+    - [951, 9653.11]
   - - [64, 71, 896, 71]
-    - [855, 4686.73]
+    - [991, 4686.73]
   - - [4096, 3256, 1, 1024]
-    - [803, 9763.78]
+    - [939, 9763.78]
   - - [1024, 3870, 1, 4096]
-    - [805, 9305.28]
+    - [941, 9305.28]
   - - [4096, 4012, 1, 1024]
-    - [804, 9817.35]
+    - [940, 9817.35]
   - - [1024, 3280, 1, 4096]
-    - [823, 8842.02]
+    - [959, 8842.02]
   - - [4096, 3456, 1, 1024]
-    - [799, 9874.43]
+    - [935, 9874.43]
   - - [1024, 3555, 1, 4096]
-    - [822, 9599.63]
+    - [958, 9599.63]
   - - [4096, 3014, 1, 1024]
-    - [803, 9762.28]
+    - [939, 9762.28]
   - - [1024, 3474, 1, 4096]
-    - [823, 9373.67]
+    - [959, 9373.67]
   - - [4096, 3367, 1, 1024]
-    - [799, 9694.64]
+    - [935, 9694.64]
   - - [4096, 3432, 1, 1024]
-    - [815, 9855.27]
+    - [951, 9855.27]
   - - [64, 84, 752, 84]
-    - [842, 5247.18]
+    - [978, 5247.18]
   - - [4096, 3273, 1, 1024]
-    - [804, 9801.87]
+    - [940, 9801.87]
   - - [4096, 3130, 1, 1024]
-    - [800, 9672.52]
+    - [936, 9672.52]
   - - [1024, 2984, 1, 4096]
-    - [805, 9403.7]
+    - [941, 9403.7]
   - - [1024, 3995, 1, 1024]
-    - [817, 9392.61]
+    - [953, 9392.61]
   - - [1024, 3517, 1, 4096]
-    - [823, 9481.39]
+    - [959, 9481.39]
   - - [1024, 3455, 1, 4096]
-    - [823, 9302.29]
+    - [959, 9302.29]
   - - [1024, 3939, 1, 4096]
-    - [805, 9469.89]
+    - [941, 9469.89]
   - - [64, 49, 1296, 49]
-    - [835, 3938.96]
+    - [971, 3938.96]
   - - [64, 14, 4368, 14]
-    - [827, 1802.47]
+    - [963, 1802.47]
   - - [64, 25, 2512, 25]
-    - [846, 2760.54]
+    - [982, 2760.54]
   - - [4096, 3147, 1, 1024]
-    - [815, 9713.03]
+    - [951, 9713.03]
   - - [4096, 3516, 1, 1024]
-    - [803, 9805.93]
+    - [939, 9805.93]
   - - [1024, 3876, 1, 4096]
-    - [805, 9320.56]
+    - [941, 9320.56]
   - - [1024, 3191, 1, 4096]
-    - [802, 8640.76]
+    - [938, 8640.76]
   - - [4096, 3411, 1, 1024]
-    - [814, 9737.37]
+    - [950, 9737.37]
   - - [1024, 3337, 1, 4096]
-    - [823, 8990.13]
+    - [959, 8990.13]
   - - [1024, 3512, 1, 4096]
-    - [823, 9459.65]
+    - [959, 9459.65]
   - - [4096, 3301, 1, 1024]
-    - [803, 9877.26]
+    - [939, 9877.26]
   - - [1024, 3450, 1, 4096]
-    - [822, 9283.11]
+    - [958, 9283.11]
   - - [4096, 3533, 1, 1024]
-    - [803, 9848.62]
+    - [939, 9848.62]
   - - [4096, 3390, 1, 1024]
-    - [815, 9764.61]
+    - [951, 9764.61]
   - - [4096, 3231, 1, 1024]
-    - [803, 9693.81]
+    - [939, 9693.81]
   - - [1024, 2499, 1, 4096]
-    - [822, 9304.81]
+    - [958, 9304.81]
   - - [1024, 3186, 1, 4096]
-    - [802, 8649.55]
+    - [938, 8649.55]
   - - [1024, 3380, 1, 4096]
-    - [823, 9101.77]
+    - [959, 9101.77]
   - - [4096, 3496, 1, 1024]
-    - [804, 9754.3]
+    - [940, 9754.3]
   - - [1024, 3956, 1, 33708]
-    - [803, 9636.77]
+    - [939, 9636.77]
   - - [1024, 3976, 1, 1024]
-    - [805, 9248.41]
+    - [941, 9248.41]
   - - [4096, 2736, 1, 1024]
-    - [803, 9651.91]
+    - [939, 9651.91]
   - - [1024, 3291, 1, 4096]
-    - [823, 8868.94]
+    - [959, 8868.94]
   - - [1024, 3944, 1, 33708]
-    - [804, 9607.0]
+    - [940, 9607.0]
   - - [1024, 3485, 1, 4096]
-    - [822, 9385.96]
+    - [958, 9385.96]
   - - [4096, 3138, 1, 1024]
-    - [800, 9672.15]
+    - [936, 9672.15]
   - - [1024, 3423, 1, 4096]
-    - [823, 9222.77]
+    - [959, 9222.77]
   - - [1024, 3491, 1, 4096]
-    - [823, 9405.02]
+    - [959, 9405.02]
   - - [1024, 3860, 1, 4096]
-    - [806, 9282.94]
+    - [942, 9282.94]
   - - [4096, 3211, 1, 1024]
-    - [803, 9640.42]
+    - [939, 9640.42]
   - - [1024, 3221, 1, 4096]
-    - [817, 8709.4]
+    - [953, 8709.4]
   - - [1024, 2917, 1, 4096]
-    - [805, 9177.11]
+    - [941, 9177.11]
   - - [4096, 3475, 1, 1024]
-    - [803, 9703.45]
+    - [939, 9703.45]
   - - [4096, 3524, 1, 1024]
-    - [803, 9816.23]
+    - [939, 9816.23]
   - - [4096, 2985, 1, 1024]
-    - [804, 9686.91]
+    - [940, 9686.91]
   - - [1024, 3480, 1, 4096]
-    - [823, 9380.2]
+    - [959, 9380.2]
   - - [4096, 3222, 1, 1024]
-    - [803, 9666.8]
+    - [939, 9666.8]
   - - [4096, 3451, 1, 1024]
-    - [799, 9877.91]
+    - [935, 9877.91]
   - - [1024, 3969, 1, 33708]
-    - [803, 9669.64]
+    - [939, 9669.64]
   - - [1024, 3640, 1, 1024]
-    - [810, 8565.68]
+    - [946, 8565.68]
   - - [1024, 3297, 1, 4096]
-    - [819, 8889.22]
+    - [955, 8889.22]
   - - [4096, 3944, 1, 1024]
-    - [800, 9902.85]
+    - [936, 9902.85]
   - - [1024, 3216, 1, 4096]
-    - [802, 8695.88]
+    - [938, 8695.88]
   - - [1024, 3840, 1, 1024]
-    - [816, 9046.05]
+    - [952, 9046.05]
   - - [4096, 3349, 1, 1024]
-    - [814, 9676.82]
+    - [950, 9676.82]
   - - [4096, 3398, 1, 1024]
-    - [800, 9775.84]
+    - [936, 9775.84]
   - - [1024, 3154, 1, 4096]
-    - [817, 8662.26]
+    - [953, 8662.26]
   - - [1024, 3978, 1, 33708]
-    - [804, 9689.16]
+    - [940, 9689.16]
   - - [1024, 3348, 1, 4096]
-    - [823, 9014.67]
+    - [959, 9014.67]
   - - [4096, 3304, 1, 1024]
-    - [804, 9886.8]
+    - [940, 9886.8]
   - - [4096, 4030, 1, 1024]
-    - [804, 9859.1]
+    - [940, 9859.1]
   - - [1024, 4026, 1, 1024]
-    - [801, 9326.64]
+    - [937, 9326.64]
   - - [4096, 3471, 1, 1024]
-    - [803, 9683.0]
+    - [939, 9683.0]
   - - [1024, 3259, 1, 4096]
-    - [817, 8792.19]
+    - [953, 8792.19]
   - - [64, 132, 480, 132]
-    - [857, 6027.86]
+    - [993, 6027.86]
   - - [1024, 3308, 1, 4096]
-    - [822, 8905.14]
+    - [958, 8905.14]
   - - [4096, 3391, 1, 1024]
-    - [815, 9765.35]
+    - [951, 9765.35]
   - - [1024, 3312, 1, 4096]
-    - [823, 8917.74]
+    - [959, 8917.74]
   - - [1024, 3502, 1, 4096]
-    - [823, 9435.62]
+    - [959, 9435.62]
   - - [1024, 3968, 1, 33708]
-    - [803, 9668.24]
+    - [939, 9668.24]
   - - [1024, 3424, 1, 4096]
-    - [819, 9215.99]
+    - [955, 9215.99]
   - - [64, 13, 4672, 13]
-    - [828, 1662.35]
+    - [964, 1662.35]
   - - [4096, 4032, 1, 1024]
-    - [814, 9877.82]
+    - [950, 9877.82]
   - - [1024, 3900, 1, 1024]
-    - [817, 9116.93]
+    - [953, 9116.93]
   - - [4096, 3442, 1, 1024]
-    - [814, 9773.18]
+    - [950, 9773.18]
   - - [1024, 3366, 1, 4096]
-    - [823, 9079.46]
+    - [959, 9079.46]
   - - [4096, 3999, 1, 1024]
-    - [803, 9786.46]
+    - [939, 9786.46]
   - - [1024, 3477, 1, 4096]
-    - [823, 9364.89]
+    - [959, 9364.89]
   - - [1024, 2505, 1, 4096]
-    - [823, 9304.03]
+    - [959, 9304.03]
   - - [4096, 3515, 1, 1024]
-    - [803, 9797.93]
+    - [939, 9797.93]
   - - [1024, 3564, 1, 4096]
-    - [819, 9632.86]
+    - [955, 9632.86]
   - - [4096, 3057, 1, 1024]
-    - [804, 9880.19]
+    - [940, 9880.19]
   - - [1024, 3339, 1, 4096]
-    - [802, 9029.86]
+    - [938, 9029.86]
   - - [4096, 3262, 1, 1024]
-    - [803, 9780.1]
+    - [939, 9780.1]
   - - [1024, 4030, 1, 4096]
-    - [806, 9682.0]
+    - [942, 9682.0]
   - - [1024, 3265, 1, 4096]
-    - [823, 8797.52]
+    - [959, 8797.52]
   - - [1024, 3459, 1, 4096]
-    - [823, 9313.06]
+    - [959, 9313.06]
   - - [4096, 3462, 1, 1024]
-    - [804, 9669.73]
+    - [940, 9669.73]
   - - [64, 85, 752, 85]
-    - [842, 5186.93]
+    - [978, 5186.93]
   - - [1024, 3513, 1, 4096]
-    - [820, 9469.15]
+    - [956, 9469.15]
   - - [1024, 3397, 1, 4096]
-    - [823, 9151.77]
+    - [959, 9151.77]
   - - [4096, 3572, 1, 1024]
-    - [803, 9945.7]
+    - [939, 9945.7]
   - - [4096, 3389, 1, 1024]
-    - [815, 9740.86]
+    - [951, 9740.86]
   - - [4096, 3438, 1, 1024]
-    - [815, 9822.47]
+    - [951, 9822.47]
   - - [64, 102, 624, 100]
-    - [850, 5487.0]
+    - [986, 5487.0]
   - - [1024, 3640, 1, 33708]
-    - [811, 9083.53]
+    - [947, 9083.53]
   - - [1024, 3995, 1, 33708]
-    - [804, 9731.99]
+    - [940, 9731.99]
   - - [1024, 3165, 1, 4096]
-    - [816, 8601.9]
+    - [952, 8601.9]
   - - [4096, 3543, 1, 1024]
-    - [804, 9868.63]
+    - [940, 9868.63]
   - - [4096, 3352, 1, 1024]
-    - [799, 9668.44]
+    - [935, 9668.44]
   - - [1024, 3359, 1, 4096]
-    - [820, 9050.33]
+    - [956, 9050.33]
   - - [1024, 3470, 1, 4096]
-    - [823, 9355.17]
+    - [959, 9355.17]
   - - [64, 15, 4096, 15]
-    - [827, 1945.43]
+    - [963, 1945.43]
   - - [1024, 3392, 1, 4096]
-    - [822, 9139.71]
+    - [958, 9139.71]
   - - [64, 78, 816, 77]
-    - [834, 4870.56]
+    - [970, 4870.56]
   - - [4096, 3137, 1, 1024]
-    - [799, 9600.22]
+    - [935, 9600.22]
   - - [4096, 3506, 1, 1024]
-    - [804, 9779.08]
+    - [940, 9779.08]
   - - [1024, 3095, 1, 4096]
-    - [816, 8381.24]
+    - [952, 8381.24]
   - - [1024, 3859, 1, 4096]
-    - [803, 9288.63]
+    - [939, 9288.63]
   - - [4096, 3369, 1, 1024]
-    - [815, 9697.73]
+    - [951, 9697.73]
   - - [64, 45, 1424, 45]
-    - [852, 3883.74]
+    - [988, 3883.74]
   - - [1024, 3435, 1, 4096]
-    - [823, 9264.62]
+    - [959, 9264.62]
   - - [1024, 3354, 1, 4096]
-    - [823, 9035.47]
+    - [959, 9035.47]
   - - [1024, 3055, 1, 4096]
-    - [804, 9597.45]
+    - [940, 9597.45]
   - - [4096, 3523, 1, 1024]
-    - [803, 9821.79]
+    - [939, 9821.79]
   - - [4096, 3380, 1, 1024]
-    - [799, 9721.39]
+    - [935, 9721.39]
   - - [1024, 3233, 1, 4096]
-    - [816, 8724.75]
+    - [952, 8724.75]
   - - [4096, 3221, 1, 1024]
-    - [803, 9661.04]
+    - [939, 9661.04]
   - - [4096, 3270, 1, 1024]
-    - [803, 9797.92]
+    - [939, 9797.92]
   - - [4096, 3593, 1, 1024]
-    - [814, 9679.31]
+    - [950, 9679.31]
   - - [1024, 3358, 1, 4096]
-    - [823, 9051.82]
+    - [959, 9051.82]
   - - [1024, 3540, 1, 4096]
-    - [823, 9533.59]
+    - [959, 9533.59]
   - - [4096, 3502, 1, 1024]
-    - [804, 9760.65]
+    - [940, 9760.65]
   - - [4096, 2505, 1, 1024]
-    - [804, 9680.52]
+    - [940, 9680.52]
   - - [4096, 3397, 1, 1024]
-    - [814, 9785.85]
+    - [950, 9785.85]
   - - [1024, 3300, 1, 4096]
-    - [817, 8907.85]
+    - [953, 8907.85]
   - - [4096, 3095, 1, 1024]
-    - [800, 9618.78]
+    - [936, 9618.78]
   - - [1024, 3182, 1, 4096]
-    - [816, 8606.16]
+    - [952, 8606.16]
   - - [1024, 3299, 1, 4096]
-    - [822, 8885.48]
+    - [958, 8885.48]
   - - [1024, 3276, 1, 4096]
-    - [817, 8872.75]
+    - [953, 8872.75]
   - - [1024, 3360, 1, 4096]
-    - [820, 9044.2]
+    - [956, 9044.2]
   - - [4096, 3360, 1, 1024]
-    - [815, 9681.39]
+    - [951, 9681.39]
   - - [4096, 2918, 1, 1024]
-    - [799, 9732.74]
+    - [935, 9732.74]
   - - [1024, 3939, 1, 33708]
-    - [803, 9595.96]
+    - [939, 9595.96]
   - - [4096, 3314, 1, 1024]
-    - [804, 9915.02]
+    - [940, 9915.02]
   - - [1024, 3319, 1, 4096]
-    - [823, 8956.37]
+    - [959, 8956.37]
   - - [64, 35, 1808, 35]
-    - [840, 3060.27]
+    - [976, 3060.27]
   - - [1024, 3942, 1, 1024]
-    - [816, 9211.83]
+    - [952, 9211.83]
   - - [1024, 3465, 1, 4096]
-    - [823, 9340.73]
+    - [959, 9340.73]
   - - [4096, 3546, 1, 1024]
-    - [804, 9875.41]
+    - [940, 9875.41]
   - - [1024, 3403, 1, 4096]
-    - [816, 9224.34]
+    - [952, 9224.34]
   - - [1024, 3948, 1, 1024]
-    - [802, 9245.63]
+    - [938, 9245.63]
   - - [4096, 3441, 1, 1024]
-    - [815, 9758.72]
+    - [951, 9758.72]
   - - [1024, 3139, 1, 4096]
-    - [816, 8582.84]
+    - [952, 8582.84]
   - - [1024, 3563, 1, 4096]
-    - [823, 9620.74]
+    - [959, 9620.74]
   - - [1024, 3508, 1, 4096]
-    - [820, 9449.36]
+    - [956, 9449.36]
   - - [1024, 3975, 1, 33708]
-    - [803, 9683.55]
+    - [939, 9683.55]
   - - [1024, 3446, 1, 4096]
-    - [822, 9289.51]
+    - [958, 9289.51]
   - - [1024, 3529, 1, 4096]
-    - [819, 9491.29]
+    - [955, 9491.29]
   - - [64, 112, 576, 112]
-    - [844, 6387.14]
+    - [980, 6387.14]
   - - [4096, 3461, 1, 1024]
-    - [804, 9663.33]
+    - [940, 9663.33]
   - - [1024, 3574, 1, 4096]
-    - [822, 9662.88]
+    - [958, 9662.88]
   - - [1024, 3101, 1, 4096]
-    - [817, 8468.34]
+    - [953, 8468.34]
   - - [1024, 3927, 1, 1024]
-    - [802, 9207.97]
+    - [938, 9207.97]
   - - [4096, 3224, 1, 1024]
-    - [804, 9665.61]
+    - [940, 9665.61]
   - - [4096, 3437, 1, 1024]
-    - [800, 9857.21]
+    - [936, 9857.21]
   - - [4096, 3900, 1, 1024]
-    - [815, 9826.25]
+    - [951, 9826.25]
   - - [1024, 3495, 1, 4096]
-    - [823, 9412.41]
+    - [959, 9412.41]
   - - [1024, 3977, 1, 33708]
-    - [803, 9687.87]
+    - [939, 9687.87]
   - - [1024, 3328, 1, 4096]
-    - [823, 8975.57]
+    - [959, 8975.57]
   - - [4096, 3168, 1, 1024]
-    - [799, 9754.87]
+    - [935, 9754.87]
   - - [1024, 4026, 1, 33708]
-    - [803, 9807.24]
+    - [939, 9807.24]
   - - [1024, 3292, 1, 4096]
-    - [816, 8901.83]
+    - [952, 8901.83]
   - - [1024, 3294, 1, 4096]
-    - [823, 8877.03]
+    - [959, 8877.03]
   - - [4096, 3335, 1, 1024]
-    - [800, 9616.23]
+    - [936, 9616.23]
   - - [4096, 3400, 1, 1024]
-    - [814, 9710.73]
+    - [950, 9710.73]
   - - [1024, 3287, 1, 4096]
-    - [801, 8908.07]
+    - [937, 8908.07]
   - - [1024, 3910, 1, 4096]
-    - [805, 9401.03]
+    - [941, 9401.03]
   - - [1024, 3780, 1, 1024]
-    - [816, 8863.29]
+    - [952, 8863.29]
   - - [4096, 3098, 1, 1024]
-    - [800, 9606.47]
+    - [936, 9606.47]
   - - [1024, 3584, 1, 33708]
-    - [823, 9775.33]
+    - [959, 9775.33]
   - - [64, 29, 2176, 29]
-    - [845, 3135.03]
+    - [981, 3135.03]
   - - [1024, 3371, 1, 4096]
-    - [801, 9117.81]
+    - [937, 9117.81]
   - - [1024, 3546, 1, 4096]
-    - [823, 9547.3]
+    - [959, 9547.3]
   - - [1024, 4012, 1, 1024]
-    - [805, 9353.73]
+    - [941, 9353.73]
   - - [4096, 3505, 1, 1024]
-    - [803, 9773.17]
+    - [939, 9773.17]
   - - [4096, 3554, 1, 1024]
-    - [803, 9895.59]
+    - [939, 9895.59]
   - - [4096, 3063, 1, 1024]
-    - [803, 9898.98]
+    - [939, 9898.98]
   - - [1024, 3900, 1, 33708]
-    - [804, 9502.93]
+    - [940, 9502.93]
   - - [1024, 3345, 1, 4096]
-    - [823, 9015.85]
+    - [959, 9015.85]
   - - [1024, 3357, 1, 4096]
-    - [823, 9041.23]
+    - [959, 9041.23]
   - - [1024, 3282, 1, 4096]
-    - [816, 8860.17]
+    - [952, 8860.17]
   - - [4096, 3484, 1, 1024]
-    - [804, 9721.33]
+    - [940, 9721.33]
   - - [1024, 3557, 1, 4096]
-    - [820, 9573.48]
+    - [956, 9573.48]
   - - [1024, 3476, 1, 4096]
-    - [823, 9361.72]
+    - [959, 9361.72]
   - - [1024, 3751, 1, 1024]
-    - [817, 8849.11]
+    - [953, 8849.11]
   - - [4096, 3379, 1, 1024]
-    - [800, 9741.49]
+    - [936, 9741.49]
   - - [4096, 3428, 1, 1024]
-    - [799, 9767.82]
+    - [935, 9767.82]
   - - [4096, 3126, 1, 1024]
-    - [814, 9701.9]
+    - [950, 9701.9]
   - - [64, 41, 1552, 41]
-    - [849, 3555.69]
+    - [985, 3555.69]
   - - [1024, 3325, 1, 4096]
-    - [801, 8962.41]
+    - [937, 8962.41]
   - - [4096, 3501, 1, 1024]
-    - [803, 9762.01]
+    - [939, 9762.01]
   - - [4096, 3358, 1, 1024]
-    - [799, 9680.42]
+    - [935, 9680.42]
   - - [1024, 3441, 1, 4096]
-    - [823, 9271.27]
+    - [959, 9271.27]
   - - [1024, 3552, 1, 4096]
-    - [819, 9565.42]
+    - [955, 9565.42]
   - - [4096, 3232, 1, 1024]
-    - [804, 9696.81]
+    - [940, 9696.81]
   - - [64, 18, 3440, 18]
-    - [824, 2059.33]
+    - [960, 2059.33]
   - - [1024, 3412, 1, 4096]
-    - [823, 9199.28]
+    - [959, 9199.28]
   - - [1024, 3372, 1, 4096]
-    - [820, 9083.49]
+    - [956, 9083.49]
   - - [1024, 3585, 1, 4096]
-    - [810, 8710.29]
+    - [946, 8710.29]
   - - [4096, 3143, 1, 1024]
-    - [815, 9692.12]
+    - [951, 9692.12]
   - - [4096, 3464, 1, 1024]
-    - [803, 9661.93]
+    - [939, 9661.93]
   - - [1024, 3145, 1, 4096]
-    - [802, 8526.33]
+    - [938, 8526.33]
   - - [4096, 3375, 1, 1024]
-    - [814, 9734.78]
+    - [950, 9734.78]
   - - [4096, 2917, 1, 1024]
-    - [799, 9714.57]
+    - [935, 9714.57]
   - - [4096, 3978, 1, 1024]
-    - [804, 9741.43]
+    - [940, 9741.43]
   - - [1024, 2765, 1, 4096]
-    - [805, 8706.75]
+    - [941, 8706.75]
   - - [64, 148, 432, 148]
-    - [830, 6372.17]
+    - [966, 6372.17]
   - - [1024, 3452, 1, 4096]
-    - [822, 9301.38]
+    - [958, 9301.38]
   - - [4096, 3584, 1, 1024]
-    - [804, 10005.7]
+    - [940, 10005.7]
   - - [4096, 3545, 1, 1024]
-    - [804, 9877.87]
+    - [940, 9877.87]
   - - [1024, 3352, 1, 4096]
-    - [823, 9035.19]
+    - [959, 9035.19]
   - - [64, 159, 400, 160]
-    - [832, 6952.11]
+    - [968, 6952.11]
   - - [4096, 3292, 1, 1024]
-    - [803, 9856.51]
+    - [939, 9856.51]
   - - [1024, 3525, 1, 4096]
-    - [823, 9501.5]
+    - [959, 9501.5]
   - - [1024, 3266, 1, 4096]
-    - [823, 8817.43]
+    - [959, 8817.43]
   - - [1024, 3382, 1, 4096]
-    - [822, 9101.54]
+    - [958, 9101.54]
   - - [4096, 3492, 1, 1024]
-    - [803, 9747.29]
+    - [939, 9747.29]
   - - [4096, 3419, 1, 1024]
-    - [815, 9745.88]
+    - [951, 9745.88]
   - - [1024, 3796, 1, 33708]
-    - [812, 9356.26]
+    - [948, 9356.26]
   - - [1024, 3293, 1, 4096]
-    - [819, 8868.4]
+    - [955, 8868.4]
   - - [4096, 3796, 1, 1024]
-    - [804, 9885.36]
+    - [940, 9885.36]
   - - [1024, 3487, 1, 4096]
-    - [820, 9391.34]
+    - [956, 9391.34]
   - - [4096, 3166, 1, 1024]
-    - [815, 9718.46]
+    - [951, 9718.46]
   - - [64, 102, 624, 101]
-    - [844, 5547.84]
+    - [980, 5547.84]
   - - [1024, 3409, 1, 4096]
-    - [823, 9187.88]
+    - [959, 9187.88]
   - - [1024, 3520, 1, 4096]
-    - [822, 9485.09]
+    - [958, 9485.09]
   - - [1024, 3573, 1, 4096]
-    - [823, 9652.71]
+    - [959, 9652.71]
   - - [4096, 3366, 1, 1024]
-    - [799, 9684.31]
+    - [935, 9684.31]
   - - [4096, 3720, 1, 1024]
-    - [815, 9703.34]
+    - [951, 9703.34]
   - - [4096, 3207, 1, 1024]
-    - [803, 9626.21]
+    - [939, 9626.21]
   - - [4096, 3272, 1, 1024]
-    - [803, 9795.51]
+    - [939, 9795.51]
   - - [1024, 3390, 1, 4096]
-    - [823, 9125.88]
+    - [959, 9125.88]
   - - [4096, 3183, 1, 1024]
-    - [815, 9825.87]
+    - [951, 9825.87]
   - - [4096, 3536, 1, 1024]
-    - [804, 9846.51]
+    - [940, 9846.51]
   - - [4096, 3563, 1, 1024]
-    - [804, 9913.8]
+    - [940, 9913.8]
   - - [1024, 3482, 1, 4096]
-    - [823, 9376.91]
+    - [959, 9376.91]
   - - [4096, 3447, 1, 1024]
-    - [814, 9875.09]
+    - [950, 9875.09]
   - - [4096, 3955, 1, 1024]
-    - [799, 9922.39]
+    - [935, 9922.39]
   - - [4096, 4005, 1, 1024]
-    - [804, 9803.43]
+    - [940, 9803.43]
   - - [1024, 3493, 1, 4096]
-    - [823, 9411.37]
+    - [959, 9411.37]
   - - [4096, 3410, 1, 1024]
-    - [799, 9788.34]
+    - [935, 9788.34]
   - - [1024, 3422, 1, 4096]
-    - [822, 9216.28]
+    - [958, 9216.28]
   - - [1024, 3350, 1, 4096]
-    - [817, 9068.02]
+    - [953, 9068.02]
   - - [4096, 3300, 1, 1024]
-    - [804, 9883.29]
+    - [940, 9883.29]
   - - [4096, 3910, 1, 1024]
-    - [814, 9800.12]
+    - [950, 9800.12]
   - - [1024, 3489, 1, 4096]
-    - [823, 9398.66]
+    - [959, 9398.66]
   - - [4096, 3483, 1, 1024]
-    - [803, 9715.96]
+    - [939, 9715.96]
   - - [4096, 3532, 1, 1024]
-    - [804, 9837.99]
+    - [940, 9837.99]
   - - [64, 101, 624, 101]
-    - [844, 5452.28]
+    - [980, 5452.28]
   - - [4096, 3230, 1, 1024]
-    - [804, 9683.6]
+    - [940, 9683.6]
   - - [4096, 3427, 1, 1024]
-    - [799, 9760.72]
+    - [935, 9760.72]
   - - [1024, 3377, 1, 4096]
-    - [823, 9101.17]
+    - [959, 9101.17]
   - - [1024, 3488, 1, 4096]
-    - [822, 9381.99]
+    - [958, 9381.99]
   - - [1024, 3616, 1, 4096]
-    - [805, 8709.33]
+    - [941, 8709.33]
   - - [1024, 3426, 1, 4096]
-    - [823, 9229.43]
+    - [959, 9229.43]
   - - [4096, 3357, 1, 1024]
-    - [815, 9668.5]
+    - [951, 9668.5]
   - - [4096, 3406, 1, 1024]
-    - [800, 9748.57]
+    - [936, 9748.57]
   - - [1024, 3046, 1, 4096]
-    - [805, 9590.43]
+    - [941, 9590.43]
   - - [1024, 3272, 1, 4096]
-    - [816, 8930.2]
+    - [952, 8930.2]
   - - [1024, 3256, 1, 4096]
-    - [801, 8828.16]
+    - [937, 8828.16]
   - - [4096, 3247, 1, 1024]
-    - [803, 9741.81]
+    - [939, 9741.81]
   - - [4096, 3088, 1, 1024]
-    - [815, 9589.07]
+    - [951, 9589.07]
   - - [1024, 3531, 1, 4096]
-    - [822, 9501.06]
+    - [958, 9501.06]
   - - [64, 160, 400, 160]
-    - [858, 7334.03]
+    - [994, 7334.03]
   - - [4096, 3511, 1, 1024]
-    - [804, 9789.38]
+    - [940, 9789.38]
   - - [1024, 3720, 1, 33708]
-    - [813, 9214.68]
+    - [949, 9214.68]
   - - [1024, 3267, 1, 4096]
-    - [816, 8831.04]
+    - [952, 8831.04]
   - - [1024, 3270, 1, 4096]
-    - [817, 8876.68]
+    - [953, 8876.68]
   - - [1024, 3461, 1, 4096]
-    - [822, 9327.55]
+    - [958, 9327.55]
   - - [4096, 3474, 1, 1024]
-    - [803, 9697.04]
+    - [939, 9697.04]
   - - [4096, 2984, 1, 1024]
-    - [804, 9674.08]
+    - [940, 9674.08]
   - - [1024, 3399, 1, 4096]
-    - [822, 9158.58]
+    - [958, 9158.58]
   - - [4096, 3574, 1, 1024]
-    - [803, 9942.3]
+    - [939, 9942.3]
   - - [1024, 3876, 1, 1024]
-    - [817, 9085.13]
+    - [953, 9085.13]
   - - [4096, 3337, 1, 1024]
-    - [800, 9611.43]
+    - [936, 9611.43]
   - - [4096, 3450, 1, 1024]
-    - [815, 9930.35]
+    - [951, 9930.35]
   - - [1024, 3720, 1, 1024]
-    - [801, 8755.49]
+    - [937, 8755.49]
   - - [1024, 4059, 1, 1024]
-    - [806, 9366.67]
+    - [942, 9366.67]
   - - [4096, 3291, 1, 1024]
-    - [803, 9856.33]
+    - [939, 9856.33]
   - - [64, 93, 688, 93]
-    - [847, 5497.11]
+    - [983, 5497.11]
   - - [4096, 3995, 1, 1024]
-    - [803, 9776.67]
+    - [939, 9776.67]
   - - [64, 147, 432, 147]
-    - [833, 6233.88]
+    - [969, 6233.88]
   - - [4096, 3491, 1, 1024]
-    - [803, 9742.94]
+    - [939, 9742.94]
   - - [4096, 3348, 1, 1024]
-    - [815, 9634.11]
+    - [951, 9634.11]
   - - [4096, 3925, 1, 1024]
-    - [814, 9848.54]
+    - [950, 9848.54]
   - - [4096, 3894, 1, 1024]
-    - [814, 9812.55]
+    - [950, 9812.55]
   - - [1024, 3456, 1, 4096]
-    - [823, 9317.91]
+    - [959, 9317.91]
   - - [1024, 3394, 1, 4096]
-    - [822, 9148.86]
+    - [958, 9148.86]
   - - [64, 100, 624, 102]
-    - [844, 5416.95]
+    - [980, 5416.95]
   - - [4096, 3165, 1, 1024]
-    - [814, 9743.35]
+    - [950, 9743.35]
   - - [4096, 3470, 1, 1024]
-    - [804, 9691.04]
+    - [940, 9691.04]
   - - [1024, 3014, 1, 4096]
-    - [805, 9486.26]
+    - [941, 9486.26]
   - - [1024, 3375, 1, 4096]
-    - [823, 9082.71]
+    - [959, 9082.71]
   - - [4096, 3859, 1, 1024]
-    - [814, 9738.87]
+    - [950, 9738.87]
   - - [4096, 3365, 1, 1024]
-    - [815, 9694.74]
+    - [951, 9694.74]
   - - [1024, 3162, 1, 4096]
-    - [816, 8550.31]
+    - [952, 8550.31]
   - - [1024, 3840, 1, 33708]
-    - [813, 9409.08]
+    - [949, 9409.08]
   - - [1024, 3437, 1, 4096]
-    - [823, 9270.49]
+    - [959, 9270.49]
   - - [4096, 3319, 1, 1024]
-    - [804, 9927.15]
+    - [940, 9927.15]
   - - [1024, 3320, 1, 4096]
-    - [823, 8962.29]
+    - [959, 8962.29]
   - - [64, 23, 2720, 23]
-    - [846, 2569.53]
+    - [982, 2569.53]
   - - [4096, 3328, 1, 1024]
-    - [803, 9997.41]
+    - [939, 9997.41]
   - - [1024, 3235, 1, 4096]
-    - [823, 8724.31]
+    - [959, 8724.31]
   - - [4096, 3282, 1, 1024]
-    - [804, 9827.13]
+    - [940, 9827.13]
   - - [1024, 3367, 1, 4096]
-    - [816, 9084.02]
+    - [952, 9084.02]
   - - [1024, 3542, 1, 4096]
-    - [823, 9533.1]
+    - [959, 9533.1]
   - - [64, 177, 352, 177]
-    - [809, 6817.91]
+    - [945, 6817.91]
   - - [4096, 3145, 1, 1024]
-    - [800, 9710.28]
+    - [936, 9710.28]
   - - [4096, 3514, 1, 1024]
-    - [803, 9793.06]
+    - [939, 9793.06]
   - - [1024, 3432, 1, 4096]
-    - [823, 9249.39]
+    - [959, 9249.39]
   - - [4096, 3409, 1, 1024]
-    - [799, 9721.6]
+    - [935, 9721.6]
   - - [1024, 4012, 1, 33708]
-    - [803, 9773.35]
+    - [939, 9773.35]
   - - [4096, 3876, 1, 1024]
-    - [800, 9745.65]
+    - [936, 9745.65]
   - - [4096, 3299, 1, 1024]
-    - [803, 9873.53]
+    - [939, 9873.53]
   - - [1024, 3168, 1, 4096]
-    - [816, 8597.13]
+    - [952, 8597.13]
   - - [4096, 3681, 1, 1024]
-    - [815, 9840.03]
+    - [951, 9840.03]
   - - [4096, 3531, 1, 1024]
-    - [804, 9847.76]
+    - [940, 9847.76]
   - - [4096, 3388, 1, 1024]
-    - [815, 9772.28]
+    - [951, 9772.28]
   - - [1024, 3720, 1, 4096]
-    - [804, 8951.6]
+    - [940, 8951.6]
   - - [1024, 3332, 1, 4096]
-    - [823, 8978.97]
+    - [959, 8978.97]
   - - [1024, 3273, 1, 4096]
-    - [817, 8982.49]
+    - [953, 8982.49]
   - - [1024, 2935, 1, 4096]
-    - [806, 9224.89]
+    - [942, 9224.89]
   - - [1024, 3467, 1, 4096]
-    - [820, 9329.33]
+    - [956, 9329.33]
   - - [4096, 3542, 1, 1024]
-    - [803, 9858.51]
+    - [939, 9858.51]
   - - [1024, 3130, 1, 4096]
-    - [802, 8526.66]
+    - [938, 8526.66]
   - - [1024, 3405, 1, 4096]
-    - [823, 9163.44]
+    - [959, 9163.44]
   - - [1024, 3960, 1, 1024]
-    - [801, 9280.36]
+    - [937, 9280.36]
   - - [4096, 3405, 1, 1024]
-    - [814, 9710.2]
+    - [950, 9710.2]
   - - [512, 512, 1, 1024]
-    - [1000, 6670.96]
+    - [1136, 6670.96]
   - - [8, 500, 1, 512]
-    - [896, 228.671]
+    - [1032, 228.671]
   - - [512, 512, 1, 2000]
-    - [1033, 7629.44]
+    - [1169, 7629.44]
   - - [32, 512, 1, 512]
-    - [893, 904.045]
+    - [1029, 904.045]
   - - [100, 1024, 1, 2048]
-    - [955, 3196.98]
+    - [1091, 3196.98]
   - - [8, 512, 1, 500]
-    - [886, 237.137]
+    - [1022, 237.137]
   - - [8, 500, 1, 1024]
-    - [950, 289.366]
+    - [1086, 289.366]
   - - [100, 2000, 1, 1024]
-    - [989, 3368.52]
+    - [1125, 3368.52]
   - - [64, 1024, 1, 100]
-    - [888, 941.709]
+    - [1024, 941.709]
   - - [64, 1024, 1, 500]
-    - [1015, 2659.84]
+    - [1151, 2659.84]
   - - [64, 1024, 1, 1024]
-    - [953, 2452.91]
+    - [1089, 2452.91]
   - - [128, 2000, 1, 100]
-    - [1009, 2560.1]
+    - [1145, 2560.1]
   - - [2, 500, 1, 2048]
-    - [950, 72.2127]
+    - [1086, 72.2127]
   - - [16, 512, 1, 10]
-    - [864, 18.3857]
+    - [1000, 18.3857]
   - - [64, 2000, 1, 1024]
-    - [1020, 2800.78]
+    - [1156, 2800.78]
   - - [100, 1024, 1, 1024]
-    - [948, 3034.17]
+    - [1084, 3034.17]
   - - [8, 512, 1, 10]
-    - [926, 9.24286]
+    - [1062, 9.24286]
   - - [16, 500, 1, 2048]
-    - [950, 565.846]
+    - [1086, 565.846]
   - - [10, 100, 1, 500]
-    - [886, 58.5112]
+    - [1022, 58.5112]
   - - [16, 100, 1, 10]
-    - [926, 3.67143]
+    - [1062, 3.67143]
   - - [500, 1024, 1, 512]
-    - [1016, 6514.61]
+    - [1152, 6514.61]
   - - [128, 1024, 1, 512]
-    - [1034, 4194.4]
+    - [1170, 4194.4]
   - - [512, 500, 1, 2000]
-    - [992, 7347.98]
+    - [1128, 7347.98]
   - - [2, 100, 1, 2000]
-    - [886, 20.9333]
+    - [1022, 20.9333]
   - - [500, 512, 1, 100]
-    - [1008, 2539.78]
+    - [1144, 2539.78]
   - - [100, 1024, 1, 500]
-    - [1034, 3216.18]
+    - [1170, 3216.18]
   - - [256, 100, 1, 2048]
-    - [1044, 1689.17]
+    - [1180, 1689.17]
   - - [2, 512, 1, 512]
-    - [900, 50.5123]
+    - [1036, 50.5123]
   - - [128, 2000, 1, 512]
-    - [1020, 4641.46]
+    - [1156, 4641.46]
   - - [2, 100, 1, 10]
-    - [864, 0.496825]
+    - [1000, 0.496825]
   - - [16, 2000, 1, 2048]
-    - [908, 1266.25]
+    - [1044, 1266.25]
   - - [200, 100, 1, 100]
-    - [1054, 316.556]
+    - [1190, 316.556]
   - - [256, 1024, 1, 100]
-    - [1010, 2686.0]
+    - [1146, 2686.0]
   - - [200, 500, 1, 1024]
-    - [1059, 3282.15]
+    - [1195, 3282.15]
   - - [500, 100, 1, 100]
-    - [973, 631.413]
+    - [1109, 631.413]
   - - [4, 100, 1, 10]
-    - [871, 0.977193]
+    - [1007, 0.977193]
   - - [32, 100, 1, 512]
-    - [950, 198.935]
+    - [1086, 198.935]
   - - [100, 2000, 1, 512]
-    - [1020, 3832.44]
+    - [1156, 3832.44]
   - - [16, 1024, 1, 512]
-    - [934, 794.476]
+    - [1070, 794.476]
   - - [200, 512, 1, 100]
-    - [1052, 1306.22]
+    - [1188, 1306.22]
   - - [4, 1024, 1, 1024]
-    - [893, 213.225]
+    - [1029, 213.225]
   - - [512, 1024, 1, 512]
-    - [1017, 7049.35]
+    - [1153, 7049.35]
   - - [4, 512, 1, 10]
-    - [925, 4.59123]
+    - [1061, 4.59123]
   - - [2, 2048, 1, 2000]
-    - [886, 300.393]
+    - [1022, 300.393]
   - - [64, 2048, 1, 10]
-    - [1046, 241.041]
+    - [1182, 241.041]
   - - [128, 100, 1, 10]
-    - [1051, 27.6862]
+    - [1187, 27.6862]
   - - [4, 512, 1, 2048]
-    - [886, 146.549]
+    - [1022, 146.549]
   - - [64, 2048, 1, 500]
-    - [1026, 4015.79]
+    - [1162, 4015.79]
   - - [512, 512, 1, 512]
-    - [981, 6123.17]
+    - [1117, 6123.17]
   - - [500, 500, 1, 2000]
-    - [992, 7126.67]
+    - [1128, 7126.67]
   - - [10, 1024, 1, 2000]
-    - [959, 807.671]
+    - [1095, 807.671]
   - - [256, 100, 1, 100]
-    - [971, 296.396]
+    - [1107, 296.396]
   - - [32, 2000, 1, 2048]
-    - [914, 2167.3]
+    - [1050, 2167.3]
   - - [64, 1024, 1, 2048]
-    - [947, 2383.23]
+    - [1083, 2383.23]
   - - [200, 2048, 1, 512]
-    - [1022, 5264.04]
+    - [1158, 5264.04]
   - - [256, 500, 1, 10]
-    - [1004, 210.626]
+    - [1140, 210.626]
   - - [16, 1024, 1, 100]
-    - [884, 262.664]
+    - [1020, 262.664]
   - - [32, 1024, 1, 1024]
-    - [889, 1476.97]
+    - [1025, 1476.97]
   - - [512, 500, 1, 512]
-    - [978, 5851.53]
+    - [1114, 5851.53]
   - - [128, 1024, 1, 2000]
-    - [1062, 5516.6]
+    - [1198, 5516.6]
   - - [8, 100, 1, 500]
-    - [886, 46.3963]
+    - [1022, 46.3963]
   - - [100, 2000, 1, 2048]
-    - [1041, 3715.63]
+    - [1177, 3715.63]
   - - [10, 512, 1, 512]
-    - [896, 292.671]
+    - [1032, 292.671]
   - - [8, 500, 1, 10]
-    - [925, 8.87193]
+    - [1061, 8.87193]
   - - [10, 2000, 1, 1024]
-    - [939, 640.1]
+    - [1075, 640.1]
   - - [16, 1024, 1, 10]
-    - [924, 36.6714]
+    - [1060, 36.6714]
   - - [16, 512, 1, 2048]
-    - [903, 585.897]
+    - [1039, 585.897]
   - - [256, 512, 1, 10]
-    - [969, 230.861]
+    - [1105, 230.861]
   - - [2, 2000, 1, 100]
-    - [931, 64.2026]
+    - [1067, 64.2026]
   - - [128, 512, 1, 2048]
-    - [898, 3106.99]
+    - [1034, 3106.99]
   - - [128, 512, 1, 100]
-    - [891, 952.658]
+    - [1027, 952.658]
   - - [512, 2000, 1, 1024]
-    - [988, 8066.07]
+    - [1124, 8066.07]
   - - [64, 500, 1, 2048]
-    - [1057, 1857.7]
+    - [1193, 1857.7]
   - - [64, 2000, 1, 2048]
-    - [1039, 3442.12]
+    - [1175, 3442.12]
   - - [64, 2048, 1, 512]
-    - [1040, 3315.76]
+    - [1176, 3315.76]
   - - [10, 2000, 1, 512]
-    - [886, 785.376]
+    - [1022, 785.376]
   - - [32, 2000, 1, 500]
-    - [889, 2500.1]
+    - [1025, 2500.1]
   - - [64, 2000, 1, 10]
-    - [877, 231.984]
+    - [1013, 231.984]
   - - [500, 100, 1, 10]
-    - [974, 88.1282]
+    - [1110, 88.1282]
   - - [128, 1024, 1, 500]
-    - [1025, 4096.1]
+    - [1161, 4096.1]
   - - [64, 100, 1, 2048]
-    - [886, 587.34]
+    - [1022, 587.34]
   - - [64, 100, 1, 10]
-    - [1045, 12.0403]
+    - [1181, 12.0403]
   - - [16, 512, 1, 500]
-    - [896, 461.361]
+    - [1032, 461.361]
   - - [32, 2000, 1, 1024]
-    - [883, 1713.91]
+    - [1019, 1713.91]
   - - [200, 512, 1, 1024]
-    - [1062, 3244.46]
+    - [1198, 3244.46]
   - - [128, 2048, 1, 10]
-    - [878, 455.211]
+    - [1014, 455.211]
   - - [200, 100, 1, 2000]
-    - [886, 1462.09]
+    - [1022, 1462.09]
   - - [2, 100, 1, 512]
-    - [886, 12.5272]
+    - [1022, 12.5272]
   - - [64, 2048, 1, 100]
-    - [1052, 1689.17]
+    - [1188, 1689.17]
   - - [32, 512, 1, 100]
-    - [885, 266.074]
+    - [1021, 266.074]
   - - [16, 512, 1, 1024]
-    - [950, 569.978]
+    - [1086, 569.978]
   - - [4, 1024, 1, 512]
-    - [940, 208.151]
+    - [1076, 208.151]
   - - [64, 2000, 1, 100]
-    - [1052, 1649.58]
+    - [1188, 1649.58]
   - - [512, 2048, 1, 512]
-    - [988, 7849.09]
+    - [1124, 7849.09]
   - - [2, 500, 1, 500]
-    - [874, 53.5188]
+    - [1010, 53.5188]
   - - [32, 100, 1, 100]
-    - [885, 57.2429]
+    - [1021, 57.2429]
   - - [100, 500, 1, 2000]
-    - [889, 2784.06]
+    - [1025, 2784.06]
   - - [200, 2000, 1, 100]
-    - [961, 2994.11]
+    - [1097, 2994.11]
   - - [10, 512, 1, 10]
-    - [921, 11.1345]
+    - [1057, 11.1345]
   - - [100, 500, 1, 2048]
-    - [1061, 2361.72]
+    - [1197, 2361.72]
   - - [4, 2048, 1, 500]
-    - [896, 379.359]
+    - [1032, 379.359]
   - - [200, 500, 1, 100]
-    - [1022, 1288.76]
+    - [1158, 1288.76]
   - - [500, 500, 1, 500]
-    - [978, 5425.45]
+    - [1114, 5425.45]
   - - [2, 100, 1, 1024]
-    - [950, 16.3025]
+    - [1086, 16.3025]
   - - [128, 2048, 1, 512]
-    - [1036, 4699.6]
+    - [1172, 4699.6]
   - - [200, 2000, 1, 1024]
-    - [986, 4621.04]
+    - [1122, 4621.04]
   - - [32, 512, 1, 1024]
-    - [949, 1028.12]
+    - [1085, 1028.12]
   - - [100, 2048, 1, 500]
-    - [1010, 4142.49]
+    - [1146, 4142.49]
   - - [256, 100, 1, 1024]
-    - [1040, 1443.62]
+    - [1176, 1443.62]
   - - [16, 2000, 1, 500]
-    - [935, 1428.67]
+    - [1071, 1428.67]
   - - [128, 100, 1, 100]
-    - [885, 213.433]
+    - [1021, 213.433]
   - - [500, 500, 1, 2048]
-    - [982, 6639.1]
+    - [1118, 6639.1]
   - - [32, 512, 1, 10]
-    - [918, 36.0298]
+    - [1054, 36.0298]
   - - [128, 100, 1, 1024]
-    - [946, 791.598]
+    - [1082, 791.598]
   - - [16, 500, 1, 2000]
-    - [959, 694.544]
+    - [1095, 694.544]
   - - [4, 2048, 1, 100]
-    - [930, 129.72]
+    - [1066, 129.72]
   - - [64, 500, 1, 500]
-    - [872, 1333.43]
+    - [1008, 1333.43]
   - - [500, 1024, 1, 2048]
-    - [991, 7031.86]
+    - [1127, 7031.86]
   - - [512, 2048, 1, 100]
-    - [966, 5285.26]
+    - [1102, 5285.26]
   - - [128, 512, 1, 1024]
-    - [1058, 2519.2]
+    - [1194, 2519.2]
   - - [128, 512, 1, 2000]
-    - [1056, 3608.91]
+    - [1192, 3608.91]
   - - [128, 2000, 1, 2000]
-    - [1029, 7017.64]
+    - [1165, 7017.64]
   - - [2, 512, 1, 10]
-    - [922, 2.13175]
+    - [1058, 2.13175]
   - - [10, 512, 1, 500]
-    - [886, 293.678]
+    - [1022, 293.678]
   - - [4, 1024, 1, 2000]
-    - [906, 326.215]
+    - [1042, 326.215]
   - - [256, 100, 1, 2000]
-    - [1043, 1768.06]
+    - [1179, 1768.06]
   - - [512, 2048, 1, 2000]
-    - [988, 8674.62]
+    - [1124, 8674.62]
   - - [100, 100, 1, 10]
-    - [1050, 21.6517]
+    - [1186, 21.6517]
   - - [256, 500, 1, 1024]
-    - [990, 4833.14]
+    - [1126, 4833.14]
   - - [128, 512, 1, 10]
-    - [878, 132.229]
+    - [1014, 132.229]
   - - [256, 100, 1, 500]
-    - [1037, 914.386]
+    - [1173, 914.386]
   - - [64, 100, 1, 512]
-    - [944, 369.109]
+    - [1080, 369.109]
   - - [64, 512, 1, 500]
-    - [886, 1600.1]
+    - [1022, 1600.1]
   - - [64, 2048, 1, 2000]
-    - [1040, 5925.6]
+    - [1176, 5925.6]
   - - [100, 2048, 1, 1024]
-    - [998, 3260.6]
+    - [1134, 3260.6]
   - - [200, 2000, 1, 10]
-    - [878, 595.338]
+    - [1014, 595.338]
   - - [128, 1024, 1, 100]
-    - [1022, 1689.17]
+    - [1158, 1689.17]
   - - [16, 2000, 1, 100]
-    - [885, 493.927]
+    - [1021, 493.927]
   - - [8, 100, 1, 512]
-    - [886, 49.8087]
+    - [1022, 49.8087]
   - - [500, 2048, 1, 1024]
-    - [988, 7651.71]
+    - [1124, 7651.71]
   - - [500, 2000, 1, 10]
-    - [976, 1008.16]
+    - [1112, 1008.16]
   - - [32, 100, 1, 500]
-    - [950, 187.016]
+    - [1086, 187.016]
   - - [256, 1024, 1, 2048]
-    - [991, 6190.95]
+    - [1127, 6190.95]
   - - [32, 500, 1, 2048]
-    - [886, 1083.7]
+    - [1022, 1083.7]
   - - [4, 2000, 1, 10]
-    - [929, 17.6439]
+    - [1065, 17.6439]
   - - [128, 500, 1, 2000]
-    - [946, 3516.58]
+    - [1082, 3516.58]
   - - [8, 1024, 1, 10]
-    - [920, 18.0649]
+    - [1056, 18.0649]
   - - [2, 500, 1, 100]
-    - [865, 16.1256]
+    - [1001, 16.1256]
   - - [10, 500, 1, 512]
-    - [886, 291.009]
+    - [1022, 291.009]
   - - [10, 2000, 1, 10]
-    - [864, 38.5615]
+    - [1000, 38.5615]
   - - [500, 512, 1, 512]
-    - [981, 5893.63]
+    - [1117, 5893.63]
   - - [32, 500, 1, 500]
-    - [886, 892.957]
+    - [1022, 892.957]
   - - [256, 500, 1, 2000]
-    - [995, 6237.92]
+    - [1131, 6237.92]
   - - [100, 500, 1, 100]
-    - [897, 726.844]
+    - [1033, 726.844]
   - - [500, 2048, 1, 100]
-    - [970, 4867.02]
+    - [1106, 4867.02]
   - - [10, 1024, 1, 512]
-    - [886, 520.227]
+    - [1022, 520.227]
   - - [2, 2048, 1, 512]
-    - [896, 151.628]
+    - [1032, 151.628]
   - - [256, 512, 1, 100]
-    - [975, 1590.78]
+    - [1111, 1590.78]
   - - [10, 2048, 1, 100]
-    - [886, 324.151]
+    - [1022, 324.151]
   - - [8, 2048, 1, 100]
-    - [941, 256.1]
+    - [1077, 256.1]
   - - [512, 100, 1, 512]
-    - [1037, 2100.61]
+    - [1173, 2100.61]
   - - [4, 500, 1, 500]
-    - [886, 115.841]
+    - [1022, 115.841]
   - - [64, 100, 1, 1024]
-    - [886, 450.21]
+    - [1022, 450.21]
   - - [2, 2048, 1, 1024]
-    - [943, 137.708]
+    - [1079, 137.708]
   - - [2, 500, 1, 2000]
-    - [912, 90.3527]
+    - [1048, 90.3527]
   - - [512, 1024, 1, 500]
-    - [1017, 6898.63]
+    - [1153, 6898.63]
   - - [128, 2000, 1, 500]
-    - [1022, 5161.39]
+    - [1158, 5161.39]
   - - [32, 512, 1, 2048]
-    - [956, 1103.86]
+    - [1092, 1103.86]
   - - [10, 100, 1, 2000]
-    - [886, 106.032]
+    - [1022, 106.032]
   - - [4, 100, 1, 512]
-    - [886, 24.7154]
+    - [1022, 24.7154]
   - - [2, 512, 1, 2048]
-    - [950, 73.3246]
+    - [1086, 73.3246]
   - - [200, 512, 1, 2048]
-    - [1062, 3954.01]
+    - [1198, 3954.01]
   - - [200, 2000, 1, 2000]
-    - [1024, 6230.63]
+    - [1160, 6230.63]
   - - [100, 100, 1, 2000]
-    - [886, 827.915]
+    - [1022, 827.915]
   - - [500, 2048, 1, 2000]
-    - [987, 8388.04]
+    - [1123, 8388.04]
   - - [64, 2048, 1, 2048]
-    - [1032, 3406.64]
+    - [1168, 3406.64]
   - - [16, 2000, 1, 1024]
-    - [892, 1024.1]
+    - [1028, 1024.1]
   - - [512, 2048, 1, 1024]
-    - [965, 8061.22]
+    - [1101, 8061.22]
   - - [10, 500, 1, 500]
-    - [896, 284.191]
+    - [1032, 284.191]
   - - [200, 1024, 1, 2048]
-    - [1060, 4886.29]
+    - [1196, 4886.29]
   - - [10, 2000, 1, 2000]
-    - [886, 1449.38]
+    - [1022, 1449.38]
   - - [8, 2000, 1, 500]
-    - [935, 719.524]
+    - [1071, 719.524]
   - - [2, 100, 1, 2048]
-    - [950, 19.945]
+    - [1086, 19.945]
   - - [32, 100, 1, 2048]
-    - [950, 323.894]
+    - [1086, 323.894]
   - - [512, 512, 1, 10]
-    - [1007, 420.203]
+    - [1143, 420.203]
   - - [512, 500, 1, 10]
-    - [1012, 376.571]
+    - [1148, 376.571]
   - - [16, 100, 1, 1024]
-    - [896, 129.72]
+    - [1032, 129.72]
   - - [2, 500, 1, 10]
-    - [860, 2.21864]
+    - [996, 2.21864]
   - - [200, 512, 1, 10]
-    - [862, 188.335]
+    - [998, 188.335]
   - - [512, 1024, 1, 100]
-    - [962, 3877.97]
+    - [1098, 3877.97]
   - - [16, 2000, 1, 2000]
-    - [886, 2222.32]
+    - [1022, 2222.32]
   - - [500, 500, 1, 1024]
-    - [982, 6130.37]
+    - [1118, 6130.37]
   - - [500, 100, 1, 2048]
-    - [1037, 2949.41]
+    - [1173, 2949.41]
   - - [256, 1024, 1, 512]
-    - [1001, 5886.84]
+    - [1137, 5886.84]
   - - [256, 500, 1, 512]
-    - [979, 4380.85]
+    - [1115, 4380.85]
   - - [16, 1024, 1, 2000]
-    - [950, 1208.36]
+    - [1086, 1208.36]
   - - [200, 500, 1, 2048]
-    - [1062, 3855.52]
+    - [1198, 3855.52]
   - - [256, 2000, 1, 10]
-    - [964, 727.373]
+    - [1100, 727.373]
   - - [10, 2048, 1, 2048]
-    - [917, 823.158]
+    - [1053, 823.158]
   - - [512, 2000, 1, 100]
-    - [966, 5120.1]
+    - [1102, 5120.1]
   - - [10, 1024, 1, 1024]
-    - [893, 553.146]
+    - [1029, 553.146]
   - - [512, 2000, 1, 2048]
-    - [994, 7563.4]
+    - [1130, 7563.4]
   - - [500, 1024, 1, 500]
-    - [1018, 6570.94]
+    - [1154, 6570.94]
   - - [500, 100, 1, 512]
-    - [1037, 2038.32]
+    - [1173, 2038.32]
   - - [256, 2000, 1, 100]
-    - [986, 3764.81]
+    - [1122, 3764.81]
   - - [512, 1024, 1, 2048]
-    - [1030, 7286.62]
+    - [1166, 7286.62]
   - - [32, 512, 1, 500]
-    - [886, 898.346]
+    - [1022, 898.346]
   - - [100, 2000, 1, 10]
-    - [878, 333.433]
+    - [1014, 333.433]
   - - [100, 500, 1, 512]
-    - [1056, 2176.97]
+    - [1192, 2176.97]
   - - [8, 2000, 1, 512]
-    - [935, 602.453]
+    - [1071, 602.453]
   - - [100, 2048, 1, 2048]
-    - [1042, 3694.87]
+    - [1178, 3694.87]
   - - [128, 1024, 1, 2048]
-    - [1061, 4168.35]
+    - [1197, 4168.35]
   - - [8, 500, 1, 2000]
-    - [960, 352.213]
+    - [1096, 352.213]
   - - [100, 2000, 1, 500]
-    - [1010, 4045.41]
+    - [1146, 4045.41]
   - - [100, 2048, 1, 100]
-    - [1010, 2081.4]
+    - [1146, 2081.4]
   - - [4, 100, 1, 1024]
-    - [886, 33.1323]
+    - [1022, 33.1323]
   - - [500, 2048, 1, 2048]
-    - [994, 7765.03]
+    - [1130, 7765.03]
   - - [2, 2000, 1, 2048]
-    - [905, 166.334]
+    - [1041, 166.334]
   - - [200, 2048, 1, 10]
-    - [879, 609.624]
+    - [1015, 609.624]
   - - [2, 500, 1, 1024]
-    - [950, 75.3941]
+    - [1086, 75.3941]
   - - [100, 500, 1, 1024]
-    - [946, 1975.41]
+    - [1082, 1975.41]
   - - [16, 2048, 1, 500]
-    - [886, 1473.48]
+    - [1022, 1473.48]
   - - [100, 1024, 1, 10]
-    - [1046, 185.607]
+    - [1182, 185.607]
   - - [8, 2048, 1, 1024]
-    - [942, 543.404]
+    - [1078, 543.404]
   - - [2, 2000, 1, 500]
-    - [886, 179.956]
+    - [1022, 179.956]
   - - [32, 100, 1, 1024]
-    - [886, 267.812]
+    - [1022, 267.812]
   - - [500, 2000, 1, 512]
-    - [1016, 7087.59]
+    - [1152, 7087.59]
   - - [64, 100, 1, 2000]
-    - [896, 615.485]
+    - [1032, 615.485]
   - - [100, 1024, 1, 2000]
-    - [1059, 4224.52]
+    - [1195, 4224.52]
   - - [64, 500, 1, 10]
-    - [861, 63.5921]
+    - [997, 63.5921]
   - - [32, 2048, 1, 100]
-    - [882, 941.709]
+    - [1018, 941.709]
   - - [64, 500, 1, 512]
-    - [886, 1575.48]
+    - [1022, 1575.48]
   - - [10, 100, 1, 1024]
-    - [896, 82.6806]
+    - [1032, 82.6806]
   - - [16, 512, 1, 100]
-    - [885, 148.506]
+    - [1021, 148.506]
   - - [4, 100, 1, 2000]
-    - [959, 43.9597]
+    - [1095, 43.9597]
   - - [2, 512, 1, 1024]
-    - [950, 74.152]
+    - [1086, 74.152]
   - - [64, 512, 1, 1024]
-    - [951, 1571.0]
+    - [1087, 1571.0]
   - - [10, 2048, 1, 500]
-    - [886, 920.963]
+    - [1022, 920.963]
   - - [4, 2000, 1, 2048]
-    - [905, 326.215]
+    - [1041, 326.215]
   - - [512, 100, 1, 2048]
-    - [1040, 3084.15]
+    - [1176, 3084.15]
   - - [32, 100, 1, 2000]
-    - [886, 343.448]
+    - [1022, 343.448]
   - - [256, 512, 1, 500]
-    - [979, 4311.68]
+    - [1115, 4311.68]
   - - [100, 2000, 1, 100]
-    - [1010, 2016.23]
+    - [1146, 2016.23]
   - - [8, 2000, 1, 1024]
-    - [899, 544.781]
+    - [1035, 544.781]
   - - [4, 512, 1, 500]
-    - [886, 118.619]
+    - [1022, 118.619]
   - - [128, 1024, 1, 10]
-    - [1049, 244.637]
+    - [1185, 244.637]
   - - [4, 500, 1, 1024]
-    - [886, 144.733]
+    - [1022, 144.733]
   - - [32, 2048, 1, 512]
-    - [889, 2140.05]
+    - [1025, 2140.05]
   - - [32, 100, 1, 10]
-    - [864, 7.11754]
+    - [1000, 7.11754]
   - - [100, 2048, 1, 10]
-    - [1053, 341.433]
+    - [1189, 341.433]
   - - [512, 500, 1, 100]
-    - [1014, 2461.64]
+    - [1150, 2461.64]
   - - [128, 2000, 1, 1024]
-    - [998, 4174.37]
+    - [1134, 4174.37]
   - - [200, 1024, 1, 500]
-    - [1010, 4295.4]
+    - [1146, 4295.4]
   - - [32, 2048, 1, 1024]
-    - [913, 1667.82]
+    - [1049, 1667.82]
   - - [10, 1024, 1, 2048]
-    - [904, 555.49]
+    - [1040, 555.49]
   - - [8, 500, 1, 100]
-    - [885, 71.5286]
+    - [1021, 71.5286]
   - - [32, 2048, 1, 500]
-    - [889, 2528.5]
+    - [1025, 2528.5]
   - - [200, 100, 1, 1024]
-    - [898, 1071.23]
+    - [1034, 1071.23]
   - - [16, 100, 1, 100]
-    - [875, 28.6714]
+    - [1011, 28.6714]
   - - [8, 1024, 1, 2000]
-    - [959, 654.413]
+    - [1095, 654.413]
   - - [4, 512, 1, 100]
-    - [885, 36.6714]
+    - [1021, 36.6714]
   - - [16, 500, 1, 100]
-    - [885, 142.957]
+    - [1021, 142.957]
   - - [8, 1024, 1, 2048]
-    - [911, 441.606]
+    - [1047, 441.606]
   - - [16, 1024, 1, 2048]
-    - [912, 886.845]
+    - [1048, 886.845]
   - - [10, 2048, 1, 1024]
-    - [890, 639.476]
+    - [1026, 639.476]
   - - [64, 512, 1, 100]
-    - [885, 518.581]
+    - [1021, 518.581]
   - - [2, 100, 1, 500]
-    - [886, 9.71538]
+    - [1022, 9.71538]
   - - [2, 500, 1, 512]
-    - [892, 48.2203]
+    - [1028, 48.2203]
   - - [256, 512, 1, 2000]
-    - [995, 6450.49]
+    - [1131, 6450.49]
   - - [128, 500, 1, 1024]
-    - [889, 2497.66]
+    - [1025, 2497.66]
   - - [10, 100, 1, 10]
-    - [926, 2.33214]
+    - [1062, 2.33214]
   - - [8, 2048, 1, 2048]
-    - [876, 643.398]
+    - [1012, 643.398]
   - - [16, 2048, 1, 2048]
-    - [916, 1338.0]
+    - [1052, 1338.0]
   - - [64, 1024, 1, 10]
-    - [879, 132.229]
+    - [1015, 132.229]
   - - [500, 100, 1, 500]
-    - [1037, 1941.09]
+    - [1173, 1941.09]
   - - [256, 1024, 1, 2000]
-    - [1033, 7629.44]
+    - [1169, 7629.44]
   - - [200, 512, 1, 500]
-    - [1022, 3232.42]
+    - [1158, 3232.42]
   - - [8, 2000, 1, 10]
-    - [923, 32.3581]
+    - [1059, 32.3581]
   - - [64, 2000, 1, 512]
-    - [1021, 3225.3]
+    - [1157, 3225.3]
   - - [2, 512, 1, 100]
-    - [865, 16.7234]
+    - [1001, 16.7234]
   - - [4, 2000, 1, 2000]
-    - [886, 586.61]
+    - [1022, 586.61]
   - - [200, 1024, 1, 100]
-    - [1010, 2133.43]
+    - [1146, 2133.43]
   - - [16, 100, 1, 500]
-    - [950, 92.6926]
+    - [1086, 92.6926]
   - - [128, 100, 1, 500]
-    - [946, 526.416]
+    - [1082, 526.416]
   - - [500, 1024, 1, 1024]
-    - [980, 7201.86]
+    - [1116, 7201.86]
   - - [200, 1024, 1, 1024]
-    - [1032, 4519.82]
+    - [1168, 4519.82]
   - - [8, 2048, 1, 512]
-    - [896, 624.252]
+    - [1032, 624.252]
   - - [200, 2000, 1, 500]
-    - [986, 5186.82]
+    - [1122, 5186.82]
   - - [512, 100, 1, 1024]
-    - [1037, 2742.19]
+    - [1173, 2742.19]
   - - [16, 100, 1, 2000]
-    - [896, 168.876]
+    - [1032, 168.876]
   - - [500, 512, 1, 2000]
-    - [1033, 7289.39]
+    - [1169, 7289.39]
   - - [8, 2000, 1, 2048]
-    - [907, 668.289]
+    - [1043, 668.289]
   - - [256, 2048, 1, 100]
-    - [968, 3924.41]
+    - [1104, 3924.41]
   - - [32, 2048, 1, 2000]
-    - [900, 3882.56]
+    - [1036, 3882.56]
   - - [200, 500, 1, 512]
-    - [1025, 3368.52]
+    - [1161, 3368.52]
   - - [10, 512, 1, 100]
-    - [885, 91.5286]
+    - [1021, 91.5286]
   - - [16, 2000, 1, 10]
-    - [863, 61.6385]
+    - [999, 61.6385]
   - - [8, 512, 1, 100]
-    - [885, 72.2127]
+    - [1021, 72.2127]
   - - [256, 512, 1, 512]
-    - [990, 4584.04]
+    - [1126, 4584.04]
   - - [500, 2000, 1, 1024]
-    - [965, 7569.59]
+    - [1101, 7569.59]
   - - [512, 512, 1, 500]
-    - [981, 5708.81]
+    - [1117, 5708.81]
   - - [256, 2048, 1, 1024]
-    - [1005, 5923.21]
+    - [1141, 5923.21]
   - - [8, 2048, 1, 2000]
-    - [886, 1153.9]
+    - [1022, 1153.9]
   - - [100, 512, 1, 2048]
-    - [952, 2383.23]
+    - [1088, 2383.23]
   - - [100, 1024, 1, 512]
-    - [1037, 3343.77]
+    - [1173, 3343.77]
   - - [128, 100, 1, 2000]
-    - [1055, 1084.85]
+    - [1191, 1084.85]
   - - [4, 2048, 1, 2048]
-    - [904, 332.454]
+    - [1040, 332.454]
   - - [2, 1024, 1, 2000]
-    - [915, 161.106]
+    - [1051, 161.106]
   - - [100, 512, 1, 512]
-    - [889, 2184.63]
+    - [1025, 2184.63]
   - - [128, 1024, 1, 1024]
-    - [1032, 3848.09]
+    - [1168, 3848.09]
   - - [200, 2048, 1, 1024]
-    - [967, 4547.26]
+    - [1103, 4547.26]
   - - [32, 1024, 1, 2000]
-    - [896, 2416.62]
+    - [1032, 2416.62]
   - - [128, 500, 1, 100]
-    - [891, 919.64]
+    - [1027, 919.64]
   - - [200, 512, 1, 2000]
-    - [1059, 4238.51]
+    - [1195, 4238.51]
   - - [10, 2048, 1, 2000]
-    - [896, 1454.65]
+    - [1032, 1454.65]
   - - [256, 1024, 1, 500]
-    - [993, 5669.3]
+    - [1129, 5669.3]
   - - [100, 100, 1, 100]
-    - [885, 171.333]
+    - [1021, 171.333]
   - - [8, 512, 1, 1024]
-    - [954, 286.596]
+    - [1090, 286.596]
   - - [200, 1024, 1, 512]
-    - [1010, 4354.65]
+    - [1146, 4354.65]
   - - [256, 500, 1, 500]
-    - [995, 4020.2]
+    - [1131, 4020.2]
   - - [200, 100, 1, 500]
-    - [1059, 702.347]
+    - [1195, 702.347]
   - - [2, 1024, 1, 2048]
-    - [905, 112.85]
+    - [1041, 112.85]
   - - [256, 500, 1, 2048]
-    - [995, 5041.33]
+    - [1131, 5041.33]
   - - [512, 2048, 1, 500]
-    - [988, 7710.22]
+    - [1124, 7710.22]
   - - [512, 100, 1, 2000]
-    - [1037, 3099.37]
+    - [1173, 3099.37]
   - - [512, 500, 1, 1024]
-    - [996, 6463.22]
+    - [1132, 6463.22]
   - - [16, 512, 1, 2000]
-    - [912, 721.227]
+    - [1048, 721.227]
   - - [64, 500, 1, 1024]
-    - [951, 1528.46]
+    - [1087, 1528.46]
   - - [512, 2000, 1, 10]
-    - [972, 1174.41]
+    - [1108, 1174.41]
   - - [256, 512, 1, 1024]
-    - [990, 4978.5]
+    - [1126, 4978.5]
   - - [10, 512, 1, 1024]
-    - [950, 370.36]
+    - [1086, 370.36]
   - - [512, 100, 1, 100]
-    - [973, 659.894]
+    - [1109, 659.894]
   - - [8, 2000, 1, 100]
-    - [885, 256.51]
+    - [1021, 256.51]
   - - [128, 2048, 1, 1024]
-    - [998, 4173.54]
+    - [1134, 4173.54]
   - - [2, 2000, 1, 2000]
-    - [886, 250.727]
+    - [1022, 250.727]
   - - [16, 2048, 1, 1024]
-    - [933, 1046.06]
+    - [1069, 1046.06]
   - - [500, 512, 1, 500]
-    - [978, 5517.34]
+    - [1114, 5517.34]
   - - [8, 100, 1, 1024]
-    - [951, 64.1]
+    - [1087, 64.1]
   - - [10, 100, 1, 100]
-    - [875, 17.9571]
+    - [1011, 17.9571]
   - - [200, 500, 1, 500]
-    - [1025, 3140.8]
+    - [1161, 3140.8]
   - - [10, 500, 1, 2000]
-    - [912, 444.94]
+    - [1048, 444.94]
   - - [500, 100, 1, 2000]
-    - [1040, 2969.22]
+    - [1176, 2969.22]
   - - [100, 512, 1, 2000]
-    - [952, 2776.67]
+    - [1088, 2776.67]
   - - [500, 1024, 1, 2000]
-    - [1031, 8020.15]
+    - [1167, 8020.15]
   - - [32, 2000, 1, 2000]
-    - [892, 3827.85]
+    - [1028, 3827.85]
   - - [64, 1024, 1, 512]
-    - [1056, 2573.29]
+    - [1192, 2573.29]
   - - [64, 2000, 1, 2000]
-    - [1025, 5797.2]
+    - [1161, 5797.2]
   - - [32, 500, 1, 100]
-    - [885, 266.767]
+    - [1021, 266.767]
   - - [128, 2000, 1, 2048]
-    - [1041, 4548.05]
+    - [1177, 4548.05]
   - - [10, 100, 1, 2048]
-    - [950, 98.5615]
+    - [1086, 98.5615]
   - - [32, 2048, 1, 2048]
-    - [913, 2213.45]
+    - [1049, 2213.45]
   - - [64, 100, 1, 100]
-    - [886, 96.4855]
+    - [1022, 96.4855]
   - - [2, 1024, 1, 100]
-    - [936, 34.6946]
+    - [1072, 34.6946]
   - - [256, 1024, 1, 10]
-    - [1006, 425.658]
+    - [1142, 425.658]
   - - [256, 1024, 1, 1024]
-    - [999, 5482.85]
+    - [1135, 5482.85]
   - - [64, 500, 1, 2000]
-    - [886, 2056.66]
+    - [1022, 2056.66]
   - - [512, 2000, 1, 512]
-    - [984, 7550.33]
+    - [1120, 7550.33]
   - - [8, 512, 1, 512]
-    - [893, 232.086]
+    - [1029, 232.086]
   - - [8, 512, 1, 2048]
-    - [886, 290.564]
+    - [1022, 290.564]
   - - [100, 100, 1, 1024]
-    - [1056, 624.49]
+    - [1192, 624.49]
   - - [2, 2048, 1, 10]
-    - [929, 8.92759]
+    - [1065, 8.92759]
   - - [4, 2048, 1, 512]
-    - [935, 312.176]
+    - [1071, 312.176]
   - - [4, 2048, 1, 10]
-    - [928, 18.0649]
+    - [1064, 18.0649]
   - - [8, 100, 1, 2000]
-    - [905, 85.9369]
+    - [1041, 85.9369]
   - - [2, 1024, 1, 1024]
-    - [902, 101.314]
+    - [1038, 101.314]
   - - [16, 2048, 1, 100]
-    - [886, 518.581]
+    - [1022, 518.581]
   - - [16, 512, 1, 512]
-    - [896, 456.003]
+    - [1032, 456.003]
   - - [32, 500, 1, 512]
-    - [893, 906.295]
+    - [1029, 906.295]
   - - [500, 2000, 1, 2000]
-    - [988, 8143.42]
+    - [1124, 8143.42]
   - - [500, 1024, 1, 10]
-    - [969, 680.951]
+    - [1105, 680.951]
   - - [32, 500, 1, 1024]
-    - [945, 1008.97]
+    - [1081, 1008.97]
   - - [32, 500, 1, 10]
-    - [881, 33.4333]
+    - [1017, 33.4333]
   - - [500, 500, 1, 10]
-    - [1010, 367.747]
+    - [1146, 367.747]
   - - [4, 2000, 1, 500]
-    - [896, 370.47]
+    - [1032, 370.47]
   - - [10, 2000, 1, 500]
-    - [886, 899.381]
+    - [1022, 899.381]
   - - [32, 2000, 1, 512]
-    - [898, 2089.9]
+    - [1034, 2089.9]
   - - [256, 500, 1, 100]
-    - [1011, 1495.43]
+    - [1147, 1495.43]
   - - [256, 2048, 1, 10]
-    - [969, 789.69]
+    - [1105, 789.69]
   - - [4, 1024, 1, 500]
-    - [886, 222.709]
+    - [1022, 222.709]
   - - [256, 512, 1, 2048]
-    - [995, 5292.6]
+    - [1131, 5292.6]
   - - [2, 2000, 1, 1024]
-    - [933, 137.365]
+    - [1069, 137.365]
   - - [256, 100, 1, 512]
-    - [1037, 1085.13]
+    - [1173, 1085.13]
   - - [8, 1024, 1, 500]
-    - [886, 441.479]
+    - [1022, 441.479]
   - - [256, 2048, 1, 500]
-    - [1016, 7031.86]
+    - [1152, 7031.86]
   - - [256, 2048, 1, 2048]
-    - [979, 6771.93]
+    - [1115, 6771.93]
   - - [2, 2000, 1, 512]
-    - [940, 159.106]
+    - [1076, 159.106]
   - - [256, 2000, 1, 512]
-    - [983, 6527.59]
+    - [1119, 6527.59]
   - - [4, 1024, 1, 100]
-    - [932, 70.237]
+    - [1068, 70.237]
   - - [512, 1024, 1, 2000]
-    - [1017, 8295.8]
+    - [1153, 8295.8]
   - - [100, 500, 1, 500]
-    - [889, 2016.23]
+    - [1025, 2016.23]
   - - [4, 2048, 1, 1024]
-    - [937, 285.039]
+    - [1073, 285.039]
   - - [2, 1024, 1, 500]
-    - [886, 109.502]
+    - [1022, 109.502]
   - - [64, 100, 1, 500]
-    - [886, 296.396]
+    - [1022, 296.396]
   - - [256, 2000, 1, 2000]
-    - [994, 8152.97]
+    - [1130, 8152.97]
   - - [2, 512, 1, 500]
-    - [892, 44.8552]
+    - [1028, 44.8552]
   - - [8, 2048, 1, 500]
-    - [886, 736.791]
+    - [1022, 736.791]
   - - [10, 1024, 1, 500]
-    - [886, 547.109]
+    - [1022, 547.109]
   - - [4, 2048, 1, 2000]
-    - [896, 604.23]
+    - [1032, 604.23]
   - - [200, 1024, 1, 2000]
-    - [1063, 5400.94]
+    - [1199, 5400.94]
   - - [128, 500, 1, 512]
-    - [1056, 2730.77]
+    - [1192, 2730.77]
   - - [10, 500, 1, 2048]
-    - [950, 359.651]
+    - [1086, 359.651]
   - - [256, 2048, 1, 2000]
-    - [994, 8375.31]
+    - [1130, 8375.31]
   - - [8, 2000, 1, 2000]
-    - [896, 1146.23]
+    - [1032, 1146.23]
   - - [100, 2048, 1, 512]
-    - [1019, 3936.2]
+    - [1155, 3936.2]
   - - [512, 500, 1, 2048]
-    - [995, 6756.39]
+    - [1131, 6756.39]
   - - [200, 2048, 1, 100]
-    - [986, 3180.22]
+    - [1122, 3180.22]
   - - [128, 512, 1, 512]
-    - [889, 2872.91]
+    - [1025, 2872.91]
   - - [200, 2000, 1, 2048]
-    - [1035, 4818.92]
+    - [1171, 4818.92]
   - - [4, 2000, 1, 1024]
-    - [933, 275.369]
+    - [1069, 275.369]
   - - [64, 512, 1, 10]
-    - [1048, 69.5237]
+    - [1184, 69.5237]
   - - [32, 500, 1, 2000]
-    - [915, 1246.21]
+    - [1051, 1246.21]
   - - [128, 2048, 1, 2000]
-    - [1028, 7233.65]
+    - [1164, 7233.65]
   - - [100, 100, 1, 2048]
-    - [886, 790.223]
+    - [1022, 790.223]
   - - [500, 2048, 1, 512]
-    - [1016, 7249.66]
+    - [1152, 7249.66]
   - - [200, 100, 1, 512]
-    - [892, 748.638]
+    - [1028, 748.638]
   - - [32, 2000, 1, 100]
-    - [887, 930.333]
+    - [1023, 930.333]
   - - [500, 512, 1, 2048]
-    - [1038, 6640.02]
+    - [1174, 6640.02]
   - - [500, 2000, 1, 500]
-    - [1018, 7078.24]
+    - [1154, 7078.24]
   - - [200, 100, 1, 2048]
-    - [896, 1387.63]
+    - [1032, 1387.63]
   - - [2, 2048, 1, 100]
-    - [930, 64.9101]
+    - [1066, 64.9101]
   - - [8, 100, 1, 10]
-    - [871, 1.85439]
+    - [1007, 1.85439]
   - - [200, 2048, 1, 2048]
-    - [1035, 5022.02]
+    - [1171, 5022.02]
   - - [200, 2048, 1, 500]
-    - [986, 5355.75]
+    - [1122, 5355.75]
   - - [100, 100, 1, 500]
-    - [1056, 416.767]
+    - [1192, 416.767]
   - - [8, 2048, 1, 10]
-    - [927, 34.8119]
+    - [1063, 34.8119]
   - - [100, 500, 1, 10]
-    - [867, 93.3836]
+    - [1003, 93.3836]
   - - [200, 500, 1, 2000]
-    - [1059, 4152.92]
+    - [1195, 4152.92]
   - - [512, 2000, 1, 500]
-    - [988, 7485.48]
+    - [1124, 7485.48]
   - - [10, 500, 1, 1024]
-    - [954, 363.736]
+    - [1090, 363.736]
   - - [256, 100, 1, 10]
-    - [1003, 41.1256]
+    - [1139, 41.1256]
   - - [500, 512, 1, 1024]
-    - [982, 6362.82]
+    - [1118, 6362.82]
   - - [200, 2048, 1, 2000]
-    - [1024, 6321.09]
+    - [1160, 6321.09]
   - - [100, 1024, 1, 100]
-    - [1023, 1306.22]
+    - [1159, 1306.22]
   - - [500, 1024, 1, 100]
-    - [962, 3699.52]
+    - [1098, 3699.52]
   - - [10, 512, 1, 2048]
-    - [886, 361.18]
+    - [1022, 361.18]
   - - [2, 1024, 1, 512]
-    - [935, 105.803]
+    - [1071, 105.803]
   - - [4, 500, 1, 2048]
-    - [958, 143.517]
+    - [1094, 143.517]
   - - [100, 512, 1, 100]
-    - [891, 744.286]
+    - [1027, 744.286]
   - - [16, 500, 1, 512]
-    - [886, 453.197]
+    - [1022, 453.197]
   - - [10, 1024, 1, 100]
-    - [884, 166.334]
+    - [1020, 166.334]
   - - [8, 1024, 1, 100]
-    - [932, 140.374]
+    - [1068, 140.374]
   - - [64, 2000, 1, 500]
-    - [1027, 3940.99]
+    - [1163, 3940.99]
   - - [64, 1024, 1, 2000]
-    - [892, 3531.13]
+    - [1028, 3531.13]
   - - [10, 100, 1, 512]
-    - [886, 61.6385]
+    - [1022, 61.6385]
   - - [4, 500, 1, 2000]
-    - [912, 173.11]
+    - [1048, 173.11]
   - - [512, 1024, 1, 10]
-    - [963, 736.46]
+    - [1099, 736.46]
   - - [128, 2048, 1, 2048]
-    - [1026, 4596.6]
+    - [1162, 4596.6]
   - - [4, 100, 1, 100]
-    - [875, 7.24286]
+    - [1011, 7.24286]
   - - [32, 1024, 1, 512]
-    - [935, 1519.78]
+    - [1071, 1519.78]
   - - [8, 512, 1, 2000]
-    - [960, 356.894]
+    - [1096, 356.894]
   - - [100, 100, 1, 512]
-    - [900, 426.767]
+    - [1036, 426.767]
   - - [2, 2048, 1, 2048]
-    - [909, 170.878]
+    - [1045, 170.878]
   - - [2, 512, 1, 2000]
-    - [912, 90.8801]
+    - [1048, 90.8801]
   - - [16, 500, 1, 10]
-    - [885, 18.2818]
+    - [1021, 18.2818]
   - - [10, 500, 1, 100]
-    - [885, 88.1282]
+    - [1021, 88.1282]
   - - [4, 100, 1, 500]
-    - [950, 23.6849]
+    - [1086, 23.6849]
   - - [512, 1024, 1, 1024]
-    - [1002, 7431.87]
+    - [1138, 7431.87]
   - - [64, 500, 1, 100]
-    - [895, 506.429]
+    - [1031, 506.429]
   - - [128, 2000, 1, 10]
-    - [1053, 432.532]
+    - [1189, 432.532]
   - - [10, 2000, 1, 2048]
-    - [916, 806.399]
+    - [1052, 806.399]
   - - [2, 100, 1, 100]
-    - [873, 3.225]
+    - [1009, 3.225]
   - - [10, 512, 1, 2000]
-    - [905, 462.194]
+    - [1041, 462.194]
   - - [8, 500, 1, 500]
-    - [886, 231.581]
+    - [1022, 231.581]
   - - [4, 500, 1, 512]
-    - [886, 118.619]
+    - [1022, 118.619]
   - - [10, 500, 1, 10]
-    - [880, 11.0649]
+    - [1016, 11.0649]
   - - [64, 512, 1, 2000]
-    - [886, 2116.9]
+    - [1022, 2116.9]
   - - [500, 512, 1, 10]
-    - [1007, 395.162]
+    - [1143, 395.162]
   - - [200, 512, 1, 512]
-    - [1025, 3449.36]
+    - [1161, 3449.36]
   - - [512, 500, 1, 500]
-    - [981, 5536.43]
+    - [1117, 5536.43]
   - - [32, 512, 1, 2000]
-    - [896, 1264.3]
+    - [1032, 1264.3]
   - - [128, 500, 1, 2048]
-    - [952, 3006.34]
+    - [1088, 3006.34]
   - - [500, 2048, 1, 10]
-    - [977, 1049.28]
+    - [1113, 1049.28]
   - - [512, 512, 1, 100]
-    - [1014, 2664.16]
+    - [1150, 2664.16]
   - - [200, 2000, 1, 512]
-    - [1022, 5192.8]
+    - [1158, 5192.8]
   - - [500, 500, 1, 512]
-    - [978, 5673.86]
+    - [1114, 5673.86]
   - - [128, 2048, 1, 500]
-    - [1010, 5251.38]
+    - [1146, 5251.38]
   - - [4, 512, 1, 512]
-    - [886, 123.753]
+    - [1022, 123.753]
   - - [16, 2048, 1, 2000]
-    - [902, 2294.78]
+    - [1038, 2294.78]
   - - [16, 500, 1, 1024]
-    - [886, 562.737]
+    - [1022, 562.737]
   - - [256, 2000, 1, 500]
-    - [1016, 6639.1]
+    - [1152, 6639.1]
   - - [10, 1024, 1, 10]
-    - [866, 21.0836]
+    - [1002, 21.0836]
   - - [16, 500, 1, 500]
-    - [886, 446.529]
+    - [1022, 446.529]
   - - [10, 2048, 1, 512]
-    - [884, 784.962]
+    - [1020, 784.962]
   - - [200, 500, 1, 10]
-    - [859, 176.156]
+    - [995, 176.156]
   - - [256, 2048, 1, 512]
-    - [1013, 6540.93]
+    - [1149, 6540.93]
   - - [256, 2000, 1, 2048]
-    - [990, 6670.43]
+    - [1126, 6670.43]
   - - [500, 2048, 1, 500]
-    - [1018, 7264.57]
+    - [1154, 7264.57]
   - - [500, 100, 1, 1024]
-    - [1040, 2700.52]
+    - [1176, 2700.52]
   - - [16, 100, 1, 512]
-    - [950, 96.7038]
+    - [1086, 96.7038]
   - - [64, 512, 1, 2048]
-    - [951, 1868.39]
+    - [1087, 1868.39]
   - - [32, 1024, 1, 10]
-    - [862, 69.5237]
+    - [998, 69.5237]
   - - [16, 2048, 1, 512]
-    - [935, 1226.5]
+    - [1071, 1226.5]
   - - [8, 1024, 1, 512]
-    - [935, 416.202]
+    - [1071, 416.202]
   - - [4, 1024, 1, 2048]
-    - [957, 223.201]
+    - [1093, 223.201]
   - - [100, 2048, 1, 2000]
-    - [1030, 5614.14]
+    - [1166, 5614.14]
   - - [512, 512, 1, 2048]
-    - [995, 6868.97]
+    - [1131, 6868.97]
   - - [256, 2000, 1, 1024]
-    - [986, 5758.98]
+    - [1122, 5758.98]
   - - [64, 512, 1, 512]
-    - [1055, 1651.4]
+    - [1191, 1651.4]
   - - [200, 1024, 1, 10]
-    - [869, 341.433]
+    - [1005, 341.433]
   - - [128, 500, 1, 500]
-    - [898, 2580.75]
+    - [1034, 2580.75]
   - - [100, 512, 1, 1024]
-    - [889, 2041.72]
+    - [1025, 2041.72]
   - - [16, 1024, 1, 500]
-    - [886, 867.897]
+    - [1022, 867.897]
   - - [128, 100, 1, 2048]
-    - [1056, 1011.46]
+    - [1192, 1011.46]
   - - [100, 512, 1, 500]
-    - [889, 2051.38]
+    - [1025, 2051.38]
   - - [8, 1024, 1, 1024]
-    - [902, 424.625]
+    - [1038, 424.625]
   - - [2, 2000, 1, 10]
-    - [928, 8.57458]
+    - [1064, 8.57458]
   - - [4, 500, 1, 10]
-    - [925, 4.56429]
+    - [1061, 4.56429]
   - - [500, 2000, 1, 2048]
-    - [1002, 7444.12]
+    - [1138, 7444.12]
   - - [4, 2000, 1, 100]
-    - [938, 128.305]
+    - [1074, 128.305]
   - - [512, 2000, 1, 2000]
-    - [988, 8454.53]
+    - [1124, 8454.53]
   - - [128, 500, 1, 10]
-    - [1047, 117.747]
+    - [1183, 117.747]
   - - [32, 1024, 1, 100]
-    - [895, 512.1]
+    - [1031, 512.1]
   - - [8, 500, 1, 2048]
-    - [910, 286.935]
+    - [1046, 286.935]
   - - [16, 1024, 1, 1024]
-    - [874, 881.256]
+    - [1010, 881.256]
   - - [200, 100, 1, 10]
-    - [1046, 40.4226]
+    - [1182, 40.4226]
   - - [512, 100, 1, 500]
-    - [1040, 1987.68]
+    - [1176, 1987.68]
   - - [512, 2048, 1, 2048]
-    - [997, 8063.65]
+    - [1133, 8063.65]
   - - [16, 2000, 1, 512]
-    - [896, 1204.81]
+    - [1032, 1204.81]
   - - [64, 2048, 1, 1024]
-    - [894, 2853.37]
+    - [1030, 2853.37]
   - - [32, 2048, 1, 10]
-    - [868, 130.132]
+    - [1004, 130.132]
   - - [10, 2048, 1, 10]
-    - [870, 39.4846]
+    - [1006, 39.4846]
   - - [4, 2000, 1, 512]
-    - [886, 316.149]
+    - [1022, 316.149]
   - - [4, 500, 1, 100]
-    - [885, 35.8143]
+    - [1021, 35.8143]
   - - [8, 100, 1, 2048]
-    - [905, 84.7281]
+    - [1041, 84.7281]
   - - [512, 2048, 1, 10]
-    - [985, 1225.07]
+    - [1121, 1225.07]
   - - [512, 100, 1, 10]
-    - [974, 90.2408]
+    - [1110, 90.2408]
   - - [4, 512, 1, 1024]
-    - [886, 143.348]
+    - [1022, 143.348]
   - - [16, 2048, 1, 10]
-    - [919, 65.1159]
+    - [1055, 65.1159]
   - - [500, 2000, 1, 100]
-    - [970, 4717.08]
+    - [1106, 4717.08]
   - - [32, 1024, 1, 2048]
-    - [913, 1582.86]
+    - [1049, 1582.86]
   - - [100, 2000, 1, 2000]
-    - [1030, 5512.78]
+    - [1166, 5512.78]
   - - [128, 100, 1, 512]
-    - [1056, 561.196]
+    - [1192, 561.196]
   - - [500, 500, 1, 100]
-    - [1010, 2460.73]
+    - [1146, 2460.73]
   - - [32, 2000, 1, 10]
-    - [862, 119.503]
+    - [998, 119.503]
   - - [128, 2048, 1, 100]
-    - [1010, 2708.2]
+    - [1146, 2708.2]
   - - [10, 2000, 1, 100]
-    - [885, 316.556]
+    - [1021, 316.556]
   - - [2, 2048, 1, 500]
-    - [896, 191.145]
+    - [1032, 191.145]
   - - [32, 1024, 1, 500]
-    - [896, 1563.46]
+    - [1032, 1563.46]
   - - [4, 1024, 1, 10]
-    - [925, 9.24286]
+    - [1061, 9.24286]
   - - [100, 512, 1, 10]
-    - [1051, 97.0697]
+    - [1187, 97.0697]
   - - [8, 100, 1, 100]
-    - [901, 14.3857]
+    - [1037, 14.3857]
   - - [128, 512, 1, 500]
-    - [889, 2677.22]
+    - [1025, 2677.22]
   - - [16, 100, 1, 2048]
-    - [912, 161.997]
+    - [1048, 161.997]
   - - [2, 1024, 1, 10]
-    - [925, 4.59123]
+    - [1061, 4.59123]
   - - [4, 100, 1, 2048]
-    - [905, 41.8959]
+    - [1041, 41.8959]
   - - [4, 512, 1, 2000]
-    - [905, 180.382]
+    - [1041, 180.382]
   - - [4096, 64, 1, 2048]
-    - [1105, 7247.28]
+    - [1241, 7247.28]
   - - [1024, 10080, 1, 1024]
-    - [1093, 9833.47]
+    - [1229, 9833.47]
   - - [1024, 1131, 1, 1024]
-    - [1071, 7551.95]
+    - [1207, 7551.95]
   - - [36548, 1216, 1, 1024]
-    - [1083, 10351.6]
+    - [1219, 10351.6]
   - - [1024, 29, 1, 1024]
-    - [1115, 1697.01]
+    - [1251, 1697.01]
   - - [1024, 2592, 1, 1024]
-    - [1084, 8424.11]
+    - [1220, 8424.11]
   - - [1024, 1568, 1, 1024]
-    - [1095, 7511.86]
+    - [1231, 7511.86]
   - - [4096, 91, 1, 2048]
-    - [1064, 5599.91]
+    - [1200, 5599.91]
   - - [1024, 4445, 1, 1024]
-    - [1082, 9261.22]
+    - [1218, 9261.22]
   - - [1024, 6272, 1, 1024]
-    - [1077, 9439.61]
+    - [1213, 9439.61]
   - - [36548, 3584, 1, 1024]
-    - [1076, 10393.8]
+    - [1212, 10393.8]
   - - [1024, 1827, 1, 1024]
-    - [1095, 8714.42]
+    - [1231, 8714.42]
   - - [1024, 3220, 1, 1024]
-    - [1075, 8861.2]
+    - [1211, 8861.2]
   - - [1024, 1856, 1, 1024]
-    - [1092, 8827.05]
+    - [1228, 8827.05]
   - - [1024, 1760, 1, 1024]
-    - [1092, 8334.2]
+    - [1228, 8334.2]
   - - [1024, 1600, 1, 1024]
-    - [1092, 7615.07]
+    - [1228, 7615.07]
   - - [1024, 1, 1, 21]
-    - [1096, 0.1]
+    - [1232, 0.1]
   - - [36548, 4235, 1, 1024]
-    - [1076, 10276.8]
+    - [1212, 10276.8]
   - - [1024, 49, 1, 1024]
-    - [1111, 2643.12]
+    - [1247, 2643.12]
   - - [1024, 1984, 1, 1024]
-    - [1095, 9449.52]
+    - [1231, 9449.52]
   - - [1024, 14720, 1, 1024]
-    - [1082, 10033.3]
+    - [1218, 10033.3]
   - - [1024, 1152, 1, 1024]
-    - [1065, 7523.54]
+    - [1201, 7523.54]
   - - [36548, 14976, 1, 1024]
-    - [1083, 10421.7]
+    - [1219, 10421.7]
   - - [36548, 1152, 1, 1024]
-    - [1083, 10258.1]
+    - [1219, 10258.1]
   - - [4096, 86, 1, 3072]
-    - [1064, 5308.85]
+    - [1200, 5308.85]
   - - [1024, 3392, 1, 1024]
-    - [1077, 9176.54]
+    - [1213, 9176.54]
   - - [1024, 1408, 1, 1024]
-    - [1077, 8958.83]
+    - [1213, 8958.83]
   - - [1024, 2080, 1, 1024]
-    - [1068, 8396.49]
+    - [1204, 8396.49]
   - - [1024, 1824, 1, 1024]
-    - [1086, 8671.71]
+    - [1222, 8671.71]
   - - [36548, 2432, 1, 1024]
-    - [1076, 10392.6]
+    - [1212, 10392.6]
   - - [4096, 29, 1, 2048]
-    - [1097, 4325.66]
+    - [1233, 4325.66]
   - - [1024, 1102, 1, 1024]
-    - [1071, 7204.18]
+    - [1207, 7204.18]
   - - [4096, 49, 1, 2048]
-    - [1103, 5609.29]
+    - [1239, 5609.29]
   - - [36548, 1827, 1, 1024]
-    - [1083, 10183.2]
+    - [1219, 10183.2]
   - - [4096, 25, 1, 2048]
-    - [1098, 3788.31]
+    - [1234, 3788.31]
   - - [1024, 10176, 1, 1024]
-    - [1093, 9941.18]
+    - [1229, 9941.18]
   - - [1024, 774, 1, 1024]
-    - [1078, 7079.67]
+    - [1214, 7079.67]
   - - [1024, 1952, 1, 1024]
-    - [1095, 9300.49]
+    - [1231, 9300.49]
   - - [4096, 128, 1, 2048]
-    - [1065, 8274.96]
+    - [1201, 8274.96]
   - - [1024, 17024, 1, 1024]
-    - [1075, 9960.72]
+    - [1211, 9960.72]
   - - [1024, 1472, 1, 1024]
-    - [1084, 9343.37]
+    - [1220, 9343.37]
   - - [36548, 4459, 1, 1024]
-    - [1076, 10358.1]
+    - [1212, 10358.1]
   - - [4096, 91, 1, 3072]
-    - [1070, 5509.39]
+    - [1206, 5509.39]
   - - [1024, 3712, 1, 1024]
-    - [1084, 9048.66]
+    - [1220, 9048.66]
   - - [4096, 64, 1, 3072]
-    - [1117, 7489.93]
+    - [1253, 7489.93]
   - - [4096, 29, 1, 3072]
-    - [1097, 4511.78]
+    - [1233, 4511.78]
   - - [4096, 128, 1, 3072]
-    - [1064, 8423.83]
+    - [1200, 8423.83]
   - - [36548, 12928, 1, 1024]
-    - [1083, 10426.1]
+    - [1219, 10426.1]
   - - [1024, 1632, 1, 1024]
-    - [1065, 7761.73]
+    - [1201, 7761.73]
   - - [1024, 1696, 1, 1024]
-    - [1090, 8107.29]
+    - [1226, 8107.29]
   - - [4096, 24, 1, 2048]
-    - [1097, 3663.25]
+    - [1233, 3663.25]
   - - [4096, 63, 1, 3072]
-    - [1106, 7175.37]
+    - [1242, 7175.37]
   - - [4096, 96, 1, 2048]
-    - [1065, 5866.28]
+    - [1201, 5866.28]
   - - [36548, 1764, 1, 1024]
-    - [1076, 10128.5]
+    - [1212, 10128.5]
   - - [4096, 32, 1, 2048]
-    - [1101, 4540.62]
+    - [1237, 4540.62]
   - - [1024, 35, 1, 1024]
-    - [1109, 1911.57]
+    - [1245, 1911.57]
   - - [1024, 1120, 1, 1024]
-    - [1064, 7289.13]
+    - [1200, 7289.13]
   - - [4096, 49, 1, 3072]
-    - [1103, 5751.62]
+    - [1239, 5751.62]
   - - [1024, 24, 1, 1024]
-    - [1109, 1392.02]
+    - [1245, 1392.02]
   - - [1024, 2944, 1, 1024]
-    - [1085, 9284.93]
+    - [1221, 9284.93]
   - - [36548, 14080, 1, 1024]
-    - [1076, 10441.4]
+    - [1212, 10441.4]
   - - [1024, 1, 1, 1024]
-    - [1096, 0.1]
+    - [1232, 0.1]
   - - [1024, 1280, 1, 1024]
-    - [1064, 8244.46]
+    - [1200, 8244.46]
   - - [1024, 13440, 1, 1024]
-    - [1076, 9799.92]
+    - [1212, 9799.92]
   - - [1024, 1015, 1, 1024]
-    - [1084, 9187.85]
+    - [1220, 9187.85]
   - - [36548, 9120, 1, 1024]
-    - [1076, 10400.0]
+    - [1212, 10400.0]
   - - [36548, 1, 1, 1024]
-    - [1096, 0.1]
+    - [1232, 0.1]
   - - [1024, 3008, 1, 1024]
-    - [1085, 9468.55]
+    - [1221, 9468.55]
   - - [1024, 2560, 1, 1024]
-    - [1082, 8879.31]
+    - [1218, 8879.31]
   - - [1024, 21, 1, 1024]
-    - [1108, 1234.41]
+    - [1244, 1234.41]
   - - [1024, 2208, 1, 1024]
-    - [1064, 8231.27]
+    - [1200, 8231.27]
   - - [1024, 96, 1, 1024]
-    - [1114, 3767.44]
+    - [1250, 3767.44]
   - - [4096, 86, 1, 2048]
-    - [1065, 5529.09]
+    - [1201, 5529.09]
   - - [4096, 96, 1, 3072]
-    - [1064, 6273.28]
+    - [1200, 6273.28]
   - - [1024, 1920, 1, 1024]
-    - [1094, 9118.19]
+    - [1230, 9118.19]
   - - [4096, 27, 1, 2048]
-    - [1097, 4073.7]
+    - [1233, 4073.7]
   - - [36548, 2496, 1, 1024]
-    - [1076, 10361.2]
+    - [1212, 10361.2]
   - - [1024, 1, 1, 14]
-    - [1096, 0.1]
+    - [1232, 0.1]
   - - [1024, 91, 1, 1024]
-    - [1116, 3647.67]
+    - [1252, 3647.67]
   - - [1024, 2016, 1, 1024]
-    - [1092, 9560.24]
+    - [1228, 9560.24]
   - - [1024, 1184, 1, 1024]
-    - [1065, 7678.96]
+    - [1201, 7678.96]
   - - [4096, 1, 1, 2048]
-    - [1096, 0.1]
+    - [1232, 0.1]
   - - [1024, 1664, 1, 1024]
-    - [1090, 7934.07]
+    - [1226, 7934.07]
   - - [1024, 11424, 1, 1024]
-    - [1082, 9777.91]
+    - [1218, 9777.91]
   - - [4096, 24, 1, 3072]
-    - [1100, 3813.1]
+    - [1236, 3813.1]
   - - [1024, 1216, 1, 1024]
-    - [1064, 7902.13]
+    - [1200, 7902.13]
   - - [36548, 3185, 1, 1024]
-    - [1076, 10336.7]
+    - [1212, 10336.7]
   - - [36548, 9216, 1, 1024]
-    - [1076, 10414.3]
+    - [1212, 10414.3]
   - - [1024, 3200, 1, 1024]
-    - [1082, 8847.01]
+    - [1218, 8847.01]
   - - [1024, 2656, 1, 1024]
-    - [1077, 8649.25]
+    - [1213, 8649.25]
   - - [1024, 2368, 1, 1024]
-    - [1077, 8873.16]
+    - [1213, 8873.16]
   - - [1024, 4459, 1, 1024]
-    - [1084, 9431.32]
+    - [1220, 9431.32]
   - - [1024, 3808, 1, 1024]
-    - [1084, 9263.72]
+    - [1220, 9263.72]
   - - [1024, 2336, 1, 1024]
-    - [1077, 8966.0]
+    - [1213, 8966.0]
   - - [4096, 27, 1, 3072]
-    - [1097, 4171.74]
+    - [1233, 4171.74]
   - - [1024, 2304, 1, 1024]
-    - [1074, 8601.38]
+    - [1210, 8601.38]
   - - [1024, 1560, 1, 1024]
-    - [1089, 7481.74]
+    - [1225, 7481.74]
   - - [4096, 35, 1, 3072]
-    - [1103, 4176.9]
+    - [1239, 4176.9]
   - - [1024, 2496, 1, 1024]
-    - [1080, 9092.86]
+    - [1216, 9092.86]
   - - [1024, 1504, 1, 1024]
-    - [1080, 9220.53]
+    - [1216, 9220.53]
   - - [4096, 50, 1, 2048]
-    - [1104, 5472.83]
+    - [1240, 5472.83]
   - - [1024, 3232, 1, 1024]
-    - [1077, 8961.94]
+    - [1213, 8961.94]
   - - [1024, 14, 1, 1024]
-    - [1108, 882.315]
+    - [1244, 882.315]
   - - [36548, 1015, 1, 1024]
-    - [1076, 10140.9]
+    - [1212, 10140.9]
   - - [1024, 2000, 1, 1024]
-    - [1088, 9487.8]
+    - [1224, 9487.8]
   - - [36548, 243, 1, 1024]
-    - [1081, 9441.12]
+    - [1217, 9441.12]
   - - [36548, 32, 1, 1024]
-    - [1069, 4721.05]
+    - [1205, 4721.05]
   - - [1024, 25, 1, 1024]
-    - [1115, 1462.96]
+    - [1251, 1462.96]
   - - [1024, 13184, 1, 1024]
-    - [1079, 9866.28]
+    - [1215, 9866.28]
   - - [1024, 2688, 1, 1024]
-    - [1074, 8559.93]
+    - [1210, 8559.93]
   - - [1024, 27, 1, 1024]
-    - [1113, 1559.11]
+    - [1249, 1559.11]
   - - [36548, 950, 1, 1024]
-    - [1083, 10053.6]
+    - [1219, 10053.6]
   - - [1024, 1764, 1, 1024]
-    - [1090, 8347.11]
+    - [1226, 8347.11]
   - - [1024, 992, 1, 1024]
-    - [1077, 9035.82]
+    - [1213, 9035.82]
   - - [1024, 1376, 1, 1024]
-    - [1077, 8797.96]
+    - [1213, 8797.96]
   - - [1024, 950, 1, 1024]
-    - [1084, 8635.26]
+    - [1220, 8635.26]
   - - [36548, 774, 1, 1024]
-    - [1076, 9460.82]
+    - [1212, 9460.82]
   - - [36548, 25, 1, 1024]
-    - [1069, 3694.16]
+    - [1205, 3694.16]
   - - [1024, 4256, 1, 1024]
-    - [1077, 9172.16]
+    - [1213, 9172.16]
   - - [4096, 32, 1, 3072]
-    - [1098, 4886.67]
+    - [1234, 4886.67]
   - - [1024, 243, 1, 1024]
-    - [1102, 6594.41]
+    - [1238, 6594.41]
   - - [36548, 3712, 1, 1024]
-    - [1076, 10401.6]
+    - [1212, 10401.6]
   - - [1024, 50, 1, 1024]
-    - [1111, 2742.19]
+    - [1247, 2742.19]
   - - [1024, 3360, 1, 1024]
-    - [1073, 9017.37]
+    - [1209, 9017.37]
   - - [1024, 2048, 1, 1024]
-    - [1088, 9736.65]
+    - [1224, 9736.65]
   - - [1024, 2784, 1, 1024]
-    - [1084, 8835.6]
+    - [1220, 8835.6]
   - - [1024, 4992, 1, 1024]
-    - [1082, 9639.38]
+    - [1218, 9639.38]
   - - [36548, 1102, 1, 1024]
-    - [1083, 9859.04]
+    - [1219, 9859.04]
   - - [1024, 1536, 1, 1024]
-    - [1075, 9294.98]
+    - [1211, 9294.98]
   - - [1024, 2720, 1, 1024]
-    - [1080, 8617.88]
+    - [1216, 8617.88]
   - - [4096, 1, 1, 3072]
-    - [1096, 0.1]
+    - [1232, 0.1]
   - - [1024, 2752, 1, 1024]
-    - [1084, 8902.17]
+    - [1220, 8902.17]
   - - [1024, 2816, 1, 1024]
-    - [1082, 8906.95]
+    - [1218, 8906.95]
   - - [1024, 2624, 1, 1024]
-    - [1084, 8494.41]
+    - [1220, 8494.41]
   - - [1024, 2144, 1, 1024]
-    - [1067, 8243.56]
+    - [1203, 8243.56]
   - - [36548, 1131, 1, 1024]
-    - [1083, 10104.6]
+    - [1219, 10104.6]
   - - [4096, 25, 1, 3072]
-    - [1098, 3959.98]
+    - [1234, 3959.98]
   - - [1024, 64, 1, 1024]
-    - [1111, 3410.1]
+    - [1247, 3410.1]
   - - [1024, 3296, 1, 1024]
-    - [1082, 9066.52]
+    - [1218, 9066.52]
   - - [36548, 4992, 1, 1024]
-    - [1076, 10395.6]
+    - [1212, 10395.6]
   - - [1024, 1344, 1, 1024]
-    - [1077, 8522.66]
+    - [1213, 8522.66]
   - - [36548, 2401, 1, 1024]
-    - [1076, 10250.3]
+    - [1212, 10250.3]
   - - [1024, 15744, 1, 1024]
-    - [1076, 10006.4]
+    - [1212, 10006.4]
   - - [1024, 15232, 1, 1024]
-    - [1075, 9912.21]
+    - [1211, 9912.21]
   - - [1024, 1888, 1, 1024]
-    - [1087, 8962.98]
+    - [1223, 8962.98]
   - - [1024, 1792, 1, 1024]
-    - [1091, 8556.82]
+    - [1227, 8556.82]
   - - [36548, 1073, 1, 1024]
-    - [1076, 10161.2]
+    - [1212, 10161.2]
   - - [4096, 50, 1, 3072]
-    - [1103, 5882.16]
+    - [1239, 5882.16]
   - - [36548, 15488, 1, 1024]
-    - [1083, 10437.1]
+    - [1219, 10437.1]
   - - [1024, 2464, 1, 1024]
-    - [1080, 8880.02]
+    - [1216, 8880.02]
   - - [1024, 2272, 1, 1024]
-    - [1077, 8720.35]
+    - [1213, 8720.35]
   - - [1024, 13, 1, 1024]
-    - [1107, 774.616]
+    - [1243, 774.616]
   - - [1024, 2432, 1, 1024]
-    - [1082, 8491.53]
+    - [1218, 8491.53]
   - - [36548, 24, 1, 1024]
-    - [1069, 3564.41]
+    - [1205, 3564.41]
   - - [1024, 3936, 1, 1024]
-    - [1092, 9433.3]
+    - [1228, 9433.3]
   - - [36548, 13824, 1, 1024]
-    - [1076, 10439.8]
+    - [1212, 10439.8]
   - - [1024, 2401, 1, 1024]
-    - [1084, 8870.03]
+    - [1220, 8870.03]
   - - [1024, 32, 1, 1024]
-    - [1099, 1839.71]
+    - [1235, 1839.71]
   - - [1024, 2176, 1, 1024]
-    - [1068, 8544.55]
+    - [1204, 8544.55]
   - - [1024, 2240, 1, 1024]
-    - [1077, 8381.55]
+    - [1213, 8381.55]
   - - [1024, 1728, 1, 1024]
-    - [1065, 8212.33]
+    - [1201, 8212.33]
   - - [1024, 128, 1, 1024]
-    - [1112, 4660.44]
+    - [1248, 4660.44]
   - - [1024, 216, 1, 1024]
-    - [1102, 5777.97]
+    - [1238, 5777.97]
   - - [1024, 63, 1, 1024]
-    - [1110, 3329.75]
+    - [1246, 3329.75]
   - - [1024, 86, 1, 1024]
-    - [1116, 3533.7]
+    - [1252, 3533.7]
   - - [1024, 2528, 1, 1024]
-    - [1072, 8789.25]
+    - [1208, 8789.25]
   - - [1024, 2400, 1, 1024]
-    - [1077, 8939.4]
+    - [1213, 8939.4]
   - - [1024, 1440, 1, 1024]
-    - [1084, 9131.41]
+    - [1220, 9131.41]
   - - [1024, 2912, 1, 1024]
-    - [1077, 9140.03]
+    - [1213, 9140.03]
   - - [4096, 35, 1, 2048]
-    - [1103, 4059.85]
+    - [1239, 4059.85]
   - - [4096, 63, 1, 2048]
-    - [1105, 6946.5]
+    - [1241, 6946.5]
   - - [1024, 2880, 1, 1024]
-    - [1075, 9104.98]
+    - [1211, 9104.98]
   - - [1024, 4064, 1, 1024]
-    - [1094, 9715.2]
+    - [1230, 9715.2]
   - - [1024, 4655, 1, 1024]
-    - [1082, 9033.9]
+    - [1218, 9033.9]
   - - [1024, 1088, 1, 1024]
-    - [1066, 8144.41]
+    - [1202, 8144.41]
   - - [36548, 6272, 1, 1024]
-    - [1083, 10427.4]
+    - [1219, 10427.4]
   - - [1024, 1, 1, 13]
-    - [1096, 0.1]
+    - [1232, 0.1]
+  - - [768, 512, 1, 768]
+    - [1256, 5889.14]
+  - - [768, 2048, 1, 3072]
+    - [1266, 9394.72]
+  - - [768, 32, 1, 768]
+    - [1278, 1502.84]
+  - - [64, 128, 96, 128]
+    - [1273, 4973.58]
+  - - [3072, 1024, 1, 768]
+    - [1267, 9856.17]
+  - - [768, 1024, 1, 3072]
+    - [1260, 8611.16]
+  - - [768, 512, 1, 3072]
+    - [1259, 6430.89]
+  - - [768, 64, 1, 768]
+    - [1280, 2621.54]
+  - - [768, 4096, 1, 3072]
+    - [1265, 10030.5]
+  - - [768, 2048, 1, 2]
+    - [1258, 381.863]
+  - - [768, 2048, 1, 768]
+    - [1263, 9754.3]
+  - - [768, 320, 1, 30522]
+    - [1276, 8529.5]
+  - - [64, 64, 96, 64]
+    - [1270, 2496.71]
+  - - [768, 640, 1, 30522]
+    - [1257, 8253.94]
+  - - [768, 1280, 1, 30522]
+    - [1262, 9572.95]
+  - - [768, 1280, 1, 768]
+    - [1266, 8714.03]
+  - - [768, 640, 1, 768]
+    - [1256, 7293.13]
+  - - [768, 32, 1, 2]
+    - [1268, 11.9154]
+  - - [3072, 2048, 1, 768]
+    - [1263, 10019.7]
+  - - [768, 4096, 1, 768]
+    - [1263, 9927.45]
+  - - [3072, 4096, 1, 768]
+    - [1266, 10150.2]
+  - - [64, 256, 192, 256]
+    - [1272, 7054.29]
+  - - [768, 8, 1, 768]
+    - [1279, 341.039]
+  - - [64, 128, 384, 128]
+    - [1271, 6765.11]
+  - - [768, 1024, 1, 768]
+    - [1261, 8768.68]
+  - - [768, 320, 1, 768]
+    - [1277, 6838.64]
+  - - [64, 64, 768, 64]
+    - [1274, 5388.93]
+  - - [768, 1024, 1, 2]
+    - [1254, 258.795]
+  - - [768, 16, 1, 768]
+    - [1279, 819.3]
+  - - [64, 256, 96, 256]
+    - [1272, 5893.74]
+  - - [3072, 512, 1, 768]
+    - [1264, 9722.89]
+  - - [768, 160, 1, 768]
+    - [1281, 5019.88]
+  - - [768, 4096, 1, 2]
+    - [1255, 507.475]
+  - - [1600, 512, 1, 1024]
+    - [1285, 7187.05]
+  - - [1024, 512, 1, 64]
+    - [1283, 2557.6]
+  - - [1024, 512, 1, 1]
+    - [1282, 71.3348]
+  - - [2048, 512, 1, 1]
+    - [1284, 90.4945]
+  - - [1024, 200, 1, 1]
+    - [1290, 40.1]
+  - - [32, 200, 1, 1]
+    - [1286, 1.66863]
+  - - [560, 200, 1, 1024]
+    - [1294, 4731.45]
+  - - [1, 512, 1, 1]
+    - [1293, 0.230612]
+  - - [64, 512, 1, 1]
+    - [1288, 7.68519]
+  - - [1024, 8192, 1, 256]
+    - [1303, 9519.09]
+  - - [1024, 22016, 1, 256]
+    - [1309, 9881.22]
+  - - [256, 8976, 1, 4352]
+    - [1301, 9567.18]
+  - - [512, 256, 1, 2048]
+    - [1314, 5917.99]
+  - - [1024, 19968, 1, 256]
+    - [1309, 9882.47]
+  - - [256, 8976, 1, 1536]
+    - [1299, 8437.45]
+  - - [256, 8976, 1, 33536]
+    - [1299, 8441.99]
+  - - [1024, 1792, 1, 256]
+    - [1299, 7757.07]
+  - - [1024, 21504, 1, 256]
+    - [1309, 9894.0]
+  - - [512, 215, 1, 2048]
+    - [1315, 4665.74]
+  - - [1024, 7168, 1, 256]
+    - [1303, 9509.45]
+  - - [256, 8976, 1, 15872]
+    - [1305, 8914.75]
+  - - [1024, 19712, 1, 256]
+    - [1309, 9772.0]
+  - - [256, 8976, 1, 5632]
+    - [1305, 8740.13]
+  - - [1024, 14848, 1, 256]
+    - [1309, 9756.25]
+  - - [1024, 28672, 1, 256]
+    - [1309, 9959.02]
+  - - [256, 8976, 1, 9728]
+    - [1312, 8853.14]
+  - - [1024, 17152, 1, 256]
+    - [1303, 9737.4]
+  - - [256, 8976, 1, 11520]
+    - [1305, 8999.3]
+  - - [256, 8976, 1, 8192]
+    - [1295, 7897.42]
+  - - [1024, 3328, 1, 256]
+    - [1310, 8593.63]
+  - - [256, 8976, 1, 7424]
+    - [1305, 8980.57]
+  - - [1024, 18944, 1, 256]
+    - [1309, 9854.95]
+  - - [1024, 10496, 1, 256]
+    - [1304, 9454.0]
+  - - [256, 8976, 1, 5376]
+    - [1302, 9608.47]
+  - - [256, 8976, 1, 6144]
+    - [1299, 7880.23]
+  - - [1024, 40448, 1, 256]
+    - [1309, 10016.7]
+  - - [256, 8976, 1, 22016]
+    - [1312, 8939.97]
+  - - [256, 8976, 1, 4864]
+    - [1300, 9211.53]
+  - - [256, 8976, 1, 12288]
+    - [1296, 8065.15]
+  - - [1024, 9728, 1, 256]
+    - [1309, 9636.35]
+  - - [256, 8976, 1, 2048]
+    - [1297, 7001.43]
+  - - [1024, 10240, 1, 256]
+    - [1303, 9620.06]
+  - - [256, 8976, 1, 2304]
+    - [1301, 9509.84]
+  - - [1024, 7936, 1, 256]
+    - [1309, 9300.77]
+  - - [768, 256, 1, 2048]
+    - [1313, 6268.05]
+  - - [1024, 9984, 1, 256]
+    - [1309, 9477.38]
+  - - [1024, 13312, 1, 256]
+    - [1309, 9758.66]
+  - - [1024, 16128, 1, 256]
+    - [1303, 9722.0]
+  - - [1024, 8960, 1, 256]
+    - [1304, 9398.35]
+  - - [1024, 5120, 1, 256]
+    - [1310, 9315.6]
+  - - [1024, 11264, 1, 256]
+    - [1303, 9664.9]
+  - - [256, 8976, 1, 20480]
+    - [1311, 8279.97]
+  - - [1024, 20992, 1, 256]
+    - [1303, 9878.97]
+  - - [256, 8976, 1, 9472]
+    - [1305, 8991.06]
+  - - [256, 8976, 1, 8448]
+    - [1305, 8983.62]
+  - - [256, 8976, 1, 20992]
+    - [1306, 8942.21]
+  - - [256, 8976, 1, 10496]
+    - [1306, 8989.81]
+  - - [1024, 15104, 1, 256]
+    - [1304, 9676.11]
+  - - [1024, 6400, 1, 256]
+    - [1312, 9145.99]
+  - - [1024, 4096, 1, 256]
+    - [1305, 9124.35]
+  - - [256, 8976, 1, 2560]
+    - [1299, 8566.21]
+  - - [256, 8976, 1, 2816]
+    - [1301, 9496.94]
+  - - [1024, 7680, 1, 256]
+    - [1309, 9460.94]
+  - - [256, 8976, 1, 14336]
+    - [1306, 8226.9]
+  - - [256, 8976, 1, 6656]
+    - [1306, 8771.52]
+  - - [1024, 3072, 1, 256]
+    - [1306, 9077.04]
+  - - [256, 8976, 1, 5888]
+    - [1302, 9546.4]
+  - - [1024, 12288, 1, 256]
+    - [1303, 9690.91]
+  - - [256, 8976, 1, 26112]
+    - [1308, 8699.93]
+  - - [1024, 7424, 1, 256]
+    - [1310, 9256.94]
+  - - [256, 8976, 1, 14848]
+    - [1311, 8885.89]
+  - - [768, 215, 1, 2048]
+    - [1313, 5628.69]
+  - - [1024, 2560, 1, 256]
+    - [1306, 8820.93]
+  - - [256, 8976, 1, 19968]
+    - [1305, 8928.96]
+  - - [256, 8976, 1, 9984]
+    - [1305, 8993.22]
+  - - [1024, 4864, 1, 256]
+    - [1306, 8974.4]
+  - - [1024, 33536, 1, 256]
+    - [1309, 9943.17]
+  - - [256, 8976, 1, 15104]
+    - [1306, 8996.73]
+  - - [1024, 2048, 1, 256]
+    - [1304, 8462.76]
+  - - [256, 8976, 1, 8960]
+    - [1306, 8999.02]
+  - - [1024, 6144, 1, 256]
+    - [1311, 9359.77]
+  - - [1024, 14592, 1, 256]
+    - [1309, 9667.52]
+  - - [256, 8976, 1, 19712]
+    - [1305, 9020.21]
+  - - [1024, 11520, 1, 256]
+    - [1304, 9527.8]
+  - - [1024, 5632, 1, 256]
+    - [1303, 9297.3]
+  - - [256, 8976, 1, 11008]
+    - [1312, 8994.9]
+  - - [256, 8976, 1, 17152]
+    - [1306, 9003.9]
+  - - [256, 8976, 1, 3072]
+    - [1295, 8262.06]
+  - - [1024, 3840, 1, 256]
+    - [1312, 8671.99]
+  - - [1024, 14336, 1, 256]
+    - [1309, 9760.38]
+  - - [1024, 20480, 1, 256]
+    - [1303, 9887.95]
+  - - [1024, 23552, 1, 256]
+    - [1303, 9890.56]
+  - - [256, 8976, 1, 7168]
+    - [1298, 8478.44]
+  - - [1024, 13568, 1, 256]
+    - [1303, 9654.74]
+  - - [1024, 4608, 1, 256]
+    - [1311, 9218.35]
+  - - [256, 8976, 1, 10240]
+    - [1296, 8076.26]
+  - - [1024, 8704, 1, 256]
+    - [1305, 9475.6]
+  - - [1024, 11008, 1, 256]
+    - [1309, 9525.06]
+  - - [1024, 8448, 1, 256]
+    - [1303, 9352.26]
+  - - [256, 8976, 1, 44505]
+    - [1307, 8430.33]
+  - - [6272, 256, 1, 528]
+    - [1359, 7390.04]
+  - - [3136, 2048, 1, 1024]
+    - [1340, 9658.04]
+  - - [6272, 112, 1, 512]
+    - [1338, 5931.19]
+  - - [2048, 320, 1, 1280]
+    - [1358, 7773.09]
+  - - [289, 256, 1, 1568]
+    - [1379, 3718.27]
+  - - [3136, 64, 64, 64]
+    - [1318, 8201.25]
+  - - [50176, 128, 1, 256]
+    - [1341, 8908.68]
+  - - [5329, 64, 1, 448]
+    - [1324, 4602.3]
+  - - [289, 192, 1, 1344]
+    - [1376, 3452.69]
+  - - [12544, 1024, 1, 256]
+    - [1341, 9742.74]
+  - - [784, 64, 32, 192]
+    - [1317, 6844.71]
+  - - [6272, 64, 1, 480]
+    - [1325, 5562.34]
+  - - [196, 128, 1, 800]
+    - [1367, 1639.84]
+  - - [64, 512, 1, 1344]
+    - [1366, 2313.14]
+  - - [6272, 64, 1, 512]
+    - [1324, 5609.29]
+  - - [6272, 160, 1, 528]
+    - [1325, 6149.8]
+  - - [289, 160, 32, 768]
+    - [1352, 6637.92]
+  - - [12544, 256, 1, 1024]
+    - [1359, 8790.56]
+  - - [289, 224, 1, 1568]
+    - [1379, 3270.27]
+  - - [5329, 64, 32, 160]
+    - [1332, 9091.14]
+  - - [5329, 96, 1, 576]
+    - [1359, 5555.76]
+  - - [3025, 64, 1, 363]
+    - [1377, 4392.4]
+  - - [784, 32, 32, 192]
+    - [1348, 5633.9]
+  - - [3136, 512, 1, 1024]
+    - [1344, 7553.24]
+  - - [6272, 16, 1, 480]
+    - [1379, 3219.95]
+  - - [1225, 64, 32, 288]
+    - [1339, 8240.68]
+  - - [64, 256, 1, 1536]
+    - [1372, 1456.46]
+  - - [289, 192, 32, 768]
+    - [1351, 7372.9]
+  - - [2048, 448, 1, 1280]
+    - [1334, 8403.11]
+  - - [3136, 2048, 1, 512]
+    - [1333, 9486.41]
+  - - [289, 256, 1, 2016]
+    - [1379, 3876.18]
+  - - [289, 384, 32, 1024]
+    - [1318, 7350.64]
+  - - [1568, 32, 1, 832]
+    - [1368, 2717.97]
+  - - [3136, 64, 32, 64]
+    - [1321, 7657.36]
+  - - [289, 160, 1, 1120]
+    - [1375, 2827.0]
+  - - [6272, 128, 1, 528]
+    - [1329, 6926.36]
+  - - [21609, 32, 1, 288]
+    - [1330, 3699.0]
+  - - [1225, 192, 1, 1728]
+    - [1363, 7309.91]
+  - - [4096, 512, 1, 4096]
+    - [1346, 10272.2]
+  - - [64, 256, 1, 1152]
+    - [1372, 1387.92]
+  - - [6272, 96, 1, 480]
+    - [1360, 6371.66]
+  - - [784, 96, 1, 800]
+    - [1380, 3330.37]
+  - - [2048, 448, 1, 2048]
+    - [1334, 8622.75]
+  - - [784, 96, 32, 192]
+    - [1349, 7092.46]
+  - - [3136, 64, 64, 256]
+    - [1342, 9579.26]
+  - - [289, 224, 1, 1344]
+    - [1379, 3180.11]
+  - - [1001, 512, 1, 4096]
+    - [1320, 8195.17]
+  - - [2048, 192, 1, 1280]
+    - [1325, 6120.19]
+  - - [1225, 64, 32, 256]
+    - [1330, 8076.72]
+  - - [2048, 256, 1, 1536]
+    - [1320, 8137.8]
+  - - [1225, 64, 1, 1200]
+    - [1379, 3552.97]
+  - - [6272, 128, 1, 512]
+    - [1333, 6878.31]
+  - - [729, 192, 1, 1600]
+    - [1378, 5016.87]
+  - - [289, 192, 1, 896]
+    - [1376, 3091.97]
+  - - [1568, 384, 1, 832]
+    - [1359, 6934.72]
+  - - [784, 16, 32, 192]
+    - [1350, 3380.38]
+  - - [1568, 256, 1, 832]
+    - [1324, 5980.96]
+  - - [1568, 48, 1, 832]
+    - [1381, 3275.19]
+  - - [1568, 192, 1, 832]
+    - [1319, 4441.21]
+  - - [289, 192, 32, 1024]
+    - [1322, 6563.16]
+  - - [6272, 32, 1, 528]
+    - [1363, 4998.77]
+  - - [49, 128, 1, 1200]
+    - [1364, 550.275]
+  - - [1225, 64, 32, 384]
+    - [1336, 8589.43]
+  - - [289, 128, 1, 896]
+    - [1375, 2103.2]
+  - - [1568, 160, 1, 832]
+    - [1363, 6995.15]
+  - - [1001, 32, 1, 1024]
+    - [1372, 1744.82]
+  - - [2048, 320, 1, 2048]
+    - [1357, 7118.14]
+  - - [2048, 384, 1, 1536]
+    - [1320, 8184.11]
+  - - [50176, 512, 1, 256]
+    - [1332, 9852.5]
+  - - [289, 256, 1, 1792]
+    - [1381, 3809.85]
+  - - [64, 448, 1, 1152]
+    - [1373, 2128.33]
+  - - [5041, 96, 1, 576]
+    - [1358, 5279.4]
+  - - [6272, 192, 1, 480]
+    - [1320, 7479.75]
+  - - [784, 32, 32, 256]
+    - [1347, 5709.01]
+  - - [1001, 32, 1, 2048]
+    - [1374, 2141.14]
+  - - [289, 192, 1, 1120]
+    - [1370, 3277.87]
+  - - [6272, 32, 1, 512]
+    - [1362, 4978.8]
+  - - [289, 384, 1, 3456]
+    - [1379, 5904.24]
+  - - [289, 384, 1, 2592]
+    - [1380, 5707.44]
+  - - [784, 128, 64, 512]
+    - [1326, 8864.49]
+  - - [12544, 1024, 1, 512]
+    - [1341, 10008.4]
+  - - [12544, 256, 1, 512]
+    - [1359, 8628.18]
+  - - [6272, 24, 1, 512]
+    - [1363, 3568.17]
+  - - [5041, 192, 1, 720]
+    - [1334, 8424.52]
+  - - [64, 320, 1, 1728]
+    - [1367, 1469.76]
+  - - [784, 128, 32, 256]
+    - [1335, 8104.24]
+  - - [289, 96, 1, 864]
+    - [1373, 1838.35]
+  - - [1225, 32, 32, 192]
+    - [1354, 5949.82]
+  - - [1568, 128, 1, 832]
+    - [1362, 5718.79]
+  - - [289, 128, 32, 768]
+    - [1320, 7289.35]
+  - - [3136, 256, 64, 64]
+    - [1328, 9104.02]
+  - - [196, 64, 1, 800]
+    - [1366, 915.72]
+  - - [4096, 512, 1, 9216]
+    - [1343, 10351.5]
+  - - [12544, 64, 1, 147]
+    - [1333, 5069.43]
+  - - [784, 32, 1, 400]
+    - [1364, 1140.46]
+  - - [6272, 160, 1, 512]
+    - [1324, 6140.18]
+  - - [1225, 48, 32, 288]
+    - [1330, 5978.71]
+  - - [64, 320, 1, 2880]
+    - [1371, 1920.1]
+  - - [1225, 64, 32, 192]
+    - [1324, 7641.11]
+  - - [1001, 32, 1, 1536]
+    - [1372, 2084.89]
+  - - [784, 64, 32, 256]
+    - [1316, 6990.61]
+  - - [64, 384, 1, 1152]
+    - [1373, 1862.7]
+  - - [784, 512, 64, 128]
+    - [1327, 9026.05]
+  - - [3136, 512, 1, 2048]
+    - [1345, 7764.4]
+  - - [6272, 144, 1, 512]
+    - [1320, 5574.14]
+  - - [1225, 192, 32, 384]
+    - [1334, 9373.93]
+  - - [64, 192, 1, 1728]
+    - [1372, 1206.56]
+  - - [8192, 320, 1, 1280]
+    - [1386, 9876.02]
+  - - [8192, 320, 1, 2048]
+    - [1389, 9745.8]
+  - - [8192, 384, 1, 1280]
+    - [1386, 10046.3]
+  - - [8192, 192, 1, 1280]
+    - [1389, 9951.0]
+  - - [8192, 192, 1, 2048]
+    - [1385, 9559.77]
+  - - [8192, 384, 1, 2048]
+    - [1387, 9945.84]
+  - - [8192, 448, 1, 2048]
+    - [1388, 9908.61]
+  - - [1001, 64, 1, 1536]
+    - [1382, 3650.04]
+  - - [8192, 448, 1, 1280]
+    - [1386, 9981.45]
+  - - [1001, 64, 1, 2048]
+    - [1383, 3580.97]
+  - - [1001, 128, 1, 2048]
+    - [1384, 5587.97]
 - null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/arcturus_Cijk_Alik_Bljk_SB.yaml b/library/src/blas3/Tensile/Logic/asm_full/arcturus_Cijk_Alik_Bljk_SB.yaml
index ea1cea1b2..cbbb723c2 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/arcturus_Cijk_Alik_Bljk_SB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/arcturus_Cijk_Alik_Bljk_SB.yaml
@@ -39633,8 +39633,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -39797,8 +39797,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -39961,8 +39961,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -40125,8 +40125,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -40289,8 +40289,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -40453,8 +40453,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -40617,8 +40617,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -40781,8 +40781,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -40945,8 +40945,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -41109,8 +41109,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -41273,8 +41273,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -41437,8 +41437,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -41601,8 +41601,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -41765,8 +41765,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -41925,8 +41925,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -42089,8 +42089,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -42253,8 +42253,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -42417,8 +42417,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -42581,8 +42581,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -42745,8 +42745,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -42909,8 +42909,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -43073,8 +43073,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -43237,8 +43237,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -43401,8 +43401,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -43566,8 +43566,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -43733,8 +43733,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -43898,8 +43898,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -44061,8 +44061,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -44226,8 +44226,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -44393,8 +44393,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -44558,8 +44558,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -44721,8 +44721,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -44886,8 +44886,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -45053,8 +45053,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -45218,8 +45218,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -45381,8 +45381,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -45546,8 +45546,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -45713,8 +45713,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -45878,8 +45878,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -46041,8 +46041,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -46206,8 +46206,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -46371,8 +46371,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -46538,8 +46538,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -46703,8 +46703,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -46868,8 +46868,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -47033,8 +47033,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -47198,8 +47198,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -47361,8 +47361,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -47526,8 +47526,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -47693,8 +47693,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -47858,8 +47858,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -48021,8 +48021,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -48186,8 +48186,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -48353,8 +48353,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -48518,8 +48518,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -48681,8 +48681,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -48848,8 +48848,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -49011,8 +49011,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -49178,8 +49178,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -49341,8 +49341,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -49502,8 +49502,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -49665,8 +49665,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -49826,8 +49826,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -49987,8 +49987,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -50146,8 +50146,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -50309,8 +50309,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -50468,8 +50468,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -50631,8 +50631,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -50790,8 +50790,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -50953,8 +50953,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -51112,8 +51112,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -51275,8 +51275,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -51434,8 +51434,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -51597,8 +51597,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -51758,8 +51758,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -51917,8 +51917,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -52080,8 +52080,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -52239,8 +52239,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -52400,8 +52400,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -52561,8 +52561,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -52728,8 +52728,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -52897,8 +52897,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -53064,8 +53064,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -53229,8 +53229,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -53396,8 +53396,8 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
       TLUA: false
@@ -53445,24 +53445,24 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -53470,32 +53470,37 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 32
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 2304
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -53504,9 +53509,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -53514,26 +53519,34 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -53543,6 +53556,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -53552,6 +53566,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -53566,39 +53581,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 341
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x32_GRVW02_GSU32_SNLL0_TT04_02_VW02_WG16_04_04
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: [4, 2]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id002 
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -53606,56 +53629,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 32
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 8
-    LVCA: 8
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3168
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -53663,19 +53687,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -53683,6 +53714,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -53692,6 +53724,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -53701,6 +53734,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -53715,39 +53749,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 342
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x32_GRVW04_GSU32_SNLL0_TT04_04_VW04_WG16_02_08
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 2
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 2
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001 
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 2, 8]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 64
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -53764,32 +53806,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 32
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 5120
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2144
     LdsOffsetA: 0
-    LdsOffsetB: 4096
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -53798,9 +53841,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -53808,26 +53851,34 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -53837,6 +53888,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -53846,6 +53898,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -53860,45 +53913,53 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 343
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x64_GRVW04_GSU32_SNLL0_TT04_04_VW04_WG16_04_04
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA2_LPB2_PGR0_PLR0_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id002
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 64
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -53909,36 +53970,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 32
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 13312
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1024
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -53947,9 +54005,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -53957,26 +54015,34 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
-    PerformanceSyncLocation: -1
-    PerformanceWaitCount: -1
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -53986,6 +54052,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -53995,6 +54062,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -54009,33 +54077,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 344
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x64_GRVW04_GSU32_SNLL0_TT04_04_VW04_WG16_04_04
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id002
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -54048,40 +54124,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 12
-    LSPB: 12
-    LVCA: 16
-    LVCB: 16
-    LVPA: 12
-    LVPB: 12
-    LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 768
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -54095,10 +54172,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 36
-    MacroTile1: 48
-    MacroTileA: 36
-    MacroTileB: 48
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -54106,19 +54183,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 9
-    NumGlobalWriteVectorsPerThread: 9
-    NumLoadsA: 3
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 4
-    NumThreads: 192
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -54126,6 +54208,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -54135,6 +54218,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -54144,6 +54228,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -54158,33 +54243,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 345
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT036x048x16_GRVW01_GSU02_SNLL0_TT03_03_VW01_WG12_16_01
-    SubGroup0: 12
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 12
+    SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id004 
-    ThreadTile0: 3
-    ThreadTile1: 3
-    ThreadTileA: 3
-    ThreadTileB: 3
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [12, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -54196,58 +54291,55 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 12
-    LSPB: 12
-    LVCA: 16
-    LVCB: 16
-    LVPA: 12
-    LVPB: 12
-    LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 576
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 48
-    MacroTile1: 36
-    MacroTileA: 48
-    MacroTileB: 36
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -54255,26 +54347,32 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 9
-    NumGlobalWriteVectorsPerThread: 9
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 3
-    NumThreads: 192
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -54284,6 +54382,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -54293,6 +54392,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -54307,33 +54407,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 346
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT048x036x16_GRVW01_GSU08_SNLL0_TT06_03_VW01_WG08_12_02
-    SubGroup0: 8
-    SubGroup1: 12
-    SubGroupA: 8
-    SubGroupB: 12
-    SuppresssNoLoadLoop: false
-    ThreadTile: [6, 3]
-    ThreadTile0: 6
-    ThreadTile1: 3
-    ThreadTileA: 6
-    ThreadTileB: 3
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id003 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -54346,8 +54456,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -54355,31 +54465,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 24
-    LSPB: 24
-    LVCA: 8
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
     LVCB: 8
-    LVPA: 12
-    LVPB: 12
-    LdcEqualsLdd: false
-    LdsNumElements: 4608
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 768
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -54393,10 +54504,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 48
-    MacroTile1: 48
-    MacroTileA: 48
-    MacroTileB: 48
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -54404,19 +54515,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 12
-    NumGlobalWriteVectorsPerThread: 6
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 192
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -54424,6 +54540,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -54433,6 +54550,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -54442,6 +54560,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -54456,39 +54575,49 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 347
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT048x048x16_GRVW02_GSU08_SNLL0_TT06_04_VW02_WG08_12_02
-    SubGroup0: 8
-    SubGroup1: 12
-    SubGroupA: 8
-    SubGroupB: 12
-    SuppresssNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id003
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -54505,47 +54634,48 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 768
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 48
-    MacroTile1: 48
-    MacroTileA: 48
-    MacroTileB: 48
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -54553,19 +54683,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 9
-    NumGlobalWriteVectorsPerThread: 9
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -54573,6 +54710,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -54582,6 +54720,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -54591,6 +54730,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -54605,85 +54745,94 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 348
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT048x048x16_GRVW01_GSU08_SNLL0_TT03_03_VW01_WG16_16_01
-    SubGroup0: 16
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW1_LPA0_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id004
-    ThreadTile0: 3
-    ThreadTile1: 3
-    ThreadTileA: 3
-    ThreadTileB: 3
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
-    LSPA: 16
-    LSPB: 8
-    LVCA: 4
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
     LVCB: 8
     LVPA: 8
     LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 832
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 64
+    LdcEqualsLdd: true
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -54691,10 +54840,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -54702,19 +54851,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -54722,6 +54878,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -54731,6 +54888,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -54740,6 +54898,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -54754,48 +54913,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 349
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005 
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id009 
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -54806,33 +54973,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
-    LVCA: 4
-    LVCB: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
     LVPA: 8
     LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdcEqualsLdd: true
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -54840,10 +55008,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -54851,19 +55019,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -54871,6 +55046,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -54880,6 +55056,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -54889,6 +55066,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -54903,85 +55081,94 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 350
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_LPA2_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006 
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
-    LSPA: 16
-    LSPB: 16
-    LVCA: 4
-    LVCB: 4
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
     LVPA: 8
     LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdcEqualsLdd: true
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -54990,9 +55177,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 8
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -55000,19 +55187,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -55020,6 +55214,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -55029,6 +55224,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -55038,6 +55234,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -55052,96 +55249,105 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 351
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id010 
-    ThreadTile0: 4
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
-    LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 8
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -55149,19 +55355,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -55169,6 +55380,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -55178,6 +55390,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -55187,6 +55400,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -55201,46 +55415,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 352
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id007 
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x16_SE_EPS1_FL1_GRVW2_LPA0_LPB0_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id006
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -55249,44 +55473,45 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 16
-    LVCA: 4
-    LVCB: 8
+    LVCA: 8
+    LVCB: 16
     LVPA: 16
     LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -55298,19 +55523,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -55318,6 +55550,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -55327,6 +55560,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -55336,6 +55570,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -55350,35 +55585,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 353
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008 
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -55388,9 +55631,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -55398,31 +55641,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 16
-    LSPB: 16
-    LVCA: 4
+    LSPA: 96
+    LSPB: 64
+    LVCA: 2
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LVPA: 24
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -55436,10 +55680,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -55447,19 +55691,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -55467,6 +55716,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -55476,6 +55726,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -55485,6 +55736,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -55499,35 +55751,45 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 354
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT6_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -55537,9 +55799,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -55552,26 +55814,27 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 2
+    LSPA: 64
+    LSPB: 128
+    LVCA: 4
     LVCB: 2
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -55585,10 +55848,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -55596,26 +55859,34 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -55625,6 +55896,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -55634,6 +55906,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -55648,35 +55921,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 355
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id007
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id006
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -55686,41 +55967,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 32
-    LSPB: 16
+    LSPA: 64
+    LSPB: 128
     LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -55734,10 +56016,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -55745,19 +56027,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -55765,6 +56054,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -55774,6 +56064,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -55783,6 +56074,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -55797,75 +56089,84 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 356
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 3200
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 128
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -55882,11 +56183,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -55894,26 +56195,34 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -55923,6 +56232,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -55932,6 +56242,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -55946,35 +56257,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 357
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -55984,41 +56303,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -56032,10 +56352,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -56043,19 +56363,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -56063,6 +56390,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -56072,6 +56400,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -56081,6 +56410,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -56095,79 +56425,88 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 358
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id009
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -56180,11 +56519,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -56192,19 +56531,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -56212,6 +56556,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -56221,6 +56566,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -56230,6 +56576,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -56244,35 +56591,45 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 359
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id006
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -56282,41 +56639,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -56330,10 +56688,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -56341,19 +56699,26 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -56361,6 +56726,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -56370,6 +56736,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -56379,6 +56746,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -56393,48 +56761,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 360
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id006
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -56446,26 +56822,27 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 4
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
     LVCB: 4
-    LVPA: 4
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -56478,11 +56855,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -56490,19 +56867,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -56510,6 +56892,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -56519,6 +56902,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -56528,6 +56912,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -56542,35 +56927,45 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 361
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id007
-    ThreadTile0: 4
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id006
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -56580,58 +56975,59 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSPA: 32
+    LSPB: 64
     LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 1792
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -56639,19 +57035,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -56659,6 +57060,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -56668,6 +57070,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -56677,6 +57080,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -56691,35 +57095,45 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 362
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id008
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -56729,8 +57143,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -56744,22 +57158,23 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -56778,29 +57193,38 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -56808,6 +57232,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -56817,6 +57242,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -56826,8 +57252,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -56840,35 +57268,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 363
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -56878,37 +57314,38 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -56927,29 +57364,38 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -56957,6 +57403,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -56966,6 +57413,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -56975,8 +57423,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -56989,35 +57439,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 364
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_08_01
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id007
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id008
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -57027,37 +57485,38 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 3200
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 128
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -57076,29 +57535,38 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -57106,6 +57574,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -57115,6 +57584,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -57124,8 +57594,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -57138,35 +57610,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 365
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -57176,41 +57656,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -57224,30 +57705,39 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -57255,6 +57745,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -57264,6 +57755,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -57273,8 +57765,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -57287,35 +57781,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 366
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id009
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -57325,8 +57827,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -57339,27 +57841,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -57373,30 +57876,37 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -57404,6 +57914,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -57413,6 +57924,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -57422,8 +57934,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -57436,35 +57950,45 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 367
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -57474,8 +57998,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -57488,23 +58012,24 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -57523,29 +58048,36 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -57553,6 +58085,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -57562,6 +58095,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -57571,8 +58105,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -57585,48 +58121,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 368
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_08_01
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id007
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id008
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -57634,67 +58180,75 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 32
-    LVPB: 32
-    LdcEqualsLdd: false
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -57702,6 +58256,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -57711,6 +58266,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -57720,8 +58276,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -57734,14 +58292,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 369
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012 
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -57752,105 +58317,113 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013 
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -57860,6 +58433,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -57869,8 +58443,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -57883,39 +58459,49 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 370
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_GSU1_PGR0_PLR1_TT4_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id014 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -57923,76 +58509,86 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 32
-    LVPB: 32
-    LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 2
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -58000,6 +58596,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -58009,6 +58606,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -58018,8 +58616,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -58032,33 +58632,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 371
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU08_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x96x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_6_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id013
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -58081,67 +58689,77 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -58149,6 +58767,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -58158,6 +58777,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -58167,8 +58787,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -58181,39 +58803,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 372
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id016 
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x96x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_6_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -58221,7 +58851,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -58230,36 +58860,37 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 128
     LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -58267,37 +58898,47 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -58307,6 +58948,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -58316,8 +58958,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -58330,33 +58974,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 373
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_8_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -58379,74 +59031,85 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -58456,6 +59119,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -58465,8 +59129,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -58479,33 +59145,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 374
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018 
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -58519,76 +59193,86 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -58596,6 +59280,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -58605,6 +59290,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -58614,8 +59300,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -58628,33 +59316,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 375
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -58668,76 +59364,86 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -58745,6 +59451,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -58754,6 +59461,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -58763,8 +59471,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -58777,48 +59487,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 376
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id016
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -58826,36 +59544,37 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 1792
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -58863,30 +59582,37 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -58894,6 +59620,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -58903,6 +59630,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -58912,8 +59640,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -58926,33 +59656,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 377
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id017 
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -58965,77 +59705,85 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -59043,6 +59791,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -59052,6 +59801,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -59061,8 +59811,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -59075,47 +59827,57 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 378
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG16_08_02
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id016
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id017
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -59124,36 +59886,37 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 128
     LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -59161,37 +59924,45 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -59201,6 +59972,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -59210,8 +59982,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -59224,33 +59998,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 379
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG16_08_02
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT4_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019 
-    ThreadTile0: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id017
-    WorkGroupMapping: 1
-    WorkGroupMappingType: B
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -59263,77 +60047,85 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -59341,6 +60133,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -59350,6 +60143,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -59359,8 +60153,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -59373,33 +60169,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 380
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id016
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id014
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -59412,7 +60218,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -59422,67 +60228,75 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -59490,6 +60304,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -59499,6 +60314,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -59508,8 +60324,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -59522,39 +60340,49 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 381
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -59562,33 +60390,34 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
@@ -59600,7 +60429,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -59608,37 +60437,47 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -59648,6 +60487,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -59657,8 +60497,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -59671,39 +60513,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 382
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -59711,8 +60561,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -59720,74 +60570,85 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -59797,6 +60658,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -59806,8 +60668,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -59820,39 +60684,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 383
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -59860,65 +60732,68 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -59926,17 +60801,25 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -59946,6 +60829,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -59955,8 +60839,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -59969,39 +60855,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 384
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id016
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
-    UnrollMemFence: false
-    UseSgprForGRO: false
-    Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -60009,45 +60903,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -60055,19 +60950,21 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -60075,17 +60972,25 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -60095,6 +61000,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -60104,8 +61010,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -60118,33 +61026,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 385
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id017
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -60167,13 +61083,14 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -60183,8 +61100,8 @@
     LVCB: 4
     LVPA: 16
     LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 16384
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
@@ -60196,14 +61113,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -60211,7 +61128,9 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -60224,10 +61143,17 @@
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -60235,6 +61161,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -60244,6 +61171,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -60253,8 +61181,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -60267,75 +61197,84 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 386
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG16_08_02
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id017
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 16
+    LSPB: 64
     LVCA: 4
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -60345,45 +61284,53 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -60393,6 +61340,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -60402,8 +61350,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -60416,85 +61366,96 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 387
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG16_04_04
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id020 
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -60502,37 +61463,45 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -60542,6 +61511,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -60551,8 +61521,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -60565,73 +61537,84 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 388
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
@@ -60643,7 +61626,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -60651,30 +61634,37 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -60682,6 +61672,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -60691,6 +61682,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -60700,8 +61692,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -60714,123 +61708,142 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 389
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU04_SNLL0_TT08_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
-    LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
-    LdsPadA: 0
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -60840,6 +61853,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -60849,8 +61863,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -60863,123 +61879,142 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 390
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -60989,6 +62024,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -60998,8 +62034,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -61012,85 +62050,96 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 391
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id016
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -61098,37 +62147,45 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -61138,6 +62195,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -61147,8 +62205,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -61161,47 +62221,57 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 392
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG16_08_02
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id017
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -61209,37 +62279,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -61247,30 +62318,37 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -61278,6 +62356,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -61287,6 +62366,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -61296,8 +62376,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -61310,33 +62392,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 393
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id016
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id014
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -61350,83 +62442,94 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -61436,6 +62539,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -61445,8 +62549,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -61459,33 +62565,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 394
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id014
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -61499,83 +62613,94 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -61585,6 +62710,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -61594,8 +62720,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -61608,33 +62736,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 395
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU04_SNLL0_TT08_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id014
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -61648,8 +62784,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -61657,74 +62793,85 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -61734,6 +62881,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -61743,8 +62891,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -61757,33 +62907,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 396
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -61798,7 +62956,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -61806,67 +62964,77 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
+    LVCB: 8
     LVPA: 16
     LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -61874,6 +63042,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -61883,6 +63052,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -61892,8 +63062,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -61906,33 +63078,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 397
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id016
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -61947,7 +63127,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -61955,67 +63135,77 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
+    LVCB: 8
     LVPA: 16
     LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -62023,6 +63213,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -62032,6 +63223,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -62041,8 +63233,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -62055,33 +63249,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 398
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG16_08_02
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id017
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -62104,13 +63306,14 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -62120,10 +63323,10 @@
     LVCB: 4
     LVPA: 16
     LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 16384
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -62133,38 +63336,47 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -62172,6 +63384,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -62181,6 +63394,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -62190,8 +63404,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -62204,33 +63420,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 399
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG16_08_02
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id017
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -62244,76 +63468,86 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -62321,6 +63555,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -62330,6 +63565,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -62339,8 +63575,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -62353,33 +63591,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 400
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -62392,9 +63638,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -62402,74 +63648,83 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -62479,6 +63734,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -62488,8 +63744,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -62502,33 +63760,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 401
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -62541,9 +63809,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -62551,67 +63819,75 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
+    LVCB: 8
     LVPA: 16
     LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -62619,6 +63895,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -62628,6 +63905,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -62637,8 +63915,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -62651,123 +63931,142 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 402
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG16_08_02
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id017
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 64
-    LVCA: 2
-    LVCB: 2
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
-    LdcEqualsLdd: false
+    LdcEqualsLdd: true
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1536
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 12
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -62777,6 +64076,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -62786,8 +64086,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -62800,116 +64102,134 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 403
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 64
-    LVCA: 2
-    LVCB: 2
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
-    LdcEqualsLdd: false
+    LdcEqualsLdd: true
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1536
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 12
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -62917,6 +64237,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -62926,6 +64247,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -62935,8 +64257,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -62949,116 +64273,134 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 404
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 64
-    LVCA: 2
-    LVCB: 2
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
-    LdcEqualsLdd: false
+    LdcEqualsLdd: true
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1536
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 12
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -63066,6 +64408,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -63075,6 +64418,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -63084,8 +64428,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -63098,46 +64444,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 405
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -63147,74 +64503,83 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
     LSPB: 64
-    LVCA: 2
-    LVCB: 2
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
-    LdcEqualsLdd: false
+    LdcEqualsLdd: true
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1536
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 12
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -63224,6 +64589,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -63233,8 +64599,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -63247,46 +64615,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 406
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id014
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -63296,36 +64674,37 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -63333,37 +64712,45 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -63373,6 +64760,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -63382,8 +64770,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -63396,46 +64786,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 407
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -63445,67 +64845,75 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -63513,6 +64921,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -63522,6 +64931,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -63531,8 +64941,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -63545,46 +64957,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 408
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -63594,26 +65016,27 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
     LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -63623,38 +65046,45 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -63662,6 +65092,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -63671,6 +65102,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -63680,8 +65112,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -63694,39 +65128,49 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 409
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -63734,7 +65178,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -63743,30 +65187,31 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
-    LSPB: 32
+    LSPB: 64
     LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 13312
-    LdsNumElementsAlignedA: 4096
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -63779,31 +65224,40 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -63811,6 +65265,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -63820,6 +65275,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -63829,8 +65285,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -63843,39 +65301,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 410
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG16_08_02
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 8
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id017
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -63883,7 +65349,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -63892,36 +65358,37 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
-    LSPB: 32
+    LSPB: 64
     LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -63930,18 +65397,20 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -63949,10 +65418,17 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -63960,6 +65436,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -63969,6 +65446,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -63978,8 +65456,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -63992,39 +65472,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 411
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG8_16_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -64033,7 +65521,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -64041,36 +65529,37 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
     LSPB: 32
-    LVCA: 8
+    LVCA: 4
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -64085,23 +65574,32 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -64109,6 +65607,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -64118,6 +65617,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -64127,8 +65627,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -64141,39 +65643,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 412
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
-    SubGroup0: 8
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id013
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -64181,45 +65691,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -64234,30 +65745,40 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -64267,6 +65788,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -64276,53 +65798,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 413
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR0_TT4_4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -64330,76 +65863,86 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -64407,6 +65950,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -64416,6 +65960,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -64425,53 +65970,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 414
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG16_08_02
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id017
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -64480,7 +66036,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -64488,36 +66044,37 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
-    LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -64525,30 +66082,39 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -64556,6 +66122,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -64565,6 +66132,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -64574,53 +66142,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 415
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x32_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG16_04_04
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id020
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -64628,8 +66207,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -64637,43 +66216,44 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -64681,23 +66261,32 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -64705,6 +66294,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -64714,6 +66304,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -64723,53 +66314,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 416
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -64777,8 +66379,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -64786,36 +66388,37 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -64823,19 +66426,21 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -64843,10 +66448,17 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -64854,6 +66466,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -64863,6 +66476,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -64872,59 +66486,70 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 417
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -64935,56 +66560,55 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -64992,17 +66616,25 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -65012,6 +66644,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -65021,53 +66654,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 418
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_GSU1_LPA0_LPB0_PGR0_PLR1_TT4_4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -65084,67 +66728,77 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -65152,6 +66806,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -65161,6 +66816,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -65170,53 +66826,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 419
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU04_SNLL0_TT08_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 8
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -65233,36 +66900,37 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -65271,29 +66939,38 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -65301,6 +66978,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -65310,6 +66988,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -65319,93 +66998,105 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 420
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG16_08_02
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id017
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -65418,7 +67109,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -65426,30 +67117,38 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -65459,6 +67158,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -65468,93 +67168,107 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 421
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR0_TT4_4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022 
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021 
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -65567,31 +67281,38 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -65599,6 +67320,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -65608,6 +67330,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -65617,60 +67340,73 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 422
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id023 
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -65683,27 +67419,24 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -65716,38 +67449,46 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -65757,6 +67498,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -65766,49 +67508,62 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 423
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT096x128x16_GRVW02_GSU01_SNLL0_TT06_08_VW02_WG16_16_01
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS0_FL1_GRVW2_GSU1_LPA0_LPB0_PGR0_PLR1_TT4_4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: [6, 8]
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id021
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -65818,8 +67573,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -65833,10 +67588,11 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 64
@@ -65845,14 +67601,14 @@
     LVCB: 4
     LVPA: 16
     LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -65866,37 +67622,45 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -65906,6 +67670,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -65915,62 +67680,75 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 424
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR0_TT4_4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id024 
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -65982,26 +67760,27 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -66014,7 +67793,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -66022,23 +67801,30 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -66046,6 +67832,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -66055,6 +67842,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -66064,62 +67852,75 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 425
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -66131,26 +67932,27 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -66163,31 +67965,38 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -66195,6 +68004,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -66204,6 +68014,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -66213,62 +68024,56954 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 426
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id023
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 427
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_GSU1_LPA0_LPB0_PGR0_PLR1_TT4_4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 96
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 24
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 428
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT6_4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 96
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 24
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 429
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT6_4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 430
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 128
+    LVCA: 4
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 431
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 128
+    LVCA: 4
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 432
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 128
+    LVCA: 4
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 433
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 434
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 435
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR0_TT8_4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 436
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 437
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1536
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 438
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS0_FL1_GRVW4_GSU1_LPA0_LPB0_PGR0_PLR1_TT8_4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 439
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 440
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR0_TT8_8_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 441
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_8_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 442
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 443
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_2_WG8_16_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 444
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 445
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 446
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 447
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 448
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 449
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_FL0_GRVW1_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 450
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 451
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 452
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 453
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 454
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 455
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 456
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 457
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 1152
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 458
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x16_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 1152
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 459
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 1152
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 460
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 461
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 462
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 2176
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 64
+    MacroTileA: 8
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 463
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 464
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 465
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 466
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 467
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 468
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 469
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 470
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 471
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 472
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 473
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 474
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 475
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 476
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 477
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 478
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 479
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW2_GSU1_LPA4_LPB4_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3168
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 480
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA4_LPB4_PGR1_PLR0_TT4_4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 481
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT4_2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 482
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 483
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 484
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 128
+    LVCA: 4
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 4
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 485
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA4_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 486
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT8_4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 487
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_GSU1_LPA4_LPB4_PGR1_PLR1_TT4_4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 488
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_GSU1_LPA4_LPB4_PGR1_PLR1_TT4_4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3168
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 489
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS1_FL0_GRVW1_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 490
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 491
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 492
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 493
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 494
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 495
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 496
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR0_TT4_2_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 497
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW1_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 498
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPA2_LPB0_PGR1_PLR1_TT2_2_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 499
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 500
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 501
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 502
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW1_GSU8_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 503
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 504
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 505
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW4_GSU8_LPA2_LPB2_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 506
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU8_LPA2_LPB2_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 507
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU4_LPA0_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 508
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 509
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG4_16_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 510
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG4_16_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 511
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 512
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 513
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3200
+    LdsOffsetA: 0
+    LdsOffsetB: 2112
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 514
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 515
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT8_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 516
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA4_LPB4_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 517
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 518
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2304
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 519
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x32_GRVW02_GSU32_SNLL0_TT04_02_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id002 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 520
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x32_GRVW04_GSU32_SNLL0_TT04_04_VW04_WG16_02_08
+    SubGroup0: 16
+    SubGroup1: 2
+    SubGroupA: 16
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 2, 8]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 64
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 5120
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 521
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x64_GRVW04_GSU32_SNLL0_TT04_04_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id002
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 64
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 13312
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 522
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x64_GRVW04_GSU32_SNLL0_TT04_04_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id002
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 12
+    LSPB: 12
+    LVCA: 16
+    LVCB: 16
+    LVPA: 12
+    LVPB: 12
+    LdcEqualsLdd: false
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 36
+    MacroTile1: 48
+    MacroTileA: 36
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 9
+    NumGlobalWriteVectorsPerThread: 9
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 4
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 523
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT036x048x16_GRVW01_GSU02_SNLL0_TT03_03_VW01_WG12_16_01
+    SubGroup0: 12
+    SubGroup1: 16
+    SubGroupA: 12
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id004 
+    ThreadTile0: 3
+    ThreadTile1: 3
+    ThreadTileA: 3
+    ThreadTileB: 3
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [12, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 12
+    LSPB: 12
+    LVCA: 16
+    LVCB: 16
+    LVPA: 12
+    LVPB: 12
+    LdcEqualsLdd: false
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 48
+    MacroTile1: 36
+    MacroTileA: 48
+    MacroTileB: 36
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 9
+    NumGlobalWriteVectorsPerThread: 9
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 524
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT048x036x16_GRVW01_GSU08_SNLL0_TT06_03_VW01_WG08_12_02
+    SubGroup0: 8
+    SubGroup1: 12
+    SubGroupA: 8
+    SubGroupB: 12
+    SuppresssNoLoadLoop: false
+    ThreadTile: [6, 3]
+    ThreadTile0: 6
+    ThreadTile1: 3
+    ThreadTileA: 6
+    ThreadTileB: 3
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: *id003 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 24
+    LSPB: 24
+    LVCA: 8
+    LVCB: 8
+    LVPA: 12
+    LVPB: 12
+    LdcEqualsLdd: false
+    LdsNumElements: 4608
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 48
+    MacroTile1: 48
+    MacroTileA: 48
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 12
+    NumGlobalWriteVectorsPerThread: 6
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 525
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT048x048x16_GRVW02_GSU08_SNLL0_TT06_04_VW02_WG08_12_02
+    SubGroup0: 8
+    SubGroup1: 12
+    SubGroupA: 8
+    SubGroupB: 12
+    SuppresssNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id003
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 48
+    MacroTile1: 48
+    MacroTileA: 48
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 9
+    NumGlobalWriteVectorsPerThread: 9
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 526
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT048x048x16_GRVW01_GSU08_SNLL0_TT03_03_VW01_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id004
+    ThreadTile0: 3
+    ThreadTile1: 3
+    ThreadTileA: 3
+    ThreadTileB: 3
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 16
+    LSPB: 8
+    LVCA: 4
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 832
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 527
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005 
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id009 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 16
+    LSPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 528
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id006 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 16
+    LSPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 529
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010 
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id006
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 530
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id007 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id006
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 16
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 531
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 16
+    LSPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 532
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id006
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 533
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id007
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id006
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 16
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 534
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 535
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 536
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id009
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 537
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id006
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 538
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id006
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 539
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id007
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id006
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 540
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 541
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 542
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id007
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id008
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 543
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 544
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id009
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 545
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 546
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id007
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id008
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 547
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id013 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 548
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015 
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id014 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 549
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU08_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 550
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id016 
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 551
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 552
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018 
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 553
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 554
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id016
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 555
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id017 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 556
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id016
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id017
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 557
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id019 
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id017
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 558
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id016
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id014
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 559
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 560
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 561
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 562
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id016
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 563
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id017
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 564
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id017
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 565
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id020 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 566
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 567
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU04_SNLL0_TT08_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 568
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 569
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id016
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 570
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id017
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 571
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id016
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id014
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 572
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 573
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU04_SNLL0_TT08_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 574
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 575
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id016
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 576
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id017
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 577
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id017
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 578
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 579
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 580
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id017
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 24
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 2
+    LVCB: 2
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1536
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 12
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 581
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 24
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 2
+    LVCB: 2
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1536
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 12
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 582
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 24
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 2
+    LVCB: 2
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1536
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 12
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 583
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 24
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 2
+    LVCB: 2
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1536
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 12
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 584
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 585
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 586
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 587
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 13312
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 588
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id017
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 589
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id013
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 590
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id013
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 591
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id013
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 592
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id017
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 593
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x32_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id020
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 594
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 595
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 596
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id013
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 597
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU04_SNLL0_TT08_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id013
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 598
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id017
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 599
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id021 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 600
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id023 
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id021
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 601
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT096x128x16_GRVW02_GSU01_SNLL0_TT06_08_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: [6, 8]
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id021
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 602
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id024 
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id021
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 603
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id021
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 604
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id023
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id021
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 605
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id024
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id021
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 606
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id021
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 607
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id021
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 608
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025 
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 609
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 610
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id027 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 611
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id028 
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 612
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id029 
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id026
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 613
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id030 
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1536
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 96
+    MacroTileA: 128
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 614
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id031 
+    ThreadTile0: 8
+    ThreadTile1: 6
+    ThreadTileA: 8
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id026
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 615
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 616
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id027
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 617
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id028
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 618
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id029
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id026
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 619
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id030
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1536
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 96
+    MacroTileA: 128
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 620
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id031
+    ThreadTile0: 8
+    ThreadTile1: 6
+    ThreadTileA: 8
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id026
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 621
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 24
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 3072
+    LdsNumElementsAlignedB: 3072
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 3072
+    LdsOffsetB_Blk: 11264
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 24
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 622
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x24_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 24
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 3072
+    LdsNumElementsAlignedB: 3072
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 3072
+    LdsOffsetB_Blk: 11264
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 24
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 623
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x24_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 624
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id027
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 4096
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 625
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x32_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id028
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 4096
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 626
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x32_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 627
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id027
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 4096
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 628
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x32_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id028
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 4096
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 629
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x32_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 4
+    LSCB: 4
+    LSPA: 16
+    LSPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 630
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x04_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id032 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 2
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 2
+    LSCB: 2
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 631
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x02_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id032
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 632
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU01_SNLL1_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id033 
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id035 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 633
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id033
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id034 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 634
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id033
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id034
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 635
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id033
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id034
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 636
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id033
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id034
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 637
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id033
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id035
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 1
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 638
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW01_GSU04_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_08_02_WGM01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    ThreadTile: *id036 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: *id038 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 1
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 639
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW01_GSU04_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_04_04_WGM01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    ThreadTile: *id036
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: *id037 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6752
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 1
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 640
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x32_GRVW01_GSU08_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_04_04_WGM01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    ThreadTile: *id036
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: *id037
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6752
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 1
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 641
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x32_GRVW01_GSU08_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_04_04_WGM08
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    ThreadTile: *id036
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: *id037
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 642
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW01_GSU01_LPA02_LPB02_PGR1_PLR1_TT04_08_USFGRO01_VW02_WG16_04_04_WGM01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    ThreadTile: *id039 
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id037
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 643
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x32_GRVW01_GSU08_LPA02_LPB02_PGR1_PLR1_TT02_02_USFGRO01_VW02_WG16_04_04_WGM01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id037
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 644
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW01_GSU01_LPA04_LPB04_PGR1_PLR1_TT04_04_USFGRO01_VW04_WG16_08_02_WGM01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    ThreadTile: *id036
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id038
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 645
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW01_GSU01_LPA04_LPB04_PGR1_PLR1_TT04_08_USFGRO01_VW04_WG32_08_01_WGM01
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    ThreadTile: *id039
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id040 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 646
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_LPA04_LPB04_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG32_08_01_WGM01
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    ThreadTile: *id039
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id040
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 647
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 648
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 649
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 650
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT8_8_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 651
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 652
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT8_8_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 653
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 654
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 4608
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 655
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 656
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 32
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 657
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x8_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 658
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 659
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 660
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3072
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 661
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS0_GSU1_LPA0_LPB0_PGR0_SNLL0_TT4_8_VW4_WG32_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 662
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 663
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 664
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 2
+    LVCB: 2
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 665
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_EPS1_GSU1_LPA2_LPB0_PGR1_SNLL1_TT4_8_VW2_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 666
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6720
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 667
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU3_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 668
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1600
+    LdsOffsetA: 0
+    LdsOffsetB: 1088
+    LdsPadA: 2
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 669
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS0_GSU1_LPA2_LPB0_PGR0_SNLL0_TT4_4_VW2_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2112
+    LdsOffsetA: 0
+    LdsOffsetB: 1088
+    LdsPadA: 2
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 670
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS0_GSU1_LPA2_LPB0_PGR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 671
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 672
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6720
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 673
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA2_LPB0_PGR1_SNLL1_TT4_4_VW2_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 674
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 6720
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 256
+    MacroTile1: 64
+    MacroTileA: 256
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 675
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT256x64x8_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT8_8_VW4_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 676
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 677
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA4_LPB0_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 678
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 679
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3136
+    LdsOffsetA: 0
+    LdsOffsetB: 2112
+    LdsPadA: 4
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 680
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS0_GSU1_LPA4_LPB0_PGR0_SNLL0_TT4_8_VW4_WG32_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 681
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 682
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2624
+    LdsOffsetA: 0
+    LdsOffsetB: 2112
+    LdsPadA: 4
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 683
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS0_GSU1_LPA4_LPB0_PGR0_SNLL0_TT4_4_VW4_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 684
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA4_LPB0_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 13440
+    LdsNumElementsAlignedA: 1152
+    LdsNumElementsAlignedB: 4096
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1152
+    LdsOffsetB_Blk: 9344
+    LdsPadA: 4
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 685
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 3600
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 686
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_EPS1_GSU1_LPA0_LPB2_PGR1_SNLL1_TT8_4_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 687
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6176
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 688
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6176
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 689
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 690
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 691
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 692
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3136
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 693
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS0_GSU1_LPA0_LPB4_PGR0_SNLL0_TT8_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 694
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 695
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 696
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 13376
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 4160
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 9216
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 256
+    MacroTileA: 64
+    MacroTileB: 256
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 697
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x256x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT8_8_VW4_WG8_32_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 698
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2624
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 699
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS0_GSU1_LPA0_LPB4_PGR0_SNLL0_TT4_4_VW4_WG32_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 700
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 701
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 702
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 12864
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 4160
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 8704
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 256
+    MacroTileA: 32
+    MacroTileB: 256
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 703
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x256x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG8_32_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 704
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 705
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 706
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 707
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 13440
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 4224
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 9216
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 708
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG8_32_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 13440
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 4224
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 9216
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 709
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 32
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3408
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 710
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x8_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 711
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6752
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 4672
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 712
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 713
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 714
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6752
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 715
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 716
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2144
+    LdsOffsetA: 0
+    LdsOffsetB: 1088
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 717
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS0_GSU5_LPA2_LPB2_PGR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 718
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 719
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 720
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 721
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 722
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 723
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT8_4_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 724
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG8_32_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6752
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 4672
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 725
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 726
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG8_32_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 727
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 728
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 729
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 730
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_8_VW2_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 731
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 732
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 733
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 734
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 13440
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 4160
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 9280
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 735
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 14464
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 4160
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 10304
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 736
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x32_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT8_4_VW2_WG8_32_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 12416
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 10304
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 737
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 32
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3424
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 738
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x8_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 739
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 740
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 4672
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 741
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 742
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 743
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 744
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 745
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4736
+    LdsOffsetA: 0
+    LdsOffsetB: 4160
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 256
+    MacroTile1: 32
+    MacroTileA: 256
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 746
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT256x32x16_EPS0_GSU1_LPA4_LPB4_PGR0_SNLL0_TT8_4_VW4_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 747
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU3_LPA4_LPB4_PGR1_SNLL0_TT8_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 748
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 749
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 750
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 751
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 752
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 12416
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 10304
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 753
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2688
+    LdsOffsetA: 0
+    LdsOffsetB: 2112
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 754
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS0_GSU1_LPA4_LPB4_PGR0_SNLL0_TT4_4_VW4_WG32_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 755
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 756
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 757
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 758
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 4672
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 759
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 760
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 761
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 762
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 763
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 12416
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 10304
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 764
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 765
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 766
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 4672
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 767
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG8_32_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 13568
+    LdsNumElementsAlignedA: 1152
+    LdsNumElementsAlignedB: 4224
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1152
+    LdsOffsetB_Blk: 9344
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 768
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 12544
+    LdsNumElementsAlignedA: 2176
+    LdsNumElementsAlignedB: 2176
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2176
+    LdsOffsetB_Blk: 10368
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 769
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 13568
+    LdsNumElementsAlignedA: 1152
+    LdsNumElementsAlignedB: 4224
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1152
+    LdsOffsetB_Blk: 9344
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 770
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG8_32_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 12544
+    LdsNumElementsAlignedA: 2176
+    LdsNumElementsAlignedB: 2176
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2176
+    LdsOffsetB_Blk: 10368
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 771
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 14592
+    LdsNumElementsAlignedA: 2176
+    LdsNumElementsAlignedB: 4224
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2176
+    LdsOffsetB_Blk: 10368
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 772
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 12544
+    LdsNumElementsAlignedA: 2176
+    LdsNumElementsAlignedB: 2176
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2176
+    LdsOffsetB_Blk: 10368
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 773
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 14592
+    LdsNumElementsAlignedA: 2176
+    LdsNumElementsAlignedB: 4224
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2176
+    LdsOffsetB_Blk: 10368
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 774
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 775
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 776
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 777
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 778
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW2_WG8_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 4
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 779
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW2_WG4_4_8_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 780
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 781
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM16
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 16
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 782
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW2_WG8_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -66279,44 +124982,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -66324,15 +125027,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -66353,6 +125059,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -66362,6 +125069,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -66376,35 +125084,45 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 427
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id024
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 783
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -66414,8 +125132,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -66425,47 +125143,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -66473,15 +125191,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -66502,6 +125223,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -66511,6 +125233,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -66525,48 +125248,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 428
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
-    ThreadTile0: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 784
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x32_SE_EPS1_GSU8_PGR1_SNLL0_TT8_4_VW2_WG4_4_8_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -66578,43 +125311,43 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 32
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
     LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPB: 8
+    LVCA: 2
+    LVCB: 4
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -66622,15 +125355,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -66651,6 +125387,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -66660,6 +125397,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -66674,33 +125412,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 429
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 785
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_2_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 2
+    SubGroupA: 8
+    SubGroupB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    WorkGroup: [8, 2, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -66713,9 +125461,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -66727,22 +125475,22 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
     LSPA: 128
-    LSPB: 128
+    LSPB: 64
     LVCA: 2
-    LVCB: 2
+    LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -66761,9 +125509,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -66771,15 +125519,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -66800,6 +125551,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -66809,6 +125561,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -66823,33 +125576,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 430
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 786
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025 
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026 
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -66862,7 +125625,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -66876,26 +125639,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 128
-    LSPB: 128
+    LSPA: 32
+    LSPB: 32
     LVCA: 2
     LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -66909,10 +125672,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -66920,15 +125683,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -66949,6 +125715,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -66958,6 +125725,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -66972,33 +125740,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 431
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 787
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -67011,7 +125789,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -67025,43 +125803,43 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 16
+    LSPB: 16
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -67069,15 +125847,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -67098,6 +125879,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -67107,6 +125889,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -67121,33 +125904,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 432
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id027 
-    ThreadTile0: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 788
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG2_8_4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 2
+    SubGroup1: 8
+    SubGroupA: 2
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [2, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -67159,8 +125952,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -67174,8 +125967,8 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
@@ -67187,13 +125980,9 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -67208,9 +125997,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -67218,20 +126007,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -67247,6 +126039,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -67256,6 +126049,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -67270,96 +126064,106 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 433
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 789
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id028 
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 8
     LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -67367,15 +126171,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -67396,6 +126203,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -67405,6 +126213,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -67419,48 +126228,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 434
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id029 
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 790
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x16x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG4_4_8_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
+    VectorWidth: 4
+    WorkGroup: [4, 4, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -67472,43 +126291,43 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 8
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -67516,15 +126335,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -67545,6 +126367,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -67554,6 +126377,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -67568,79 +126392,89 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 435
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id030 
-    ThreadTile0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 791
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_2_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 2
+    SubGroupA: 8
+    SubGroupB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    WorkGroup: [8, 2, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 32
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -67653,11 +126487,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 96
-    MacroTileA: 128
-    MacroTileB: 96
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -67665,15 +126499,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 3
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -67694,6 +126531,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -67703,6 +126541,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -67717,46 +126556,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 436
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id031 
-    ThreadTile0: 8
-    ThreadTile1: 6
-    ThreadTileA: 8
-    ThreadTileB: 6
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 792
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -67766,47 +126615,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -67814,15 +126663,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -67843,6 +126695,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -67852,6 +126705,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -67866,33 +126720,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 437
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 793
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x16x32_SE_EPS1_GSU8_PGR1_SNLL0_TT4_4_VW4_WG4_4_8_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -67905,7 +126769,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -67919,8 +126783,8 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
@@ -67965,13 +126829,16 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -67992,6 +126859,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -68001,6 +126869,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -68015,46 +126884,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 438
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 794
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id027
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -68068,26 +126947,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -68100,11 +126979,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -68112,15 +126991,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -68141,6 +127023,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -68150,6 +127033,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -68164,33 +127048,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 439
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id028
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 795
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -68203,57 +127097,57 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -68261,15 +127155,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -68290,6 +127187,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -68299,6 +127197,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -68313,33 +127212,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 440
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id029
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 796
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG2_8_4_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 2
+    SubGroup1: 8
+    SubGroupA: 2
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [2, 8, 4]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -68352,9 +127261,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -68366,43 +127275,43 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 16
     LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -68410,15 +127319,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -68439,6 +127351,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -68448,6 +127361,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -68462,96 +127376,106 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 441
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id030
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 797
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG4_4_8_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 8
     LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 96
-    MacroTileA: 128
-    MacroTileB: 96
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -68559,15 +127483,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 3
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -68588,6 +127515,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -68597,6 +127525,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -68611,33 +127540,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 442
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id031
-    ThreadTile0: 8
-    ThreadTile1: 6
-    ThreadTileA: 8
-    ThreadTileB: 6
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 798
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x16x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG4_4_8_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -68650,7 +127589,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -68663,9 +127602,9 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
@@ -68707,16 +127646,19 @@
     MinGlobalWriteVectorWidth: 1
     NonTemporalA: 0
     NonTemporalB: 0
-    NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -68728,6 +127670,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -68737,6 +127680,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -68746,6 +127690,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -68760,39 +127705,49 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 443
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 799
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -68812,27 +127767,27 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 128
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 3072
-    LdsNumElementsAlignedB: 3072
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 3072
-    LdsOffsetB_Blk: 11264
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -68845,7 +127800,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
+    LoopUnroll: 16
     MacroTile0: 128
     MacroTile1: 128
     MacroTileA: 128
@@ -68858,14 +127813,19 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -68877,6 +127837,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -68886,6 +127847,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -68895,6 +127857,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -68909,39 +127872,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 444
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x24_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 800
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -68961,27 +127932,27 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 128
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 3072
-    LdsNumElementsAlignedB: 3072
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 3072
-    LdsOffsetB_Blk: 11264
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -68994,7 +127965,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
+    LoopUnroll: 16
     MacroTile0: 128
     MacroTile1: 128
     MacroTileA: 128
@@ -69007,14 +127978,19 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -69026,6 +128002,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -69035,6 +128012,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -69044,6 +128022,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -69058,46 +128037,54 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 445
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x24_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 801
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -69110,19 +128097,19 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
@@ -69143,11 +128130,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -69155,15 +128142,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -69175,6 +128165,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -69184,6 +128175,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -69193,6 +128185,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -69207,46 +128200,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 446
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 802
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id027
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -69259,27 +128262,27 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 4096
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -69292,10 +128295,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -69304,15 +128307,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -69324,6 +128330,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -69333,6 +128340,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -69342,6 +128350,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -69356,39 +128365,49 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 447
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x32_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 803
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id028
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -69409,26 +128428,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 4096
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -69441,7 +128460,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 128
     MacroTile1: 128
     MacroTileA: 128
@@ -69455,13 +128474,18 @@
     NonTemporalC: 0
     NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -69473,6 +128497,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -69482,6 +128507,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -69491,6 +128517,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -69505,39 +128532,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 448
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x32_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 804
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -69558,18 +128593,18 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
@@ -69590,11 +128625,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -69602,8 +128637,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -69611,6 +128646,11 @@
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -69622,6 +128662,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -69631,6 +128672,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -69640,6 +128682,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -69654,46 +128697,54 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 449
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 805
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id027
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -69707,26 +128758,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 4096
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -69739,10 +128790,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -69751,15 +128802,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -69771,6 +128825,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -69780,6 +128835,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -69789,6 +128845,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -69803,46 +128860,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 450
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x32_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 806
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id028
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -69856,26 +128923,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 4096
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -69888,7 +128955,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 128
     MacroTile1: 128
     MacroTileA: 128
@@ -69902,13 +128969,16 @@
     NonTemporalC: 0
     NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -69920,6 +128990,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -69929,6 +129000,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -69938,6 +129010,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -69952,79 +129025,89 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 451
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x32_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 807
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 4
-    LSCB: 4
-    LSPA: 16
-    LSPB: 16
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -70037,11 +129120,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70049,15 +129132,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -70069,6 +129157,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -70078,6 +129167,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -70087,6 +129177,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -70101,48 +129192,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 452
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x04_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 808
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id032 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 2
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -70157,23 +129256,23 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 2
-    LSCB: 2
-    LSPA: 32
-    LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -70186,11 +129285,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70198,15 +129297,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -70218,6 +129322,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -70227,6 +129332,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -70236,6 +129342,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -70250,33 +129357,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 453
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x02_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 809
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id032
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -70289,57 +129404,57 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70347,15 +129462,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -70367,6 +129485,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -70376,6 +129495,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -70385,6 +129505,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -70399,96 +129520,106 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 454
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU01_SNLL1_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 810
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id035 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70496,15 +129627,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -70516,6 +129650,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -70525,6 +129660,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -70534,6 +129670,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -70548,39 +129685,49 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 455
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 811
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id034 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -70588,8 +129735,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -70597,47 +129744,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
-    LSPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70645,15 +129792,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -70665,6 +129817,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -70674,6 +129827,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -70683,6 +129837,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -70697,39 +129852,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 456
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 812
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id034
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -70737,8 +129900,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -70746,47 +129909,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
-    LSPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70794,15 +129957,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -70814,6 +129982,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -70823,6 +129992,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -70832,6 +130002,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -70846,48 +130017,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 457
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 813
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id034
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -70895,47 +130074,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
-    LSPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70943,15 +130122,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -70963,6 +130145,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -70972,6 +130155,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -70981,6 +130165,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -70995,33 +130180,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 458
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 814
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id034
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -71034,9 +130229,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -71044,47 +130239,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -71092,15 +130287,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -71112,6 +130310,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -71121,6 +130320,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -71130,6 +130330,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -71141,35 +130342,46 @@
       TileB: 1
       TotalIndices: 4
       TransposeA: true
-      TransposeB: false
-      UseBeta: true
-      UseInitialStrides: false
-    SolutionIndex: 459
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 815
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id035
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: false
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -71181,57 +130393,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7200
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -71239,13 +130452,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -71257,6 +130475,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -71266,6 +130485,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -71275,6 +130495,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -71289,33 +130510,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 460
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW01_GSU04_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_08_02_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 816
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    ThreadTile: *id036 
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id038 
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -71327,7 +130558,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -71337,10 +130569,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 1
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -71354,30 +130586,30 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7264
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -71385,13 +130617,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 8
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -71403,6 +130642,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -71412,6 +130652,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -71421,6 +130662,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -71435,45 +130677,54 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 461
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW01_GSU04_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_04_04_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 817
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW1_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    ThreadTile: *id036
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id037 
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -71483,47 +130734,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6752
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -71531,13 +130782,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 8
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -71549,6 +130807,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -71558,6 +130817,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -71567,6 +130827,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -71581,45 +130842,54 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 462
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x32_GRVW01_GSU08_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_04_04_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 818
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    ThreadTile: *id036
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id037
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -71629,47 +130899,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6752
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -71677,13 +130947,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 8
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -71695,6 +130972,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -71704,6 +130982,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -71713,6 +130992,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -71727,54 +131007,63 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 463
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x32_GRVW01_GSU08_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_04_04_WGM08
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 819
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    ThreadTile: *id036
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id037
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -71783,39 +131072,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -71823,13 +131112,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 4
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -71841,6 +131137,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -71850,6 +131147,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -71859,6 +131157,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -71873,95 +131172,104 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 464
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW01_GSU01_LPA02_LPB02_PGR1_PLR1_TT04_08_USFGRO01_VW02_WG16_04_04_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 820
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    ThreadTile: *id039 
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id037
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3456
+    LdsNumElements: 7264
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetB_Blk: 5184
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -71969,13 +131277,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -71987,6 +131302,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -71996,6 +131312,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -72005,6 +131322,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -72019,33 +131337,41 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 465
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x32_GRVW01_GSU08_LPA02_LPB02_PGR1_PLR1_TT02_02_USFGRO01_VW02_WG16_04_04_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 821
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id037
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -72057,57 +131383,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7264
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72115,13 +131442,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -72133,6 +131465,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -72142,6 +131475,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -72151,6 +131485,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -72165,33 +131500,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 466
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW01_GSU01_LPA04_LPB04_PGR1_PLR1_TT04_04_USFGRO01_VW04_WG16_08_02_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 822
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    ThreadTile: *id036
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id038
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -72203,42 +131548,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -72250,10 +131596,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72262,12 +131608,17 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 4
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -72279,6 +131630,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -72288,6 +131640,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -72297,6 +131650,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -72311,13 +131665,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 467
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW01_GSU01_LPA04_LPB04_PGR1_PLR1_TT04_08_USFGRO01_VW04_WG32_08_01_WGM01
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    ThreadTile: *id039
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 823
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -72327,17 +131689,19 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id040 
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -72349,40 +131713,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -72396,10 +131761,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72409,11 +131774,18 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -72425,6 +131797,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -72434,6 +131807,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -72443,6 +131817,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -72457,28 +131832,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 468
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_LPA04_LPB04_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG32_08_01_WGM01
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    ThreadTile: *id039
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 824
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id040
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -72497,42 +131879,42 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -72544,9 +131926,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -72555,12 +131937,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -72578,6 +131962,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -72587,6 +131972,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -72596,6 +131982,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -72614,8 +132001,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 469
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 825
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -72624,23 +132011,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -72660,19 +132045,19 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -72681,20 +132066,20 @@
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -72707,9 +132092,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72717,13 +132102,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -72740,6 +132125,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -72749,6 +132135,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -72758,6 +132145,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -72776,28 +132164,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 470
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    SolutionIndex: 826
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -72822,41 +132210,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -72869,9 +132257,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72879,12 +132267,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -72902,6 +132290,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -72911,6 +132300,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -72920,6 +132310,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -72938,8 +132329,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 471
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 827
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -72947,18 +132338,18 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -72983,42 +132374,42 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -73031,9 +132422,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -73041,11 +132432,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -73064,6 +132457,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -73073,6 +132467,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -73082,6 +132477,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -73100,8 +132496,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 472
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 828
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -73109,24 +132505,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -73145,42 +132539,42 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -73192,9 +132586,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -73203,12 +132597,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -73226,6 +132622,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -73235,6 +132632,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -73244,6 +132642,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -73262,8 +132661,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 473
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 829
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -73271,24 +132670,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -73308,41 +132705,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -73355,9 +132752,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -73365,11 +132762,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -73388,6 +132785,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -73397,6 +132795,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -73406,6 +132805,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -73424,8 +132824,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 474
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 830
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -73433,18 +132833,18 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -73469,42 +132869,42 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -73516,9 +132916,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -73527,12 +132927,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -73550,6 +132952,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -73559,6 +132962,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -73568,6 +132972,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -73586,8 +132991,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 475
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 831
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -73595,24 +133000,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -73632,41 +133035,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -73678,9 +133081,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -73689,12 +133092,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -73712,6 +133115,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -73721,6 +133125,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -73730,6 +133135,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -73748,8 +133154,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 476
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 832
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -73757,20 +133163,20 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -73793,8 +133199,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -73803,32 +133209,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 64
-    LVCA: 8
+    LVCA: 4
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 4608
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -73840,9 +133246,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -73851,8 +133257,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -73874,6 +133282,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -73883,6 +133292,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -73892,6 +133302,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -73910,33 +133321,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 477
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM64
+    SolutionIndex: 833
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -73965,10 +133374,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -73982,15 +133391,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -74003,9 +133412,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -74013,12 +133422,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -74036,6 +133445,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -74045,6 +133455,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -74054,6 +133465,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -74072,8 +133484,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 478
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 834
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -74081,20 +133493,20 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -74110,16 +133522,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -74130,28 +133542,24 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
     LSPB: 32
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -74163,10 +133571,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -74175,13 +133583,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -74191,13 +133599,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -74207,6 +133616,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -74216,6 +133626,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -74234,31 +133645,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 479
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x8_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM1
+    SolutionIndex: 835
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB0_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -74278,43 +133689,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -74326,10 +133733,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -74337,13 +133744,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -74353,13 +133762,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -74369,6 +133779,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -74378,6 +133789,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -74396,33 +133808,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 480
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 836
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW1_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -74440,43 +133850,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -74488,10 +133894,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -74499,13 +133905,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -74515,13 +133923,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -74531,6 +133940,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -74540,6 +133950,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -74558,33 +133969,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 481
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 837
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW1_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -74602,8 +134011,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -74616,7 +134025,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -74630,15 +134039,11 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -74650,10 +134055,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -74661,12 +134066,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -74677,13 +134084,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -74693,6 +134101,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -74702,6 +134111,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -74720,8 +134130,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 482
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 838
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -74729,24 +134139,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -74778,7 +134186,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -74792,11 +134200,11 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 2128
     LdsOffsetA: 0
-    LdsOffsetB: 2048
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -74808,9 +134216,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -74819,11 +134227,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -74842,6 +134250,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -74851,6 +134260,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -74860,6 +134270,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -74878,29 +134289,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 483
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS0_GSU1_LPA0_LPB0_PGR0_SNLL0_TT4_8_VW4_WG32_8_1_WGM8
+    SolutionIndex: 839
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -74922,8 +134333,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -74936,7 +134347,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -74950,15 +134361,11 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -74970,9 +134377,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -74981,11 +134388,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PackBatchDims: 0
@@ -74997,13 +134406,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -75013,6 +134423,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -75022,6 +134433,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -75040,8 +134452,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 484
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM64
+    SolutionIndex: 840
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -75049,24 +134461,22 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -75084,7 +134494,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -75098,29 +134508,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -75132,10 +134538,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75143,13 +134549,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -75159,13 +134565,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -75175,6 +134582,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -75184,6 +134592,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -75202,29 +134611,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 485
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM64
+    SolutionIndex: 841
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -75246,8 +134655,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -75260,29 +134669,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -75294,10 +134699,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75305,13 +134710,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -75321,13 +134728,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -75337,6 +134745,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -75346,6 +134755,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -75364,33 +134774,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 486
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM64
+    SolutionIndex: 842
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 1
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -75402,13 +134810,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -75422,29 +134830,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 64
-    LVCA: 2
-    LVCB: 2
-    LVPA: 16
-    LVPB: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -75455,11 +134859,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75467,8 +134871,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -75483,13 +134887,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -75499,6 +134904,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -75508,6 +134914,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -75526,31 +134933,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 487
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_EPS1_GSU1_LPA2_LPB0_PGR1_SNLL1_TT4_8_VW2_WG16_8_1_WGM8
+    SolutionIndex: 843
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -75570,8 +134977,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -75581,32 +134988,28 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -75619,9 +135022,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75630,12 +135033,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -75645,13 +135050,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -75661,6 +135067,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -75670,6 +135077,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -75688,15 +135096,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 488
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    SolutionIndex: 844
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -75708,13 +135116,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -75732,10 +135138,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -75743,10 +135149,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -75754,21 +135160,17 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6720
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -75780,10 +135182,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75792,10 +135194,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -75807,13 +135209,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -75823,6 +135226,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -75832,6 +135236,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -75850,15 +135255,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 489
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU3_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG32_8_1_WGM1
+    SolutionIndex: 845
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -75870,9 +135275,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -75894,8 +135299,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -75905,32 +135310,28 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -75942,10 +135343,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75953,13 +135354,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -75969,13 +135372,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -75985,6 +135389,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -75994,6 +135399,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -76012,33 +135418,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 490
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 846
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -76070,7 +135474,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -76084,11 +135488,11 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1600
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -76100,9 +135504,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -76111,11 +135515,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PackBatchDims: 0
@@ -76134,6 +135538,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -76143,6 +135548,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -76152,6 +135558,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -76170,8 +135577,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 491
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS0_GSU1_LPA2_LPB0_PGR0_SNLL0_TT4_4_VW2_WG16_8_1_WGM8
+    SolutionIndex: 847
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -76180,17 +135587,17 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 1
     WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -76215,7 +135622,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -76228,25 +135635,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -76258,10 +135665,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -76269,13 +135676,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -76292,6 +135701,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -76301,6 +135711,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -76310,6 +135721,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -76328,33 +135740,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 492
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS0_GSU1_LPA2_LPB0_PGR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 848
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG8_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -76366,14 +135776,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -76383,32 +135793,28 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -76419,10 +135825,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 32
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -76431,12 +135837,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -76447,13 +135855,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -76463,6 +135872,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -76472,6 +135882,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -76490,8 +135901,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 493
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM8
+    SolutionIndex: 849
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -76500,23 +135911,21 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 1
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -76528,16 +135937,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -76545,32 +135954,28 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 64
-    LVCA: 4
+    LSPB: 32
+    LVCA: 2
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 864
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -76581,11 +135986,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -76594,12 +135999,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -76609,13 +136014,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -76625,6 +136031,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -76634,6 +136041,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -76652,15 +136060,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 494
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 850
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -76672,11 +136080,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -76696,10 +136104,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -76710,29 +136118,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 32
     LSPB: 32
     LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6720
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1664
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -76744,9 +136148,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -76756,12 +136160,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -76771,13 +136177,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -76787,6 +136194,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -76796,6 +136204,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -76814,16 +136223,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 495
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA2_LPB0_PGR1_SNLL1_TT4_4_VW2_WG32_8_1_WGM64
+    SolutionIndex: 851
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -76834,13 +136243,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -76858,7 +136265,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -76869,10 +136276,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -76886,15 +136293,11 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1664
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -76918,7 +136321,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -76933,13 +136336,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -76949,6 +136353,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -76958,6 +136363,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -76976,8 +136382,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 496
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM64
+    SolutionIndex: 852
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -76996,9 +136402,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -77014,16 +136420,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -77039,24 +136445,20 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 64
-    LVCA: 2
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6720
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1664
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetB: 576
     LdsPadA: 4
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -77067,10 +136469,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 256
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 256
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -77079,13 +136481,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -77095,13 +136497,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -77111,6 +136514,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -77120,6 +136524,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -77138,31 +136543,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 497
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT256x64x8_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT8_8_VW4_WG32_8_1_WGM1
+    SolutionIndex: 853
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -77176,13 +136581,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -77201,24 +136606,20 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 128
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1664
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
     LdsPadA: 4
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -77229,11 +136630,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -77241,13 +136642,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -77257,13 +136658,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -77273,6 +136675,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -77282,6 +136685,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -77300,37 +136704,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 498
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 854
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -77355,13 +136759,14 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -77372,14 +136777,14 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1088
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1536
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -77392,9 +136797,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -77403,11 +136808,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -77419,6 +136824,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -77426,6 +136832,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -77435,6 +136842,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -77444,6 +136852,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -77462,8 +136871,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 499
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA4_LPB0_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 855
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT6_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -77472,27 +136881,27 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangA: 32
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -77507,16 +136916,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -77524,24 +136933,25 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -77554,10 +136964,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -77565,12 +136975,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -77581,6 +136993,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -77588,6 +137001,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -77597,6 +137011,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -77606,6 +137021,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -77624,8 +137040,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 500
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 856
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -77633,12 +137049,12 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -77649,12 +137065,10 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -77669,7 +137083,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -77686,6 +137100,7 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -77696,14 +137111,14 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -77717,9 +137132,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -77727,12 +137142,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -77743,13 +137160,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -77759,6 +137178,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -77768,6 +137188,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -77786,8 +137207,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 501
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 857
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -77795,12 +137216,12 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -77811,12 +137232,10 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -77830,10 +137249,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -77844,40 +137263,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 2112
-    LdsPadA: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -77885,11 +137309,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -77901,13 +137325,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -77917,6 +137343,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -77926,6 +137353,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -77944,28 +137372,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 502
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS0_GSU1_LPA4_LPB0_PGR0_SNLL0_TT4_8_VW4_WG32_8_1_WGM8
+    SolutionIndex: 858
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -77974,7 +137402,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -77990,7 +137418,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -78006,39 +137434,40 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 16
     LSPB: 64
-    LVCA: 4
+    LVCA: 8
     LVCB: 4
-    LVPA: 16
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2112
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -78047,11 +137476,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -78063,6 +137492,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -78070,6 +137500,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -78079,6 +137510,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -78088,6 +137520,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -78106,28 +137539,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 503
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
+    SolutionIndex: 859
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -78136,7 +137569,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -78144,23 +137577,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -78168,24 +137601,25 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -78197,7 +137631,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -78211,11 +137645,14 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -78225,6 +137662,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -78232,6 +137670,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -78241,6 +137680,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -78250,6 +137690,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -78268,8 +137709,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 504
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 860
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -78277,7 +137718,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -78290,15 +137731,13 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -78306,15 +137745,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -78322,7 +137761,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -78330,21 +137769,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2624
+    LdsNumElements: 3168
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 2112
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
     LdsPadA: 4
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -78355,11 +137799,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -78369,11 +137813,14 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -78383,13 +137830,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -78399,6 +137848,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -78408,6 +137858,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -78426,15 +137877,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 505
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS0_GSU1_LPA4_LPB0_PGR0_SNLL0_TT4_4_VW4_WG32_8_1_WGM64
+    SolutionIndex: 861
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -78447,16 +137898,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -78470,8 +137919,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -78481,32 +137930,29 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -78519,9 +137965,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -78530,12 +137976,15 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -78545,13 +137994,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -78561,6 +138012,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -78570,6 +138022,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -78588,15 +138041,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 506
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA4_LPB0_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM64
+    SolutionIndex: 862
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA2_LPB2_PGR0_PLR0_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -78608,17 +138061,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -78626,14 +138077,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -78650,25 +138101,22 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 13440
-    LdsNumElementsAlignedA: 1152
-    LdsNumElementsAlignedB: 4096
+    LdsNumElements: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1152
-    LdsOffsetB_Blk: 9344
+    LdsOffsetB: 1088
     LdsPadA: 4
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -78679,11 +138127,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -78693,11 +138141,14 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -78707,13 +138158,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -78723,6 +138176,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -78732,6 +138186,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -78750,16 +138205,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 507
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM64
+    SolutionIndex: 863
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -78771,16 +138226,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -78788,7 +138241,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -78797,7 +138250,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -78808,29 +138261,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3600
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -78841,10 +138295,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -78853,13 +138307,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -78869,6 +138324,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -78876,6 +138332,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -78885,6 +138342,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -78894,6 +138352,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -78912,8 +138371,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 508
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_EPS1_GSU1_LPA0_LPB2_PGR1_SNLL1_TT8_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 864
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -78921,28 +138380,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -78956,7 +138415,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -78967,32 +138426,29 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 2
+    LdsOffsetB: 1088
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -79005,9 +138461,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -79016,12 +138472,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -79031,13 +138488,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -79047,6 +138506,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -79056,6 +138516,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -79074,15 +138535,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 509
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    SolutionIndex: 865
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -79094,9 +138555,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -79104,7 +138565,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -79121,7 +138582,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -79129,47 +138590,48 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6176
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -79177,13 +138639,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -79193,6 +138656,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -79200,6 +138664,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -79209,6 +138674,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -79218,6 +138684,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -79236,15 +138703,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 510
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 866
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -79256,8 +138723,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -79266,7 +138733,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -79274,64 +138741,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6176
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -79339,13 +138807,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -79355,6 +138826,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -79362,6 +138834,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -79371,6 +138844,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -79380,6 +138854,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -79398,37 +138873,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 511
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 867
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW1_LPA0_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -79436,15 +138909,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -79453,46 +138926,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LVCA: 32
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -79501,13 +138975,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -79517,6 +138994,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -79524,6 +139002,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -79533,6 +139012,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -79542,6 +139022,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -79560,37 +139041,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 512
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM64
+    SolutionIndex: 868
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -79598,53 +139077,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 64
-    LVCA: 2
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -79652,10 +139132,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -79663,13 +139143,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -79679,6 +139162,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -79686,6 +139170,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -79695,6 +139180,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -79704,6 +139190,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -79722,37 +139209,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 513
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
+    SolutionIndex: 869
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_LPA2_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -79760,16 +139245,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -79780,44 +139265,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -79825,13 +139311,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -79841,6 +139330,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -79848,6 +139338,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -79857,6 +139348,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -79866,6 +139358,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -79884,37 +139377,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 514
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM1
+    SolutionIndex: 870
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -79928,54 +139419,59 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
-    LVPB: 16
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -79983,13 +139479,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -79999,13 +139496,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -80015,6 +139514,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -80024,6 +139524,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -80042,28 +139543,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 515
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS0_GSU1_LPA0_LPB4_PGR0_SNLL0_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 871
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x16_SE_EPS1_FL1_GRVW2_LPA0_LPB0_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -80072,7 +139573,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -80087,9 +139588,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -80097,47 +139598,48 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -80145,13 +139647,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -80161,6 +139666,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -80168,6 +139674,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -80177,6 +139684,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -80186,6 +139694,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -80204,37 +139713,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 516
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM1
+    SolutionIndex: 872
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -80242,7 +139749,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -80251,7 +139758,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -80259,32 +139766,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 96
     LSPB: 64
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 24
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -80295,10 +139803,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -80307,13 +139815,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -80323,6 +139832,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -80330,6 +139840,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -80339,6 +139850,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -80348,6 +139860,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -80366,8 +139879,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 517
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 873
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT6_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -80376,27 +139889,27 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -80404,15 +139917,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -80428,25 +139941,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 128
     LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -80457,7 +139971,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 128
     MacroTileA: 64
@@ -80471,11 +139985,14 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -80485,13 +140002,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -80501,6 +140020,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -80510,6 +140030,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -80528,37 +140049,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 518
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM8
+    SolutionIndex: 874
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -80566,15 +140085,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -80590,25 +140109,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 128
     LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 13376
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 4160
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 9216
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -80619,25 +140139,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 256
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 256
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MinGlobalWriteVectorWidth: 1
     NonTemporalA: 0
     NonTemporalB: 0
-    NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -80647,6 +140170,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -80654,6 +140178,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -80663,6 +140188,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -80672,6 +140198,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -80690,20 +140217,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 519
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x256x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT8_8_VW4_WG8_32_1_WGM8
+    SolutionIndex: 875
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -80711,16 +140238,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -80728,16 +140253,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -80752,25 +140277,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7232
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -80781,11 +140307,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -80795,11 +140321,14 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -80809,13 +140338,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -80825,6 +140356,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -80834,6 +140366,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -80852,8 +140385,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 520
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 876
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -80861,12 +140394,12 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -80876,13 +140409,11 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -80896,10 +140427,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -80914,21 +140445,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2624
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -80941,9 +140477,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -80951,13 +140487,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -80967,13 +140506,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -80983,6 +140524,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -80992,6 +140534,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -81010,37 +140553,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 521
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS0_GSU1_LPA0_LPB4_PGR0_SNLL0_TT4_4_VW4_WG32_8_1_WGM8
+    SolutionIndex: 877
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -81048,7 +140589,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -81065,32 +140606,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -81101,11 +140643,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -81113,13 +140655,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -81129,6 +140672,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -81136,6 +140680,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -81145,6 +140690,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -81154,6 +140700,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -81172,37 +140719,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 522
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM8
+    SolutionIndex: 878
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -81217,7 +140764,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -81227,13 +140774,14 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -81244,15 +140792,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6208
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -81277,11 +140825,14 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -81291,6 +140842,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -81298,6 +140850,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -81307,6 +140860,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -81316,6 +140870,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -81334,8 +140889,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 523
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 879
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -81359,12 +140914,10 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -81372,7 +140925,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -81381,7 +140934,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -81396,25 +140949,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 4
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -81425,11 +140979,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -81437,13 +140991,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -81453,6 +141008,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -81460,6 +141016,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -81469,6 +141026,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -81478,6 +141036,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -81496,20 +141055,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 524
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM64
+    SolutionIndex: 880
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -81517,16 +141076,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -81558,6 +141117,7 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -81568,30 +141128,30 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 12864
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 4160
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 8704
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 256
+    MacroTile1: 64
     MacroTileA: 32
-    MacroTileB: 256
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -81599,13 +141159,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -81615,6 +141176,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -81622,6 +141184,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -81631,6 +141194,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -81640,6 +141204,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -81658,29 +141223,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 525
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x256x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG8_32_1_WGM64
+    SolutionIndex: 881
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 32
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -81688,7 +141253,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -81703,42 +141268,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -81751,23 +141317,28 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -81777,6 +141348,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -81784,6 +141356,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -81793,6 +141366,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -81802,8 +141376,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -81820,37 +141396,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 526
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM64
+    SolutionIndex: 882
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -81865,16 +141439,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -81882,25 +141456,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -81913,23 +141488,28 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -81939,6 +141519,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -81946,6 +141527,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -81955,6 +141537,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -81964,8 +141547,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -81982,8 +141567,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 527
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM64
+    SolutionIndex: 883
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -81991,12 +141576,12 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -82004,15 +141589,13 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -82027,7 +141610,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -82044,6 +141627,7 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -82054,15 +141638,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -82074,24 +141658,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -82101,6 +141690,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -82108,6 +141698,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -82117,6 +141708,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -82126,8 +141718,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -82144,37 +141738,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 528
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM64
+    SolutionIndex: 884
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -82189,7 +141781,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -82199,32 +141791,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -82237,23 +141830,28 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -82263,6 +141861,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -82270,6 +141869,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -82279,6 +141879,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -82288,8 +141889,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -82306,15 +141909,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 529
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM64
+    SolutionIndex: 885
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -82327,16 +141930,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -82344,7 +141945,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -82352,41 +141953,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 13440
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 4224
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 9216
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -82397,15 +141999,17 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -82413,9 +142017,10 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -82425,6 +142030,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -82432,6 +142038,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -82441,6 +142048,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -82450,8 +142058,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -82468,15 +142078,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 530
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG8_32_1_WGM8
+    SolutionIndex: 886
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -82489,16 +142099,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -82506,7 +142116,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -82526,29 +142136,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 13440
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 4224
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 9216
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -82559,25 +142170,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -82587,6 +142201,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -82594,6 +142209,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -82603,6 +142219,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -82612,8 +142229,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -82630,16 +142249,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 531
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM64
+    SolutionIndex: 887
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -82650,17 +142269,17 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -82668,7 +142287,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -82677,7 +142296,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -82688,29 +142307,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 32
-    LVCA: 2
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
     LVCB: 4
-    LVPA: 32
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3408
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -82721,25 +142341,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -82749,6 +142372,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -82756,6 +142380,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -82765,6 +142390,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -82774,8 +142400,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -82792,16 +142420,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 532
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x8_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG32_8_1_WGM64
+    SolutionIndex: 888
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -82812,17 +142440,17 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -82836,7 +142464,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -82847,32 +142475,29 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3680
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -82885,23 +142510,26 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -82911,13 +142539,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -82927,6 +142557,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -82936,8 +142567,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -82954,15 +142587,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 533
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    SolutionIndex: 889
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_GSU1_PGR0_PLR1_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -82974,9 +142607,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -82984,7 +142617,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -82999,42 +142632,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 64
+    LSPB: 32
     LVCA: 8
-    LVCB: 4
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6752
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 4672
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -83046,24 +142680,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 2
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -83073,6 +142712,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -83080,6 +142720,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -83089,6 +142730,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -83098,8 +142740,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -83116,37 +142760,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 534
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM1
+    SolutionIndex: 890
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x96x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_6_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 32, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -83161,42 +142803,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6240
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -83209,23 +142852,28 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 2
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -83235,6 +142883,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -83242,6 +142891,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -83251,6 +142901,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -83260,8 +142911,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -83278,8 +142931,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 535
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 891
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x96x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_6_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -83288,11 +142941,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -83300,15 +142953,13 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -83316,15 +142967,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -83333,32 +142984,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 128
     LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -83369,7 +143021,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 128
     MacroTileA: 64
@@ -83377,17 +143029,22 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -83397,13 +143054,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -83413,6 +143072,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -83422,8 +143082,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -83440,8 +143102,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 536
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 892
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -83460,17 +143122,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -83485,9 +143145,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -83495,32 +143155,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6752
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -83532,24 +143193,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -83559,13 +143225,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -83575,6 +143243,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -83584,8 +143253,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -83602,37 +143273,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 537
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG32_8_1_WGM1
+    SolutionIndex: 893
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -83647,7 +143316,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -83657,32 +143326,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3680
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -83695,23 +143365,28 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -83721,6 +143396,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -83728,6 +143404,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -83737,6 +143414,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -83746,8 +143424,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -83764,37 +143444,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 538
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    SolutionIndex: 894
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -83808,8 +143486,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -83819,13 +143497,14 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -83836,11 +143515,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2144
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -83853,23 +143536,28 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -83879,13 +143567,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -83895,6 +143585,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -83904,8 +143595,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -83922,8 +143615,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 539
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS0_GSU5_LPA2_LPB2_PGR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 895
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -83932,27 +143625,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -83960,7 +143651,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -83968,41 +143659,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6240
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -84013,25 +143705,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -84041,6 +143736,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -84048,6 +143744,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -84057,6 +143754,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -84066,8 +143764,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -84084,8 +143784,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 540
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 896
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -84094,27 +143794,27 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -84139,13 +143839,14 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -84156,15 +143857,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -84176,14 +143877,16 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -84191,9 +143894,10 @@
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -84203,6 +143907,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -84210,6 +143915,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -84219,6 +143925,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -84228,8 +143935,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -84246,8 +143955,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 541
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 897
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -84256,11 +143965,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -84268,7 +143977,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -84276,7 +143985,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -84284,7 +143993,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -84292,7 +144001,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -84301,32 +144010,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 128
     LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -84337,25 +144047,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -84365,13 +144078,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -84381,6 +144096,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -84390,8 +144106,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -84408,15 +144126,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 542
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG32_8_1_WGM1
+    SolutionIndex: 898
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT4_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 8]
     ThreadTile0: 4
@@ -84428,17 +144146,17 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -84466,29 +144184,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3680
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -84501,23 +144220,26 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -84527,6 +144249,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -84534,6 +144257,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -84543,6 +144267,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -84552,8 +144277,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -84570,29 +144297,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 543
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_8_1_WGM8
+    SolutionIndex: 899
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -84600,7 +144327,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -84628,10 +144355,11 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -84642,15 +144370,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6240
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -84663,23 +144391,26 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -84689,6 +144420,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -84696,6 +144428,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -84705,6 +144438,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -84714,8 +144448,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -84732,8 +144468,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 544
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 900
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -84741,18 +144477,18 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -84762,7 +144498,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -84770,49 +144506,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -84823,7 +144560,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -84831,17 +144568,22 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -84851,13 +144593,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -84867,6 +144611,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -84876,8 +144621,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -84894,8 +144641,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 545
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT8_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 901
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -84903,7 +144650,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
@@ -84914,17 +144661,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -84932,49 +144677,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -84985,25 +144731,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -85013,13 +144764,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -85029,6 +144782,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -85038,8 +144792,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -85056,15 +144812,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 546
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG8_32_1_WGM8
+    SolutionIndex: 902
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -85076,17 +144832,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -85094,16 +144848,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -85111,32 +144865,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 8
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6752
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 4672
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -85147,25 +144902,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -85175,13 +144935,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -85191,6 +144953,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -85200,8 +144963,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -85218,20 +144983,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 547
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM8
+    SolutionIndex: 903
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -85239,16 +145004,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 32, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -85256,16 +145019,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -85273,32 +145036,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -85309,25 +145073,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -85337,13 +145106,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -85353,6 +145124,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -85362,8 +145134,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -85380,15 +145154,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 548
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG8_32_1_WGM8
+    SolutionIndex: 904
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -85400,17 +145174,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -85425,7 +145197,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -85435,13 +145207,14 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -85452,15 +145225,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6240
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -85472,24 +145245,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -85499,6 +145277,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -85506,6 +145285,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -85515,6 +145295,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -85524,8 +145305,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -85542,8 +145325,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 549
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 905
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -85552,27 +145335,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -85580,7 +145361,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -85588,41 +145369,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -85633,25 +145415,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -85661,13 +145446,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -85677,6 +145464,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -85686,8 +145474,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -85704,8 +145494,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 550
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG16_16_1_WGM8
+    SolutionIndex: 906
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -85714,27 +145504,27 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -85742,7 +145532,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -85750,41 +145540,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6240
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -85795,25 +145586,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -85823,13 +145617,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -85839,6 +145635,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -85848,8 +145645,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -85866,8 +145665,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 551
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 907
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -85875,28 +145674,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -85904,7 +145703,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -85912,41 +145711,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -85957,25 +145757,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -85985,6 +145788,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -85992,6 +145796,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -86001,6 +145806,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -86010,8 +145816,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -86028,8 +145836,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 552
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_8_VW2_WG16_16_1_WGM64
+    SolutionIndex: 908
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -86037,28 +145845,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -86066,7 +145874,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -86075,7 +145883,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -86083,32 +145891,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -86119,15 +145928,17 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -86136,8 +145947,9 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -86147,13 +145959,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -86163,6 +145977,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -86172,8 +145987,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -86190,8 +146007,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 553
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG16_16_1_WGM64
+    SolutionIndex: 909
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -86200,11 +146017,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -86212,15 +146029,15 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -86228,7 +146045,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -86237,7 +146054,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -86245,32 +146062,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -86281,7 +146099,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -86289,7 +146107,9 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -86297,9 +146117,10 @@
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -86309,13 +146130,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -86325,6 +146148,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -86334,8 +146158,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -86352,8 +146178,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 554
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 910
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -86374,15 +146200,15 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -86390,7 +146216,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -86399,7 +146225,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -86407,32 +146233,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 4
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3680
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -86443,25 +146270,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -86471,13 +146301,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -86487,6 +146319,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -86496,8 +146329,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -86514,37 +146349,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 555
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM64
+    SolutionIndex: 911
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -86552,7 +146387,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -86561,7 +146396,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -86569,32 +146404,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6240
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -86605,25 +146441,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -86633,6 +146472,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -86640,6 +146480,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -86649,6 +146490,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -86658,8 +146500,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -86676,8 +146520,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 556
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 912
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -86686,27 +146530,27 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -86714,49 +146558,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 13440
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 4160
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 9280
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -86767,25 +146612,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 32
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -86795,13 +146645,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -86811,6 +146663,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -86820,8 +146673,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -86838,37 +146693,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 557
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM1
+    SolutionIndex: 913
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 32, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -86876,23 +146729,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -86900,25 +146753,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14464
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 4160
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 10304
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -86929,25 +146783,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -86957,13 +146816,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -86973,6 +146834,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -86982,8 +146844,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -87000,37 +146864,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 558
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x32_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT8_4_VW2_WG8_32_1_WGM8
+    SolutionIndex: 914
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 32, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -87038,49 +146900,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 12416
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 10304
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -87091,25 +146954,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -87119,13 +146987,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -87135,6 +147005,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -87144,8 +147015,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -87162,8 +147035,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 559
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 915
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -87172,27 +147045,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -87200,15 +147071,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -87216,7 +147087,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -87224,25 +147095,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
     LSPB: 32
-    LVCA: 2
-    LVCB: 4
-    LVPA: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3424
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -87253,25 +147125,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -87281,6 +147158,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -87288,6 +147166,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -87297,6 +147176,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -87306,8 +147186,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -87324,37 +147206,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 560
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x8_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM8
+    SolutionIndex: 916
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -87362,15 +147242,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -87378,7 +147258,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -87386,25 +147266,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 64
-    LVCA: 2
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3680
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -87415,25 +147296,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -87443,6 +147329,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -87450,6 +147337,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -87459,6 +147347,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -87468,8 +147357,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -87486,20 +147377,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 561
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
+    SolutionIndex: 917
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -87507,16 +147398,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -87531,7 +147420,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -87544,29 +147433,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3712
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -87578,24 +147468,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -87605,6 +147500,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -87612,6 +147508,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -87621,6 +147518,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -87630,8 +147528,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -87648,37 +147548,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 562
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM1
+    SolutionIndex: 918
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -87693,8 +147591,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -87710,25 +147608,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 64
-    LVCA: 8
+    LVCA: 4
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 4672
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -87740,24 +147639,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 32
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -87767,6 +147671,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -87774,6 +147679,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -87783,6 +147689,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -87792,8 +147699,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -87810,37 +147719,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 563
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM1
+    SolutionIndex: 919
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -87856,41 +147763,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6272
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -87902,24 +147810,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -87929,13 +147840,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -87945,6 +147858,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -87954,8 +147868,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -87972,8 +147888,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 564
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 920
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -87981,18 +147897,18 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -88002,7 +147918,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -88018,41 +147934,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -88065,23 +147982,26 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -88091,6 +148011,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -88098,6 +148019,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -88107,6 +148029,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -88116,8 +148039,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -88134,8 +148059,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 565
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 921
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -88143,18 +148068,18 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -88164,7 +148089,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -88180,7 +148105,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -88188,7 +148113,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -88196,25 +148121,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 32
     LSPB: 32
-    LVCA: 4
+    LVCA: 8
     LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -88227,23 +148153,26 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -88253,13 +148182,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -88269,6 +148200,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -88278,8 +148210,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -88296,29 +148230,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 566
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM1
+    SolutionIndex: 922
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -88326,7 +148260,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -88342,15 +148276,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -88358,25 +148292,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -88389,23 +148324,26 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -88415,6 +148353,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -88422,6 +148361,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -88431,6 +148371,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -88440,8 +148381,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -88458,20 +148401,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 567
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM1
+    SolutionIndex: 923
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -88479,7 +148422,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -88488,7 +148431,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -88502,9 +148445,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -88512,7 +148455,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -88520,21 +148463,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 32
     LSPB: 32
-    LVCA: 4
+    LVCA: 8
     LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4736
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 4160
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -88546,24 +148494,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 256
-    MacroTile1: 32
-    MacroTileA: 256
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -88573,13 +148524,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -88589,6 +148542,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -88598,8 +148552,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -88616,29 +148572,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 568
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT256x32x16_EPS0_GSU1_LPA4_LPB4_PGR0_SNLL0_TT8_4_VW4_WG32_8_1_WGM1
+    SolutionIndex: 924
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -88646,7 +148602,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -88671,13 +148627,14 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -88688,15 +148645,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -88709,23 +148666,26 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -88735,13 +148695,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -88751,6 +148713,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -88760,8 +148723,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -88778,8 +148743,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 569
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU3_LPA4_LPB4_PGR1_SNLL0_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 925
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -88788,17 +148753,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -88808,7 +148773,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -88833,32 +148798,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3712
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -88870,24 +148836,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -88897,13 +148866,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -88913,6 +148884,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -88922,8 +148894,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -88940,29 +148914,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 570
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM1
+    SolutionIndex: 926
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -88970,7 +148944,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -89002,6 +148976,7 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -89012,15 +148987,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -89032,24 +149007,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -89059,6 +149037,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -89066,6 +149045,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -89075,6 +149055,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -89084,8 +149065,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -89102,29 +149085,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 571
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM8
+    SolutionIndex: 927
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -89132,7 +149115,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -89164,6 +149147,7 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -89174,15 +149158,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6272
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -89194,24 +149178,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -89221,6 +149208,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -89228,6 +149216,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -89237,6 +149226,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -89246,8 +149236,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -89264,8 +149256,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 572
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 928
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -89273,12 +149265,12 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -89294,7 +149286,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -89309,8 +149301,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -89326,54 +149318,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 32
     LSPB: 64
-    LVCA: 4
+    LVCA: 8
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -89383,6 +149381,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -89390,6 +149389,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -89399,6 +149399,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -89408,8 +149409,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -89426,37 +149429,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 573
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 929
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -89471,8 +149472,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -89488,54 +149489,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 32
     LSPB: 64
-    LVCA: 4
+    LVCA: 8
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -89545,6 +149552,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -89552,6 +149560,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -89561,6 +149570,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -89570,8 +149580,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -89588,20 +149600,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 574
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 930
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -89609,16 +149621,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -89633,9 +149643,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -89646,58 +149656,64 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 12416
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 10304
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -89707,6 +149723,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -89714,6 +149731,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -89723,6 +149741,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -89732,8 +149751,10 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -89750,37 +149771,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 575
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 931
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -89788,15 +149807,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -89804,7 +149823,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -89812,21 +149831,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2688
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 2112
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -89837,25 +149861,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -89865,13 +149894,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -89881,6 +149912,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -89890,14 +149922,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -89908,15 +149943,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 576
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS0_GSU1_LPA4_LPB4_PGR0_SNLL0_TT4_4_VW4_WG32_8_1_WGM8
+    SolutionIndex: 932
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR0_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -89929,16 +149964,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -89946,15 +149979,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -89962,7 +149995,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -89970,25 +150003,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -89999,25 +150033,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -90027,6 +150066,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -90034,6 +150074,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -90043,6 +150084,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -90052,14 +150094,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -90070,16 +150115,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 577
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM8
+    SolutionIndex: 933
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -90091,16 +150136,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -90108,23 +150151,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -90132,25 +150175,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -90161,25 +150205,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -90189,6 +150238,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -90196,6 +150246,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -90205,6 +150256,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -90214,14 +150266,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -90232,37 +150287,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 578
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
+    SolutionIndex: 934
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -90270,16 +150323,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -90287,32 +150340,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3712
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -90323,25 +150377,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -90351,6 +150410,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -90358,6 +150418,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -90367,6 +150428,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -90376,14 +150438,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -90394,15 +150459,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 579
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM8
+    SolutionIndex: 935
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -90415,16 +150480,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -90432,16 +150495,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -90456,25 +150519,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3712
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -90485,25 +150549,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -90513,6 +150582,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -90520,6 +150590,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -90529,6 +150600,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -90538,14 +150610,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -90556,16 +150631,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 580
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM64
+    SolutionIndex: 936
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -90577,16 +150652,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -90600,9 +150673,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -90618,25 +150691,22 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 64
-    LVCA: 8
+    LVCA: 4
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 4672
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -90648,24 +150718,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -90675,13 +150750,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -90691,6 +150768,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -90700,14 +150778,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -90718,16 +150799,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 581
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM64
+    SolutionIndex: 937
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_GSU1_LPA0_LPB0_PGR0_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -90739,16 +150820,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -90763,7 +150842,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -90780,6 +150859,7 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -90790,15 +150870,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -90811,23 +150891,28 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -90837,6 +150922,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -90844,6 +150930,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -90853,6 +150940,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -90862,14 +150950,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -90880,20 +150971,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 582
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM64
+    SolutionIndex: 938
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -90901,16 +150992,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -90925,7 +151014,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -90942,6 +151031,7 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -90952,15 +151042,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6272
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -90979,17 +151069,22 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -90999,6 +151094,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -91006,6 +151102,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -91015,6 +151112,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -91024,14 +151122,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -91042,8 +151143,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 583
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 939
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -91051,7 +151152,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -91064,15 +151165,13 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -91080,7 +151179,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -91088,15 +151187,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -91104,25 +151203,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -91133,25 +151233,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -91161,13 +151264,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -91177,6 +151282,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -91186,14 +151292,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -91204,8 +151313,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 584
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM64
+    SolutionIndex: 940
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR0_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -91213,12 +151322,12 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -91226,15 +151335,15 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -91242,7 +151351,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -91250,15 +151359,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -91266,25 +151375,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -91295,25 +151405,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -91323,6 +151436,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -91330,6 +151444,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -91339,6 +151454,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -91348,14 +151464,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -91366,8 +151485,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 585
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 941
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -91375,11 +151494,11 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -91388,15 +151507,15 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -91404,23 +151523,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -91428,25 +151547,22 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 12416
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 10304
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 512
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -91457,25 +151573,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -91485,13 +151604,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -91501,6 +151622,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -91510,14 +151632,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -91528,8 +151653,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 586
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM64
+    SolutionIndex: 942
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS0_FL1_GRVW2_GSU1_LPA0_LPB0_PGR0_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -91537,12 +151662,12 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -91550,15 +151675,15 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -91575,7 +151700,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -91590,25 +151715,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -91620,14 +151746,16 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -91635,9 +151763,10 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -91647,13 +151776,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -91663,6 +151794,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -91672,14 +151804,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -91690,16 +151825,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 587
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM64
+    SolutionIndex: 943
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR0_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -91711,8 +151846,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -91720,7 +151855,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -91728,7 +151863,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -91736,8 +151871,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -91752,25 +151887,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -91781,25 +151917,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -91809,6 +151948,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -91816,6 +151956,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -91825,6 +151966,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -91834,14 +151976,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -91852,37 +151997,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 588
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM64
+    SolutionIndex: 944
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -91890,7 +152035,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -91899,7 +152044,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -91907,32 +152052,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
     LSPB: 64
-    LVCA: 8
+    LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 4672
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -91943,15 +152089,17 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -91960,8 +152108,9 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -91971,6 +152120,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -91978,6 +152128,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -91987,6 +152138,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -91996,14 +152148,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -92014,15 +152169,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 589
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG8_32_1_WGM64
+    SolutionIndex: 945
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -92035,16 +152190,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -92052,13 +152207,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -92076,25 +152231,22 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 13568
-    LdsNumElementsAlignedA: 1152
-    LdsNumElementsAlignedB: 4224
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1152
-    LdsOffsetB_Blk: 9344
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -92105,15 +152257,17 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -92122,8 +152276,9 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -92133,13 +152288,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -92149,6 +152306,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -92158,14 +152316,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -92176,16 +152337,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 590
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM1
+    SolutionIndex: 946
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_GSU1_LPA0_LPB0_PGR0_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -92197,16 +152358,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -92214,7 +152375,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -92223,7 +152384,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -92234,29 +152395,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 96
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 24
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 12544
-    LdsNumElementsAlignedA: 2176
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2176
-    LdsOffsetB_Blk: 10368
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -92267,25 +152429,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -92295,6 +152460,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -92302,6 +152468,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -92311,6 +152478,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -92320,14 +152488,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -92338,8 +152509,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 591
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 947
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT6_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -92347,28 +152518,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -92376,7 +152547,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -92385,7 +152556,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -92393,32 +152564,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 96
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 24
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 13568
-    LdsNumElementsAlignedA: 1152
-    LdsNumElementsAlignedB: 4224
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1152
-    LdsOffsetB_Blk: 9344
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -92429,25 +152601,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -92457,6 +152632,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -92464,6 +152640,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -92473,6 +152650,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -92482,14 +152660,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -92500,37 +152681,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 592
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG8_32_1_WGM1
+    SolutionIndex: 948
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT6_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -92538,23 +152719,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -92562,25 +152743,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 12544
-    LdsNumElementsAlignedA: 2176
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2176
-    LdsOffsetB_Blk: 10368
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -92591,25 +152773,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -92619,6 +152806,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -92626,6 +152814,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -92635,6 +152824,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -92644,14 +152834,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -92662,8 +152855,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 593
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 949
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -92671,12 +152864,12 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -92684,15 +152877,13 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -92700,15 +152891,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -92720,29 +152911,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 128
+    LVCA: 4
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 14592
-    LdsNumElementsAlignedA: 2176
-    LdsNumElementsAlignedB: 4224
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2176
-    LdsOffsetB_Blk: 10368
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -92753,7 +152945,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 128
     MacroTileA: 64
@@ -92761,17 +152953,22 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -92781,6 +152978,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -92788,6 +152986,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -92797,6 +152996,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -92806,14 +153006,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -92824,8 +153027,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 594
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 950
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -92833,7 +153036,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
@@ -92844,17 +153047,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -92862,15 +153063,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -92886,25 +153087,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 128
+    LVCA: 4
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 12544
-    LdsNumElementsAlignedA: 2176
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2176
-    LdsOffsetB_Blk: 10368
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -92915,25 +153117,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -92943,6 +153150,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -92950,6 +153158,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -92959,6 +153168,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -92968,14 +153178,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -92986,8 +153199,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 595
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 951
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -92995,12 +153208,12 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -93008,15 +153221,13 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -93024,15 +153235,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -93048,25 +153259,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 128
+    LVCA: 4
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 14592
-    LdsNumElementsAlignedA: 2176
-    LdsNumElementsAlignedB: 4224
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2176
-    LdsOffsetB_Blk: 10368
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -93077,7 +153289,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 128
     MacroTileA: 64
@@ -93085,17 +153297,22 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -93105,6 +153322,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -93112,6 +153330,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -93121,6 +153340,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -93130,14 +153350,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -93148,8 +153371,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 596
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM64
+    SolutionIndex: 952
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -93157,7 +153380,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
@@ -93170,15 +153393,13 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -93186,7 +153407,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -93194,7 +153415,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -93202,31 +153423,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -93239,25 +153461,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -93267,6 +153492,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -93274,6 +153500,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -93293,15 +153520,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -93312,8 +153541,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 597
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG16_16_1_WGM1
+    SolutionIndex: 953
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -93321,28 +153550,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -93350,16 +153579,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -93370,23 +153599,24 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -93403,25 +153633,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -93431,13 +153666,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -93457,15 +153694,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -93476,8 +153715,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 598
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 954
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR0_TT8_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -93485,28 +153724,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -93514,14 +153751,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -93534,58 +153771,64 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -93595,6 +153838,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -93602,6 +153846,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -93621,15 +153866,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -93640,37 +153887,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 599
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM1
+    SolutionIndex: 955
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 4, 8]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -93686,39 +153931,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -93732,24 +153978,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -93759,6 +154008,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -93766,6 +154016,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -93785,15 +154036,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -93804,29 +154057,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 600
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW2_WG8_8_1_WGM8
+    SolutionIndex: 956
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -93834,7 +154087,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -93842,13 +154095,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
@@ -93862,58 +154115,58 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 16
-    LVCA: 4
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -93923,13 +154176,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -93949,15 +154204,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -93968,16 +154225,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 601
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW2_WG4_4_8_WGM8
+    SolutionIndex: 957
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS0_FL1_GRVW4_GSU1_LPA0_LPB0_PGR0_PLR1_TT8_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
@@ -93988,17 +154245,17 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 4, 8]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -94006,7 +154263,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -94015,7 +154272,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -94026,58 +154283,62 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -94087,6 +154348,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -94094,6 +154356,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -94113,15 +154376,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -94132,37 +154397,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 602
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM8
+    SolutionIndex: 958
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -94170,7 +154435,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -94179,7 +154444,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -94190,58 +154455,62 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -94251,13 +154520,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -94277,15 +154548,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -94296,37 +154569,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 603
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM16
+    SolutionIndex: 959
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR0_TT8_8_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 16
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -94354,27 +154627,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 32
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
     LVCA: 2
     LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -94388,24 +154662,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -94415,6 +154692,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -94422,6 +154700,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -94441,15 +154720,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -94460,29 +154741,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 604
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW2_WG8_8_1_WGM64
+    SolutionIndex: 960
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_8_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -94490,7 +154771,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -94498,7 +154779,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -94507,7 +154788,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -94515,61 +154796,65 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -94579,6 +154864,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -94586,6 +154872,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -94605,15 +154892,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -94624,37 +154913,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 605
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM64
+    SolutionIndex: 961
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -94662,53 +154951,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -94717,23 +155007,28 @@
     LoopTail: true
     LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -94743,6 +155038,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -94750,6 +155046,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -94769,15 +155066,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -94788,37 +155087,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 606
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x32_SE_EPS1_GSU8_PGR1_SNLL0_TT8_4_VW2_WG4_4_8_WGM64
+    SolutionIndex: 962
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 64
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -94833,8 +155130,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -94842,7 +155139,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -94850,54 +155147,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
     LSPA: 32
-    LSPB: 8
-    LVCA: 2
+    LSPB: 64
+    LVCA: 8
     LVCB: 4
-    LVPA: 8
-    LVPB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 64
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 32
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -94907,6 +155210,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -94914,6 +155218,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -94933,15 +155238,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -94952,16 +155259,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 607
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_2_4_WGM1
+    SolutionIndex: 963
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 2
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 2
-    SuppressNoLoadLoop: true
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -94973,16 +155280,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 2, 4]
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -94997,8 +155302,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -95014,54 +155319,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 128
+    LSPA: 32
     LSPB: 64
-    LVCA: 2
+    LVCA: 8
     LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -95071,6 +155382,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -95078,6 +155390,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -95097,15 +155410,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -95116,20 +155431,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 608
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 964
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -95137,16 +155452,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -95154,15 +155467,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -95178,29 +155491,30 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
-    LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -95209,23 +155523,28 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -95235,6 +155554,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -95242,6 +155562,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -95261,15 +155582,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -95280,16 +155603,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 609
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_8_1_WGM1
+    SolutionIndex: 965
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -95301,16 +155624,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 1]
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -95318,7 +155639,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -95326,15 +155647,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -95342,17 +155663,18 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
@@ -95364,7 +155686,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -95372,14 +155694,16 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -95388,8 +155712,9 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -95399,6 +155724,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -95406,6 +155732,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -95425,15 +155752,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -95444,20 +155773,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 610
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG2_8_4_WGM1
+    SolutionIndex: 966
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 8
-    SubGroupA: 2
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -95465,16 +155794,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [2, 8, 4]
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -95482,23 +155811,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -95506,50 +155835,58 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
     LSPB: 64
     LVCA: 4
     LVCB: 4
     LVPA: 16
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -95559,13 +155896,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -95585,15 +155924,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -95604,14 +155945,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 611
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 967
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -95625,16 +155966,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -95642,23 +155983,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -95666,29 +156007,30 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -95696,24 +156038,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -95723,6 +156070,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -95730,6 +156078,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -95749,15 +156098,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -95768,37 +156119,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 612
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x16x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG4_4_8_WGM1
+    SolutionIndex: 968
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_FL0_GRVW1_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [4, 4, 8]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -95813,16 +156162,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -95830,54 +156179,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 32
-    LSPB: 8
-    LVCA: 2
-    LVCB: 4
-    LVPA: 8
-    LVPB: 4
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -95887,6 +156242,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -95894,6 +156250,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -95913,15 +156270,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -95932,16 +156291,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 613
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_2_4_WGM8
+    SolutionIndex: 969
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 2
-    SubGroupA: 8
-    SubGroupB: 2
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -95953,16 +156312,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 2, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -95977,16 +156334,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -95994,54 +156351,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 32
+    LSPA: 64
     LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    LVCA: 4
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -96051,6 +156414,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -96058,6 +156422,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -96077,15 +156442,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -96096,16 +156463,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 614
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_8_1_WGM8
+    SolutionIndex: 970
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -96117,16 +156484,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -96134,16 +156499,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -96158,54 +156523,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -96215,6 +156586,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -96222,6 +156594,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -96241,15 +156614,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -96260,15 +156635,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 615
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x16x32_SE_EPS1_GSU8_PGR1_SNLL0_TT4_4_VW4_WG4_4_8_WGM8
+    SolutionIndex: 971
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -96280,17 +156655,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [4, 4, 8]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -96298,16 +156671,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -96322,54 +156695,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -96379,6 +156758,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -96386,6 +156766,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -96405,15 +156786,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -96424,16 +156807,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 616
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
+    SolutionIndex: 972
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -96445,16 +156828,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -96470,15 +156851,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -96486,54 +156867,58 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 32
+    LSPA: 64
     LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -96543,6 +156928,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -96550,6 +156936,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -96569,15 +156956,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -96588,16 +156977,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 617
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_8_1_WGM64
+    SolutionIndex: 973
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -96609,8 +156998,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -96618,7 +157007,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -96626,7 +157015,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -96634,15 +157023,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -96650,29 +157039,30 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 4
-    LVPB: 4
+    LVPA: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -96680,14 +157070,16 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -96696,8 +157088,9 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -96707,6 +157100,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -96714,6 +157108,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -96733,15 +157128,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -96752,20 +157149,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 618
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG2_8_4_WGM64
+    SolutionIndex: 974
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 2
+    SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -96773,16 +157170,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [2, 8, 4]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -96807,61 +157204,65 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 16
+    LSPA: 64
+    LSPB: 32
     LVCA: 4
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -96871,6 +157272,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -96878,6 +157280,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -96897,15 +157300,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -96916,29 +157321,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 619
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG4_4_8_WGM64
+    SolutionIndex: 975
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -96946,7 +157351,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -96954,7 +157359,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -96963,7 +157368,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -96974,58 +157379,62 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -97035,6 +157444,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -97042,6 +157452,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -97061,15 +157472,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -97080,16 +157493,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 620
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x16x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG4_4_8_WGM64
+    SolutionIndex: 976
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -97101,16 +157514,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -97126,70 +157539,74 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 1152
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -97199,6 +157616,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -97226,15 +157644,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -97245,28 +157665,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 621
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 977
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x16_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -97275,7 +157695,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -97290,9 +157710,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -97303,60 +157723,62 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 1152
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -97366,6 +157788,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -97393,15 +157816,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -97412,35 +157837,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 622
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 978
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -97455,9 +157882,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -97468,60 +157895,62 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 1152
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -97531,6 +157960,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -97558,15 +157988,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -97577,35 +158009,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 623
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 979
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -97620,16 +158054,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -97637,54 +158071,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -97694,6 +158134,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -97721,15 +158162,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -97740,37 +158183,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 624
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 980
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -97785,9 +158226,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -97802,54 +158243,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -97859,6 +158306,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -97886,15 +158334,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -97905,37 +158355,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 625
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 981
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -97950,8 +158398,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -97963,60 +158411,62 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 8
     LSPB: 64
-    LVCA: 4
+    LVCA: 8
     LVCB: 4
-    LVPA: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 2176
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 64
+    MacroTileA: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -98026,6 +158476,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -98053,15 +158504,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -98072,35 +158525,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 626
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 982
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -98116,7 +158571,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -98128,60 +158583,64 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 16
     LSPB: 64
-    LVCA: 4
+    LVCA: 16
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -98191,6 +158650,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -98218,15 +158678,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -98237,35 +158699,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 627
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 983
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -98280,8 +158742,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -98293,58 +158755,64 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 16
     LSPB: 64
-    LVCA: 4
+    LVCA: 16
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -98354,6 +158822,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -98381,15 +158850,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -98400,37 +158871,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 628
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 984
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -98445,8 +158914,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -98462,54 +158931,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 16
     LSPB: 64
-    LVCA: 4
+    LVCA: 16
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -98519,6 +158994,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -98546,15 +159022,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -98565,37 +159043,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 629
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 985
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -98611,7 +159087,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -98627,56 +159103,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 16
     LSPB: 64
-    LVCA: 4
+    LVCA: 16
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -98686,6 +159166,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -98713,15 +159194,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -98732,35 +159215,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 630
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 986
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -98776,7 +159259,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -98785,63 +159268,67 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 16
     LSPB: 64
-    LVCA: 4
+    LVCA: 16
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -98851,6 +159338,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -98878,15 +159366,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -98897,35 +159387,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 631
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 987
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -98940,71 +159430,77 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -99014,6 +159510,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -99041,15 +159538,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -99060,37 +159559,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 632
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 988
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -99105,71 +159602,77 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -99179,6 +159682,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -99206,15 +159710,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -99225,37 +159731,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 633
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 989
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -99272,71 +159776,75 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 32
+    LSPB: 16
     LVCA: 8
-    LVCB: 8
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -99346,6 +159854,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -99373,15 +159882,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -99392,35 +159903,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 634
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 990
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -99435,7 +159946,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -99444,64 +159955,66 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 32
+    LSPB: 16
     LVCA: 8
     LVCB: 8
     LVPA: 16
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -99511,6 +160024,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -99538,15 +160052,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -99557,35 +160073,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 635
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 991
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -99600,71 +160118,77 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -99674,6 +160198,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -99701,15 +160226,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -99720,37 +160247,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 636
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 992
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -99765,71 +160290,77 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -99839,6 +160370,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -99866,15 +160398,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -99885,37 +160419,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 637
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 993
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -99930,9 +160462,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -99940,61 +160472,67 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 16
     LVCA: 4
-    LVCB: 4
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7200
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -100004,6 +160542,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -100031,15 +160570,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -100050,37 +160591,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 638
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 994
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -100096,7 +160635,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -100104,64 +160643,68 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
+    LSPA: 64
     LSPB: 16
-    LVCA: 16
+    LVCA: 4
     LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 8
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -100171,6 +160714,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -100198,15 +160742,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -100217,35 +160763,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 639
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW1_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 995
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -100261,7 +160807,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -100269,7 +160815,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -100277,56 +160823,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
+    LSPA: 64
     LSPB: 16
-    LVCA: 16
+    LVCA: 4
     LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 8
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -100336,6 +160886,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -100363,15 +160914,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -100382,35 +160935,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 640
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 996
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -100418,23 +160971,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -100442,56 +160995,58 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
     LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 2
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 8
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -100501,6 +161056,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -100528,15 +161084,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -100547,35 +161105,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 641
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 997
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -100603,10 +161163,11 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -100617,15 +161178,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
     LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -100638,25 +161199,28 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -100666,6 +161230,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -100693,15 +161258,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -100712,8 +161279,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 642
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 998
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW2_GSU1_LPA4_LPB4_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -100721,18 +161288,18 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -100740,7 +161307,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -100748,14 +161315,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -100768,29 +161335,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 3168
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -100801,27 +161369,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -100831,8 +161400,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -100858,15 +161428,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -100877,8 +161449,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 643
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 999
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA4_LPB4_PGR1_PLR0_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -100886,26 +161458,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -100913,7 +161487,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -100921,15 +161495,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -100937,23 +161511,24 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
     LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
@@ -100966,25 +161541,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -100994,6 +161572,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -101021,15 +161600,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -101040,8 +161621,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 644
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1000
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT4_2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -101049,28 +161630,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -101085,16 +161666,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -101102,23 +161683,24 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 32
+    LSPB: 64
     LVCA: 8
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
@@ -101132,24 +161714,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -101159,6 +161746,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -101186,15 +161774,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -101205,8 +161795,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 645
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1001
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -101214,12 +161804,12 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -101227,15 +161817,13 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -101250,42 +161838,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 32
+    LSPB: 64
     LVCA: 8
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -101297,26 +161886,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -101326,6 +161916,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -101353,15 +161944,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -101372,8 +161965,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 646
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1002
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -101381,26 +161974,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -101416,41 +162011,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
+    LdsNumElements: 7264
     LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
     LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -101469,19 +162065,22 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -101491,6 +162090,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -101518,15 +162118,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -101537,8 +162139,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 647
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1003
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -101546,7 +162148,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
@@ -101557,7 +162159,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -101565,7 +162167,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -101573,23 +162175,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -101597,25 +162199,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 128
+    LVCA: 4
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
     LdsPadA: 4
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -101626,7 +162229,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 128
     MacroTileA: 64
@@ -101634,17 +162237,22 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -101654,6 +162262,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -101681,15 +162290,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -101700,8 +162311,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 648
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1004
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA4_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -101709,14 +162320,14 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -101724,13 +162335,11 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -101745,42 +162354,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -101792,24 +162402,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -101819,6 +162434,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -101846,15 +162462,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -101865,8 +162483,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 649
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1005
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT8_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -101874,28 +162492,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -101911,15 +162527,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -101927,23 +162543,24 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -101957,26 +162574,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -101986,6 +162606,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -102013,15 +162634,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -102032,35 +162655,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 650
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1006
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_GSU1_LPA4_LPB4_PGR1_PLR1_TT4_4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -102076,15 +162699,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -102092,23 +162715,24 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -102122,26 +162746,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -102151,6 +162778,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -102178,15 +162806,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -102197,20 +162827,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 651
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1007
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_GSU1_LPA4_LPB4_PGR1_PLR1_TT4_4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -102218,14 +162848,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -102240,42 +162870,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3168
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -102287,24 +162918,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -102314,6 +162950,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -102341,15 +162978,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -102360,37 +162999,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 652
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1008
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS1_FL0_GRVW1_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -102398,7 +163035,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -102406,41 +163043,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 8
     LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -102451,27 +163089,30 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -102481,6 +163122,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -102508,15 +163150,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -102527,35 +163171,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 653
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1009
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -102563,15 +163207,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -102583,58 +163227,64 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -102644,6 +163294,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -102671,15 +163322,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -102690,37 +163343,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 654
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1010
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -102728,7 +163379,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -102736,65 +163387,68 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -102802,6 +163456,7 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -102811,6 +163466,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -102838,15 +163494,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -102857,35 +163515,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 655
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1011
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -102893,78 +163551,84 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -102974,6 +163638,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -103001,15 +163666,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -103020,37 +163687,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 656
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1012
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -103058,15 +163723,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -103082,50 +163747,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LVCA: 32
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1088
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -103135,7 +163810,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -103162,15 +163838,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -103181,37 +163859,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 657
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB0_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1013
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -103219,23 +163895,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -103243,52 +163919,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -103298,7 +163982,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -103325,15 +164010,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -103344,35 +164031,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 658
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW1_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1014
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -103380,76 +164067,84 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
-    LSPB: 8
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
     LVCB: 16
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -103459,8 +164154,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -103486,15 +164182,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -103505,35 +164203,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 659
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW1_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1015
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR0_TT4_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -103541,23 +164239,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -103565,52 +164263,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2128
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -103620,7 +164326,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -103647,15 +164354,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -103666,35 +164375,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 660
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1016
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW1_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -103702,23 +164411,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -103726,50 +164435,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2128
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -103779,7 +164498,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -103806,15 +164526,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -103825,37 +164547,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 661
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1017
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPA2_LPB0_PGR1_PLR1_TT2_2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -103863,23 +164583,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -103887,52 +164607,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 8
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -103942,7 +164670,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -103969,15 +164698,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -103988,35 +164719,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 662
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1018
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -104024,16 +164755,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -104048,50 +164779,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 8
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -104101,7 +164842,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -104128,15 +164870,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -104147,37 +164891,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 663
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1019
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -104185,16 +164927,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -104209,52 +164951,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 8
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -104264,7 +165014,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -104291,15 +165042,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -104310,35 +165063,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 664
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG8_16_1_WGM1
+    SolutionIndex: 1020
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -104346,74 +165099,84 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -104423,7 +165186,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -104450,15 +165214,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -104469,37 +165235,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 665
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG8_16_1_WGM1
+    SolutionIndex: 1021
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW1_GSU8_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -104507,76 +165271,82 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2128
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -104586,7 +165356,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -104613,15 +165384,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -104632,35 +165405,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 666
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1022
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -104668,74 +165443,84 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2128
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -104745,7 +165530,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -104772,15 +165558,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -104791,15 +165579,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 667
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1023
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -104811,17 +165599,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -104829,16 +165615,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -104846,59 +165632,67 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -104908,7 +165702,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -104935,15 +165730,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -104954,35 +165751,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 668
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1024
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW4_GSU8_LPA2_LPB2_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -104990,16 +165787,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -105007,57 +165804,65 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -105067,7 +165872,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -105094,15 +165900,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -105113,37 +165921,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 669
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1025
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU8_LPA2_LPB2_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -105151,15 +165959,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -105168,59 +165976,67 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LVCA: 32
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -105230,7 +166046,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -105257,15 +166074,17 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -105276,35 +166095,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 670
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG8_16_1_WGM8
+    SolutionIndex: 1026
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU4_LPA0_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -105312,16 +166131,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -105332,56 +166151,64 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2144
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -105391,7 +166218,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -105418,27 +166246,31 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 671
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1027
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -105447,25 +166279,25 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -105473,16 +166305,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -105497,50 +166329,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 32
-    LVCA: 2
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 864
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -105550,8 +166392,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -105577,34 +166420,38 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 672
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1028
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -105617,16 +166464,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -105640,9 +166485,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -105658,52 +166503,60 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 4
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1664
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -105713,7 +166566,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -105740,34 +166594,38 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 673
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1029
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -105780,14 +166638,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -105801,39 +166659,44 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1664
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105845,24 +166708,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -105872,7 +166738,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -105899,47 +166766,51 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 674
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1030
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -105948,7 +166819,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -105956,13 +166827,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -105976,25 +166847,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1664
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106005,7 +166881,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 32
     MacroTile1: 64
     MacroTileA: 32
@@ -106013,17 +166889,20 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -106033,7 +166912,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -106060,56 +166940,60 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 675
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG8_16_1_WGM1
+    SolutionIndex: 1031
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -106123,8 +167007,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -106137,25 +167021,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1664
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106168,23 +167057,28 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -106194,7 +167088,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -106221,52 +167116,54 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 676
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1032
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -106284,8 +167181,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -106298,7 +167195,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -106313,15 +167210,11 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3200
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 2112
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106333,24 +167226,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 96
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -106361,7 +167259,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -106388,27 +167286,31 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 677
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT6_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1033
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -106417,23 +167319,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 32
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -106452,20 +167352,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -106473,22 +167373,22 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106501,25 +167401,26 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -106557,27 +167458,31 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 678
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1034
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT8_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -106586,21 +167491,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -106619,7 +167526,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -106647,15 +167554,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106668,25 +167575,26 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -106698,7 +167606,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -106724,27 +167632,31 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 679
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1035
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA4_LPB4_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -106753,11 +167665,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -106765,9 +167677,11 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -106786,20 +167700,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -106807,33 +167721,33 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -106841,17 +167755,22 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -106889,27 +167808,31 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 680
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_8_2_WGM8
+    SolutionIndex: 1036
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -106928,13 +167851,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -106953,16 +167874,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -106974,51 +167895,56 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 8
-    LVCB: 4
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -107056,34 +167982,38 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
-      NumIndicesSummation: 1
       NumIndicesLD: 4
+      NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 681
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG4_16_4_WGM8
+    SolutionIndex: 1037
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -107096,12 +168026,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
 - [2, 3, 0, 1]
 - - - [1024, 128, 1, 128]
     - [12, 896.219]
@@ -109357,24 +170285,10 @@
     - [95, 6513.35]
   - - [4288, 1024, 1, 128]
     - [80, 4291.67]
-  - - [512, 2048, 1, 49]
-    - [126, 4554.98]
-  - - [512, 128, 1, 784]
-    - [119, 3195.29]
-  - - [2048, 512, 1, 49]
-    - [127, 4253.33]
-  - - [1024, 256, 1, 196]
-    - [123, 4039.33]
   - - [256, 64, 1, 3136]
     - [121, 3015.27]
   - - [256, 1024, 1, 196]
     - [125, 4225.35]
-  - - [64, 256, 1, 3136]
-    - [122, 3058.35]
-  - - [128, 512, 1, 784]
-    - [120, 3380.28]
-  - - [64, 64, 1, 3136]
-    - [124, 1372.34]
   - - [1024, 1024, 1, 3328]
     - [237, 8705.0]
   - - [2048, 200, 1, 3200]
@@ -110025,8 +170939,6 @@
     - [231, 6307.6]
   - - [1024, 512, 1, 4608]
     - [242, 7953.38]
-  - - [2048, 256, 1, 768]
-    - [242, 7059.14]
   - - [4096, 200, 1, 32]
     - [191, 2199.19]
   - - [4096, 200, 1, 3328]
@@ -110209,8 +171121,6 @@
     - [231, 5745.62]
   - - [1024, 200, 1, 1280]
     - [223, 4446.13]
-  - - [4096, 512, 1, 4096]
-    - [141, 9264.39]
   - - [2048, 256, 1, 3200]
     - [231, 7842.75]
   - - [2048, 512, 1, 15360]
@@ -110711,64 +171621,28 @@
     - [237, 6628.17]
   - - [4096, 1024, 1, 6144]
     - [139, 9592.98]
-  - - [1280, 384, 1, 64]
-    - [270, 3196.88]
   - - [256, 64, 1, 1225]
     - [271, 1194.67]
   - - [2048, 320, 1, 64]
     - [273, 3449.26]
-  - - [256, 48, 1, 1225]
-    - [264, 913.398]
-  - - [2048, 192, 1, 64]
-    - [263, 2516.58]
   - - [1024, 128, 1, 289]
     - [277, 2869.68]
-  - - [1280, 192, 1, 64]
-    - [256, 1872.46]
-  - - [192, 32, 1, 1225]
-    - [261, 505.806]
-  - - [1280, 448, 1, 64]
-    - [257, 3078.87]
   - - [384, 64, 1, 1225]
     - [262, 1511.33]
   - - [2048, 384, 1, 64]
     - [275, 3836.25]
-  - - [288, 48, 1, 1225]
-    - [258, 1032.59]
   - - [64, 80, 1, 5329]
     - [274, 888.167]
   - - [1024, 384, 1, 289]
     - [268, 4291.52]
   - - [2048, 448, 1, 64]
     - [267, 3783.52]
-  - - [1280, 320, 1, 64]
-    - [273, 2776.95]
-  - - [192, 64, 1, 1225]
-    - [258, 926.897]
-  - - [384, 192, 1, 1225]
-    - [269, 2560.0]
-  - - [1536, 256, 1, 64]
-    - [276, 2621.44]
-  - - [192, 48, 1, 1225]
-    - [261, 698.614]
-  - - [768, 128, 1, 289]
-    - [278, 2291.12]
-  - - [1024, 256, 1, 289]
-    - [276, 4064.36]
   - - [768, 192, 1, 289]
     - [272, 2690.33]
-  - - [1536, 384, 1, 64]
-    - [259, 3145.73]
   - - [288, 64, 1, 1225]
     - [261, 1142.67]
-  - - [1024, 192, 1, 289]
-    - [266, 3243.13]
   - - [384, 96, 1, 1225]
     - [279, 1844.71]
-  - - [160, 64, 1, 5329]
-    - [265, 1564.48]
-  - - [768, 160, 1, 289]
-    - [260, 2386.58]
   - - [1024, 3392, 1, 4096]
     - [305, 8502.92]
   - - [1024, 3301, 1, 4096]
@@ -112697,5598 +173571,6596 @@
     - [336, 6145.5]
   - - [1024, 3712, 1, 1024]
     - [338, 8933.88]
+  - - [256, 256, 192, 64]
+    - [343, 8264.64]
+  - - [768, 4096, 1, 768]
+    - [356, 9642.08]
+  - - [768, 64, 1, 768]
+    - [353, 1850.43]
+  - - [768, 1280, 1, 768]
+    - [356, 8738.13]
+  - - [30522, 320, 1, 768]
+    - [357, 9733.59]
+  - - [128, 128, 96, 64]
+    - [346, 5470.83]
+  - - [2, 16, 1, 768]
+    - [349, 2.47742]
+  - - [30522, 1280, 1, 768]
+    - [355, 10127.9]
+  - - [30522, 640, 1, 768]
+    - [356, 9987.61]
+  - - [2, 8, 1, 768]
+    - [348, 0.96]
+  - - [768, 4096, 1, 3072]
+    - [358, 9479.41]
+  - - [768, 32, 1, 768]
+    - [352, 880.334]
+  - - [2, 64, 1, 768]
+    - [349, 9.99024]
+  - - [256, 256, 96, 64]
+    - [343, 7614.47]
+  - - [64, 64, 768, 64]
+    - [345, 5354.43]
+  - - [30522, 160, 1, 768]
+    - [354, 7740.11]
+  - - [768, 320, 1, 768]
+    - [347, 5423.67]
+  - - [128, 128, 384, 64]
+    - [344, 7179.98]
+  - - [768, 16, 1, 768]
+    - [350, 706.376]
+  - - [3072, 4096, 1, 768]
+    - [359, 9961.74]
+  - - [2048, 512, 1, 100]
+    - [361, 5180.71]
+  - - [1024, 200, 1, 560]
+    - [362, 4061.19]
+  - - [256, 1280, 1, 1024]
+    - [369, 4337.44]
+  - - [256, 44505, 1, 1024]
+    - [405, 8597.69]
+  - - [10240, 8976, 1, 256]
+    - [408, 9471.43]
+  - - [256, 7168, 1, 1024]
+    - [399, 6718.56]
+  - - [8448, 8976, 1, 256]
+    - [391, 9601.31]
+  - - [18944, 8976, 1, 256]
+    - [400, 9666.26]
+  - - [256, 19200, 1, 1024]
+    - [376, 7488.94]
+  - - [5632, 8976, 1, 256]
+    - [388, 9358.39]
+  - - [256, 23552, 1, 1024]
+    - [403, 7980.89]
+  - - [256, 6656, 1, 1024]
+    - [403, 6287.22]
+  - - [256, 14336, 1, 1024]
+    - [398, 7049.26]
+  - - [256, 12544, 1, 1024]
+    - [376, 6728.47]
+  - - [2048, 684, 1, 768]
+    - [393, 8479.18]
+  - - [5376, 8976, 1, 256]
+    - [388, 9519.51]
+  - - [256, 5888, 1, 1024]
+    - [408, 6012.4]
+  - - [19968, 8976, 1, 256]
+    - [400, 9684.67]
+  - - [3840, 8976, 1, 256]
+    - [385, 9461.89]
+  - - [4608, 8976, 1, 256]
+    - [385, 9305.82]
+  - - [256, 684, 1, 1024]
+    - [411, 3513.06]
+  - - [256, 22016, 1, 1024]
+    - [376, 7643.79]
+  - - [256, 23296, 1, 1024]
+    - [405, 8048.12]
+  - - [4864, 8976, 1, 256]
+    - [383, 9545.62]
+  - - [256, 7424, 1, 1024]
+    - [401, 6770.65]
+  - - [18176, 8976, 1, 256]
+    - [408, 9729.47]
+  - - [256, 15104, 1, 1024]
+    - [397, 7289.08]
+  - - [8192, 8976, 1, 256]
+    - [400, 9395.49]
+  - - [256, 16128, 1, 1024]
+    - [400, 7461.28]
+  - - [13312, 8976, 1, 256]
+    - [408, 9550.97]
+  - - [256, 21504, 1, 1024]
+    - [405, 7635.93]
+  - - [6400, 8976, 1, 256]
+    - [392, 9560.96]
+  - - [256, 8960, 1, 1024]
+    - [367, 6292.36]
+  - - [1792, 8976, 1, 256]
+    - [382, 9372.18]
+  - - [13824, 8976, 1, 256]
+    - [400, 9585.27]
+  - - [11776, 8976, 1, 256]
+    - [400, 9560.34]
+  - - [256, 20992, 1, 1024]
+    - [398, 7490.65]
+  - - [20480, 8976, 1, 256]
+    - [408, 9610.7]
+  - - [5888, 8976, 1, 256]
+    - [379, 9565.2]
+  - - [256, 10496, 1, 1024]
+    - [370, 6631.96]
+  - - [21248, 8976, 1, 256]
+    - [400, 9755.77]
+  - - [5120, 8976, 1, 256]
+    - [408, 9244.59]
+  - - [7168, 8976, 1, 256]
+    - [400, 9388.42]
+  - - [2048, 1536, 1, 768]
+    - [389, 9446.04]
+  - - [256, 8192, 1, 1024]
+    - [394, 6948.89]
+  - - [4096, 8976, 1, 256]
+    - [399, 9115.94]
+  - - [3328, 8976, 1, 256]
+    - [392, 9434.55]
+  - - [1280, 8976, 1, 256]
+    - [390, 9129.8]
+  - - [2560, 8976, 1, 256]
+    - [387, 9199.48]
+  - - [3072, 8976, 1, 256]
+    - [402, 8963.6]
+  - - [256, 11776, 1, 1024]
+    - [380, 6869.8]
+  - - [18688, 8976, 1, 256]
+    - [408, 9726.21]
+  - - [15104, 8976, 1, 256]
+    - [408, 9715.71]
+  - - [23552, 8976, 1, 256]
+    - [400, 9648.42]
+  - - [6144, 8976, 1, 256]
+    - [408, 9339.8]
+  - - [12544, 8976, 1, 256]
+    - [408, 9654.45]
+  - - [256, 11264, 1, 1024]
+    - [381, 6814.98]
+  - - [2048, 114, 1, 512]
+    - [412, 4583.5]
+  - - [4352, 8976, 1, 256]
+    - [392, 9471.4]
+  - - [15360, 8976, 1, 256]
+    - [408, 9583.77]
+  - - [256, 31488, 1, 1024]
+    - [407, 8438.01]
+  - - [28672, 8976, 1, 256]
+    - [400, 9688.85]
+  - - [256, 18176, 1, 1024]
+    - [376, 7405.09]
+  - - [9728, 8976, 1, 256]
+    - [408, 9524.15]
+  - - [256, 2816, 1, 1024]
+    - [372, 5405.66]
+  - - [256, 18944, 1, 1024]
+    - [376, 7503.41]
+  - - [256, 3584, 1, 1024]
+    - [375, 6107.15]
+  - - [7936, 8976, 1, 256]
+    - [388, 9608.31]
+  - - [19712, 8976, 1, 256]
+    - [408, 9736.25]
+  - - [256, 14848, 1, 1024]
+    - [381, 7163.42]
+  - - [256, 8448, 1, 1024]
+    - [381, 6372.56]
+  - - [256, 6400, 1, 1024]
+    - [395, 6395.71]
+  - - [256, 6144, 1, 1024]
+    - [406, 6490.22]
+  - - [9472, 8976, 1, 256]
+    - [385, 9609.92]
+  - - [256, 9984, 1, 1024]
+    - [368, 6484.75]
+  - - [684, 8976, 1, 256]
+    - [377, 8128.53]
+  - - [20992, 8976, 1, 256]
+    - [400, 9689.65]
+  - - [2048, 684, 1, 512]
+    - [384, 7241.78]
+  - - [2048, 114, 1, 768]
+    - [410, 4872.46]
+  - - [8960, 8976, 1, 256]
+    - [383, 9603.35]
+  - - [2048, 1536, 1, 512]
+    - [386, 8830.11]
+  - - [256, 3328, 1, 1024]
+    - [374, 5612.55]
+  - - [33536, 8976, 1, 256]
+    - [400, 9797.71]
+  - - [2048, 8976, 1, 256]
+    - [400, 8975.46]
+  - - [10496, 8976, 1, 256]
+    - [391, 9654.43]
+  - - [256, 5376, 1, 1024]
+    - [409, 5626.34]
+  - - [256, 21248, 1, 1024]
+    - [378, 7525.45]
+  - - [256, 13312, 1, 1024]
+    - [376, 6767.11]
+  - - [16128, 8976, 1, 256]
+    - [400, 9715.57]
+  - - [2304, 8976, 1, 256]
+    - [373, 9433.83]
+  - - [256, 4864, 1, 1024]
+    - [363, 5743.55]
+  - - [17152, 8976, 1, 256]
+    - [408, 9708.94]
+  - - [15872, 8976, 1, 256]
+    - [408, 9657.57]
+  - - [9984, 8976, 1, 256]
+    - [385, 9639.74]
+  - - [256, 14592, 1, 1024]
+    - [397, 7223.92]
+  - - [256, 33536, 1, 1024]
+    - [404, 8147.31]
+  - - [11264, 8976, 1, 256]
+    - [400, 9509.96]
+  - - [31488, 8976, 1, 256]
+    - [408, 9799.31]
+  - - [256, 20480, 1, 1024]
+    - [381, 7498.2]
+  - - [44505, 8976, 1, 256]
+    - [392, 9804.78]
+  - - [13568, 8976, 1, 256]
+    - [400, 9680.24]
+  - - [256, 11520, 1, 1024]
+    - [380, 6805.26]
+  - - [256, 7936, 1, 1024]
+    - [396, 6971.77]
+  - - [2048, 256, 1, 768]
+    - [366, 7129.13]
+  - - [256, 4608, 1, 1024]
+    - [364, 5462.91]
+  - - [256, 2304, 1, 1024]
+    - [371, 4842.69]
+  - - [256, 2560, 1, 1024]
+    - [372, 5309.25]
+  - - [2816, 8976, 1, 256]
+    - [383, 9409.56]
+  - - [1728, 320, 1, 64]
+    - [419, 3205.57]
+  - - [1152, 128, 1, 784]
+    - [466, 3498.96]
+  - - [576, 96, 1, 5329]
+    - [452, 3947.92]
+  - - [864, 96, 1, 1225]
+    - [473, 3009.67]
+  - - [256, 128, 1, 784]
+    - [463, 1536.49]
+  - - [1440, 320, 1, 196]
+    - [416, 4824.62]
+  - - [192, 48, 1, 1225]
+    - [494, 820.465]
+  - - [2592, 384, 1, 289]
+    - [434, 7353.01]
+  - - [192, 80, 36, 10368]
+    - [484, 5360.04]
+  - - [896, 192, 1, 289]
+    - [451, 3076.56]
+  - - [768, 128, 1, 289]
+    - [476, 2351.81]
+  - - [64, 256, 1, 3136]
+    - [502, 1809.16]
+  - - [1280, 384, 1, 64]
+    - [416, 3171.1]
+  - - [512, 144, 1, 196]
+    - [474, 1445.07]
+  - - [1344, 192, 1, 289]
+    - [457, 4376.52]
+  - - [288, 64, 1, 21609]
+    - [468, 3396.12]
+  - - [400, 32, 1, 784]
+    - [495, 922.353]
+  - - [288, 32, 1, 21609]
+    - [506, 2816.01]
+  - - [1280, 448, 1, 64]
+    - [419, 3253.56]
+  - - [3456, 256, 1, 169]
+    - [431, 5822.44]
+  - - [2304, 256, 1, 196]
+    - [429, 4931.98]
+  - - [384, 192, 1, 1225]
+    - [477, 2720.39]
+  - - [832, 48, 1, 49]
+    - [472, 344.518]
+  - - [832, 192, 1, 49]
+    - [454, 1099.36]
+  - - [1280, 192, 1, 64]
+    - [455, 2069.56]
+  - - [192, 32, 1, 784]
+    - [494, 459.627]
+  - - [288, 48, 1, 1225]
+    - [501, 1176.0]
+  - - [512, 112, 1, 196]
+    - [469, 1277.21]
+  - - [224, 192, 36, 2592]
+    - [486, 7369.56]
+  - - [528, 32, 1, 196]
+    - [460, 440.374]
+  - - [192, 128, 36, 1568]
+    - [485, 8245.76]
+  - - [4032, 384, 1, 64]
+    - [430, 5898.24]
+  - - [576, 64, 1, 3136]
+    - [475, 2671.11]
+  - - [2048, 32, 1, 1001]
+    - [477, 2323.0]
+  - - [480, 64, 1, 196]
+    - [462, 752.64]
+  - - [512, 256, 1, 196]
+    - [464, 2528.55]
+  - - [864, 96, 1, 289]
+    - [474, 1958.4]
+  - - [896, 128, 1, 289]
+    - [477, 2725.73]
+  - - [192, 64, 1, 784]
+    - [492, 898.675]
+  - - [1200, 64, 1, 1225]
+    - [476, 2780.14]
+  - - [1296, 288, 1, 196]
+    - [415, 3826.18]
+  - - [576, 96, 1, 5041]
+    - [456, 3795.58]
+  - - [1024, 256, 1, 289]
+    - [445, 4488.13]
+  - - [1024, 2048, 1, 49]
+    - [435, 5077.1]
+  - - [192, 64, 36, 6272]
+    - [479, 7514.98]
+  - - [4096, 512, 1, 4096]
+    - [441, 10276.0]
+  - - [192, 32, 1, 1225]
+    - [495, 556.686]
+  - - [1024, 256, 1, 196]
+    - [455, 3892.44]
+  - - [1120, 192, 1, 289]
+    - [444, 3752.81]
+  - - [400, 48, 1, 196]
+    - [469, 480.0]
+  - - [1728, 224, 1, 1225]
+    - [422, 5575.77]
+  - - [800, 96, 1, 784]
+    - [476, 2668.94]
+  - - [1152, 384, 1, 64]
+    - [426, 3077.34]
+  - - [4608, 512, 1, 49]
+    - [433, 4676.6]
+  - - [1792, 256, 1, 289]
+    - [426, 5345.94]
+  - - [864, 128, 1, 784]
+    - [476, 3816.2]
+  - - [1728, 384, 1, 169]
+    - [428, 5191.68]
+  - - [480, 16, 1, 196]
+    - [497, 241.231]
+  - - [1568, 256, 1, 289]
+    - [416, 4723.41]
+  - - [1152, 448, 1, 64]
+    - [422, 3356.72]
+  - - [512, 64, 1, 196]
+    - [461, 802.816]
+  - - [1344, 224, 1, 289]
+    - [416, 3519.63]
+  - - [9216, 512, 1, 4096]
+    - [439, 9146.02]
+  - - [27, 32, 1, 22201]
+    - [507, 264.356]
+  - - [1152, 192, 1, 784]
+    - [446, 4904.08]
+  - - [1536, 256, 1, 64]
+    - [414, 2578.47]
+  - - [800, 128, 1, 196]
+    - [476, 1991.11]
+  - - [800, 64, 1, 196]
+    - [471, 1150.83]
+  - - [864, 208, 1, 196]
+    - [448, 2684.72]
+  - - [1440, 320, 1, 49]
+    - [417, 2313.44]
+  - - [512, 128, 1, 784]
+    - [467, 2780.32]
+  - - [720, 192, 1, 5041]
+    - [442, 5410.46]
+  - - [256, 64, 1, 784]
+    - [499, 1163.5]
+  - - [256, 48, 1, 1225]
+    - [494, 1075.2]
+  - - [576, 192, 1, 3136]
+    - [442, 4833.01]
+  - - [160, 64, 1, 5329]
+    - [496, 1753.5]
+  - - [3456, 384, 1, 289]
+    - [436, 7341.75]
+  - - [32, 32, 36, 43808]
+    - [490, 1378.03]
+  - - [1344, 512, 1, 64]
+    - [415, 3822.93]
+  - - [192, 16, 1, 784]
+    - [495, 228.073]
+  - - [3456, 384, 1, 169]
+    - [432, 6675.02]
+  - - [1152, 256, 1, 196]
+    - [425, 3211.26]
+  - - [1728, 192, 1, 1225]
+    - [426, 4852.26]
+  - - [2048, 512, 1, 49]
+    - [438, 3471.64]
+  - - [576, 96, 1, 1225]
+    - [469, 2176.66]
+  - - [512, 2048, 1, 49]
+    - [420, 3845.83]
+  - - [1728, 192, 1, 64]
+    - [415, 2369.83]
+  - - [832, 256, 1, 49]
+    - [445, 1433.6]
+  - - [512, 128, 1, 196]
+    - [470, 1459.67]
+  - - [1200, 128, 1, 49]
+    - [465, 1069.09]
+  - - [528, 256, 1, 196]
+    - [453, 2069.76]
+  - - [256, 512, 1, 784]
+    - [476, 4538.89]
+  - - [480, 192, 1, 196]
+    - [476, 1792.0]
+  - - [96, 64, 36, 2592]
+    - [483, 4845.41]
+  - - [96, 96, 36, 2592]
+    - [488, 5111.53]
+  - - [1024, 192, 1, 289]
+    - [450, 3431.14]
+  - - [1536, 384, 1, 64]
+    - [421, 3166.84]
+  - - [192, 96, 1, 784]
+    - [461, 881.14]
+  - - [2048, 192, 1, 64]
+    - [418, 2330.17]
+  - - [192, 64, 1, 1225]
+    - [500, 1100.35]
+  - - [512, 32, 1, 196]
+    - [491, 477.867]
+  - - [128, 96, 36, 1568]
+    - [487, 6649.09]
+  - - [528, 128, 1, 196]
+    - [473, 1403.23]
+  - - [128, 512, 1, 784]
+    - [463, 2237.81]
+  - - [128, 128, 36, 3136]
+    - [480, 6538.77]
+  - - [528, 160, 1, 196]
+    - [477, 1642.67]
+  - - [448, 64, 1, 5329]
+    - [452, 3264.81]
+  - - [1280, 320, 1, 64]
+    - [416, 2776.95]
+  - - [1792, 320, 1, 289]
+    - [428, 5204.9]
+  - - [2880, 320, 1, 64]
+    - [424, 4336.94]
+  - - [147, 64, 1, 12544]
+    - [505, 2430.27]
+  - - [4096, 512, 1, 1001]
+    - [440, 9618.99]
+  - - [1536, 32, 1, 1001]
+    - [477, 1757.18]
+  - - [512, 160, 1, 196]
+    - [473, 1592.89]
+  - - [768, 160, 1, 289]
+    - [474, 2757.17]
+  - - [1728, 384, 1, 49]
+    - [426, 3102.49]
+  - - [64, 32, 36, 43808]
+    - [481, 2626.43]
+  - - [64, 64, 1, 3136]
+    - [493, 610.506]
+  - - [256, 32, 1, 784]
+    - [494, 612.837]
+  - - [480, 96, 1, 196]
+    - [469, 1055.1]
+  - - [1024, 32, 1, 1001]
+    - [459, 1188.43]
+  - - [832, 160, 1, 49]
+    - [474, 959.247]
+  - - [512, 1024, 1, 196]
+    - [417, 4978.7]
+  - - [96, 64, 36, 10368]
+    - [511, 5000.95]
+  - - [384, 448, 36, 512]
+    - [516, 8903.0]
+  - - [2048, 64, 1, 1001]
+    - [509, 4385.13]
+  - - [224, 192, 36, 5184]
+    - [515, 7487.81]
+  - - [2048, 128, 1, 1001]
+    - [508, 5764.63]
+  - - [96, 96, 36, 10368]
+    - [517, 5275.21]
+  - - [192, 80, 36, 20736]
+    - [513, 5409.4]
+  - - [96, 64, 36, 5184]
+    - [511, 4911.83]
+  - - [1536, 64, 1, 1001]
+    - [510, 3162.03]
+  - - [96, 64, 36, 20736]
+    - [512, 5034.33]
+  - - [384, 448, 36, 256]
+    - [514, 8815.87]
+  - - [96, 96, 36, 5184]
+    - [518, 5236.02]
   - - [1024, 128, 1, 128]
-    - [353, 896.319]
+    - [531, 896.319]
   - - [4, 704, 1, 1280]
-    - [390, 328.976]
+    - [568, 328.976]
   - - [4, 1856, 1, 3328]
-    - [400, 501.461]
+    - [578, 501.461]
   - - [1856, 448, 1, 3328]
-    - [445, 5678.01]
+    - [623, 5678.01]
   - - [2944, 4288, 1, 1280]
-    - [431, 8412.49]
+    - [609, 8412.49]
   - - [2368, 64, 1, 3328]
-    - [381, 4914.02]
+    - [559, 4914.02]
   - - [1760, 32, 1, 1760]
-    - [408, 3313.04]
+    - [586, 3313.04]
   - - [2368, 5888, 1, 256]
-    - [431, 6489.82]
+    - [609, 6489.82]
   - - [5888, 1856, 1, 256]
-    - [443, 7791.98]
+    - [621, 7791.98]
   - - [128, 64, 1, 256]
-    - [415, 369.317]
+    - [593, 369.317]
   - - [512, 24000, 1, 1536]
-    - [437, 8827.47]
+    - [615, 8827.47]
   - - [128, 6784, 1, 3328]
-    - [437, 6537.09]
+    - [615, 6537.09]
   - - [5888, 1408, 1, 256]
-    - [451, 6129.71]
+    - [629, 6129.71]
   - - [5888, 1856, 1, 3328]
-    - [437, 7969.27]
+    - [615, 7969.27]
   - - [5056, 704, 1, 256]
-    - [437, 6723.92]
+    - [615, 6723.92]
   - - [2048, 400, 1, 512]
-    - [443, 4531.54]
+    - [621, 4531.54]
   - - [5888, 2944, 1, 3328]
-    - [443, 8608.14]
+    - [621, 8608.14]
   - - [1856, 4288, 1, 256]
-    - [443, 6297.64]
+    - [621, 6297.64]
   - - [1024, 5056, 1, 128]
-    - [421, 3595.47]
+    - [599, 3595.47]
   - - [5056, 5056, 1, 3328]
-    - [437, 8559.26]
+    - [615, 8559.26]
   - - [1408, 5888, 1, 1280]
-    - [432, 6797.16]
+    - [610, 6797.16]
   - - [2368, 448, 1, 128]
-    - [421, 2815.0]
+    - [599, 2815.0]
   - - [2368, 6784, 1, 128]
-    - [425, 4782.08]
+    - [603, 4782.08]
   - - [1024, 3584, 1, 3328]
-    - [433, 8402.54]
+    - [611, 8402.54]
   - - [512, 48000, 1, 2048]
-    - [437, 8162.33]
+    - [615, 8162.33]
   - - [128, 448, 1, 1280]
-    - [408, 2903.59]
+    - [586, 2903.59]
   - - [256, 4288, 1, 3328]
-    - [438, 6346.04]
+    - [616, 6346.04]
   - - [5888, 1408, 1, 1280]
-    - [437, 8959.55]
+    - [615, 8959.55]
   - - [704, 1856, 1, 3328]
-    - [432, 6955.37]
+    - [610, 6955.37]
   - - [4, 1408, 1, 128]
-    - [452, 60.1747]
+    - [630, 60.1747]
   - - [1024, 2368, 1, 256]
-    - [439, 5927.88]
+    - [617, 5927.88]
   - - [64, 4, 1, 256]
-    - [457, 13.3129]
+    - [635, 13.3129]
   - - [1408, 1856, 1, 1280]
-    - [435, 8051.68]
+    - [613, 8051.68]
   - - [1408, 64, 1, 1280]
-    - [411, 3400.55]
+    - [589, 3400.55]
   - - [448, 1024, 1, 1280]
-    - [439, 5730.02]
+    - [617, 5730.02]
   - - [6144, 24000, 1, 2048]
-    - [443, 7738.4]
+    - [621, 7738.4]
   - - [4096, 32, 1, 4096]
-    - [381, 2381.53]
+    - [559, 2381.53]
   - - [256, 1408, 1, 3328]
-    - [439, 4844.88]
+    - [617, 4844.88]
   - - [5056, 5056, 1, 1280]
-    - [443, 9090.2]
+    - [621, 9090.2]
   - - [448, 5056, 1, 256]
-    - [449, 4961.28]
+    - [627, 4961.28]
   - - [704, 1856, 1, 1280]
-    - [435, 6456.54]
+    - [613, 6456.54]
   - - [128, 5056, 1, 128]
-    - [364, 2251.12]
+    - [542, 2251.12]
   - - [2368, 128, 1, 256]
-    - [432, 3403.37]
+    - [610, 3403.37]
   - - [1760, 6400, 1, 1760]
-    - [431, 8959.8]
+    - [609, 8959.8]
   - - [1856, 1408, 1, 128]
-    - [424, 3493.16]
+    - [602, 3493.16]
   - - [64, 5056, 1, 256]
-    - [433, 2582.32]
+    - [611, 2582.32]
   - - [6784, 256, 1, 3328]
-    - [431, 7323.64]
+    - [609, 7323.64]
   - - [6784, 4288, 1, 3328]
-    - [433, 8542.19]
+    - [611, 8542.19]
   - - [4288, 448, 1, 256]
-    - [449, 5030.6]
+    - [627, 5030.6]
   - - [64, 704, 1, 128]
-    - [366, 375.567]
+    - [544, 375.567]
   - - [1856, 2368, 1, 3328]
-    - [442, 6742.44]
+    - [620, 6742.44]
   - - [4288, 2944, 1, 1280]
-    - [443, 8578.27]
+    - [621, 8578.27]
   - - [704, 5056, 1, 1280]
-    - [439, 8014.55]
+    - [617, 8014.55]
   - - [2368, 704, 1, 3328]
-    - [438, 6544.41]
+    - [616, 6544.41]
   - - [256, 5888, 1, 256]
-    - [436, 5933.0]
+    - [614, 5933.0]
   - - [1856, 4288, 1, 3328]
-    - [442, 7410.82]
+    - [620, 7410.82]
   - - [256, 2944, 1, 256]
-    - [438, 5014.08]
+    - [616, 5014.08]
   - - [5888, 1024, 1, 256]
-    - [443, 8069.44]
+    - [621, 8069.44]
   - - [448, 64, 1, 1280]
-    - [418, 2057.28]
+    - [596, 2057.28]
   - - [3072, 64, 1, 1024]
-    - [398, 2145.52]
+    - [576, 2145.52]
   - - [3584, 4, 1, 1280]
-    - [390, 498.743]
+    - [568, 498.743]
   - - [16384, 3200, 1, 4096]
-    - [430, 6621.53]
+    - [608, 6621.53]
   - - [2944, 64, 1, 256]
-    - [438, 2554.89]
+    - [616, 2554.89]
   - - [128, 4, 1, 1280]
-    - [400, 87.2489]
+    - [578, 87.2489]
   - - [1408, 2944, 1, 256]
-    - [437, 8029.45]
+    - [615, 8029.45]
   - - [256, 1856, 1, 1280]
-    - [432, 6170.7]
+    - [610, 6170.7]
   - - [6784, 5056, 1, 3328]
-    - [441, 7134.29]
+    - [619, 7134.29]
   - - [5056, 5056, 1, 256]
-    - [449, 6246.9]
+    - [627, 6246.9]
   - - [1408, 6784, 1, 128]
-    - [426, 4329.55]
+    - [604, 4329.55]
   - - [64, 1024, 1, 1280]
-    - [408, 3206.75]
+    - [586, 3206.75]
   - - [2944, 4, 1, 256]
-    - [457, 333.58]
+    - [635, 333.58]
   - - [704, 5056, 1, 128]
-    - [421, 4085.52]
+    - [599, 4085.52]
   - - [4, 2368, 1, 1280]
-    - [458, 394.767]
+    - [636, 394.767]
   - - [2368, 2944, 1, 1280]
-    - [437, 8634.05]
+    - [615, 8634.05]
   - - [128, 3584, 1, 1280]
-    - [438, 6046.25]
+    - [616, 6046.25]
   - - [6784, 6784, 1, 1280]
-    - [443, 8847.51]
+    - [621, 8847.51]
   - - [1408, 4288, 1, 1280]
-    - [443, 8236.79]
+    - [621, 8236.79]
   - - [3584, 4288, 1, 1280]
-    - [438, 7399.98]
+    - [616, 7399.98]
   - - [2368, 704, 1, 1280]
-    - [431, 6754.5]
+    - [609, 6754.5]
   - - [5056, 4288, 1, 3328]
-    - [437, 8569.63]
+    - [615, 8569.63]
   - - [3584, 2368, 1, 3328]
-    - [442, 7942.48]
+    - [620, 7942.48]
   - - [64, 704, 1, 1280]
-    - [411, 2363.69]
+    - [589, 2363.69]
   - - [4288, 256, 1, 256]
-    - [439, 4591.9]
+    - [617, 4591.9]
   - - [2944, 128, 1, 128]
-    - [364, 1878.39]
+    - [542, 1878.39]
   - - [6144, 32, 1, 2560]
-    - [409, 3334.2]
+    - [587, 3334.2]
   - - [6784, 448, 1, 1280]
-    - [441, 7939.3]
+    - [619, 7939.3]
   - - [1408, 2944, 1, 128]
-    - [425, 4096.61]
+    - [603, 4096.61]
   - - [4288, 2944, 1, 256]
-    - [431, 8141.23]
+    - [609, 8141.23]
   - - [5888, 704, 1, 1280]
-    - [432, 7516.23]
+    - [610, 7516.23]
   - - [5056, 4, 1, 3328]
-    - [375, 552.509]
+    - [553, 552.509]
   - - [1856, 64, 1, 1280]
-    - [381, 3870.86]
+    - [559, 3870.86]
   - - [1760, 16, 1, 1760]
-    - [393, 2181.51]
+    - [571, 2181.51]
   - - [448, 5888, 1, 128]
-    - [426, 3371.1]
+    - [604, 3371.1]
   - - [5888, 64, 1, 3328]
-    - [406, 5319.48]
+    - [584, 5319.48]
   - - [2944, 256, 1, 3328]
-    - [438, 7122.4]
+    - [616, 7122.4]
   - - [1024, 64, 1, 128]
-    - [353, 595.882]
+    - [531, 595.882]
   - - [5056, 2368, 1, 1280]
-    - [432, 7778.29]
+    - [610, 7778.29]
   - - [448, 3584, 1, 1280]
-    - [437, 6500.62]
+    - [615, 6500.62]
   - - [6784, 5888, 1, 256]
-    - [437, 8918.68]
+    - [615, 8918.68]
   - - [704, 1024, 1, 128]
-    - [421, 2627.51]
+    - [599, 2627.51]
   - - [704, 128, 1, 1280]
-    - [408, 3408.59]
+    - [586, 3408.59]
   - - [4, 3584, 1, 128]
-    - [452, 140.821]
+    - [630, 140.821]
   - - [1408, 448, 1, 1280]
-    - [432, 5881.54]
+    - [610, 5881.54]
   - - [1024, 1408, 1, 256]
-    - [436, 5647.27]
+    - [614, 5647.27]
   - - [2368, 2368, 1, 3328]
-    - [430, 7688.83]
+    - [608, 7688.83]
   - - [1856, 6784, 1, 128]
-    - [421, 4705.95]
+    - [599, 4705.95]
   - - [5056, 704, 1, 3328]
-    - [441, 8198.98]
+    - [619, 8198.98]
   - - [1408, 1856, 1, 256]
-    - [443, 6340.05]
+    - [621, 6340.05]
   - - [1408, 704, 1, 3328]
-    - [435, 7599.65]
+    - [613, 7599.65]
   - - [2368, 5056, 1, 256]
-    - [443, 8242.85]
+    - [621, 8242.85]
   - - [1408, 256, 1, 1280]
-    - [438, 4879.26]
+    - [616, 4879.26]
   - - [3072, 128, 1, 1024]
-    - [407, 2525.52]
+    - [585, 2525.52]
   - - [3584, 2368, 1, 1280]
-    - [439, 8132.72]
+    - [617, 8132.72]
   - - [4288, 64, 1, 3328]
-    - [394, 5156.53]
+    - [572, 5156.53]
   - - [2368, 4, 1, 1280]
-    - [456, 482.75]
+    - [634, 482.75]
   - - [704, 5888, 1, 256]
-    - [446, 5398.75]
+    - [624, 5398.75]
   - - [6784, 2944, 1, 128]
-    - [422, 4748.99]
+    - [600, 4748.99]
   - - [2560, 1600, 1, 2560]
-    - [433, 7355.0]
+    - [611, 7355.0]
   - - [4288, 6784, 1, 3328]
-    - [430, 7409.41]
+    - [608, 7409.41]
   - - [2944, 256, 1, 256]
-    - [438, 5077.42]
+    - [616, 5077.42]
   - - [2944, 6784, 1, 3328]
-    - [443, 8068.05]
+    - [621, 8068.05]
   - - [704, 1408, 1, 3328]
-    - [438, 7239.43]
+    - [616, 7239.43]
   - - [6144, 5984, 1, 2048]
-    - [437, 7176.07]
+    - [615, 7176.07]
   - - [3584, 704, 1, 3328]
-    - [443, 6642.86]
+    - [621, 6642.86]
   - - [2944, 256, 1, 128]
-    - [422, 2644.54]
+    - [600, 2644.54]
   - - [6784, 4, 1, 1280]
-    - [454, 402.487]
+    - [632, 402.487]
   - - [1024, 64, 1, 1280]
-    - [408, 2602.03]
+    - [586, 2602.03]
   - - [2048, 1600, 1, 512]
-    - [435, 5592.5]
+    - [613, 5592.5]
   - - [448, 4288, 1, 256]
-    - [433, 6128.99]
+    - [611, 6128.99]
   - - [64, 3584, 1, 3328]
-    - [374, 5534.93]
+    - [552, 5534.93]
   - - [1856, 4288, 1, 128]
-    - [424, 4400.11]
+    - [602, 4400.11]
   - - [704, 2368, 1, 1280]
-    - [449, 5735.02]
+    - [627, 5735.02]
   - - [1856, 2368, 1, 1280]
-    - [446, 6482.4]
+    - [624, 6482.4]
   - - [2368, 128, 1, 3328]
-    - [419, 4717.32]
+    - [597, 4717.32]
   - - [2944, 128, 1, 256]
-    - [446, 3276.9]
+    - [624, 3276.9]
   - - [448, 1408, 1, 256]
-    - [438, 4852.28]
+    - [616, 4852.28]
   - - [1856, 4288, 1, 1280]
-    - [433, 8132.96]
+    - [611, 8132.96]
   - - [64, 5056, 1, 3328]
-    - [409, 5097.06]
+    - [587, 5097.06]
   - - [4, 704, 1, 256]
-    - [456, 128.831]
+    - [634, 128.831]
   - - [1024, 448, 1, 128]
-    - [421, 1816.94]
+    - [599, 1816.94]
   - - [704, 4, 1, 1280]
-    - [457, 328.976]
+    - [635, 328.976]
   - - [704, 256, 1, 128]
-    - [425, 876.569]
+    - [603, 876.569]
   - - [704, 2944, 1, 128]
-    - [425, 3734.47]
+    - [603, 3734.47]
   - - [1408, 1024, 1, 1280]
-    - [433, 7224.85]
+    - [611, 7224.85]
   - - [704, 6784, 1, 256]
-    - [437, 7354.77]
+    - [615, 7354.77]
   - - [6784, 704, 1, 256]
-    - [433, 6012.28]
+    - [611, 6012.28]
   - - [5056, 1408, 1, 128]
-    - [426, 4311.28]
+    - [604, 4311.28]
   - - [2048, 7000, 1, 2048]
-    - [437, 7232.07]
+    - [615, 7232.07]
   - - [256, 3584, 1, 3328]
-    - [441, 7006.0]
+    - [619, 7006.0]
   - - [4, 5888, 1, 3328]
-    - [459, 534.612]
+    - [637, 534.612]
   - - [128, 1408, 1, 128]
-    - [351, 1177.07]
+    - [529, 1177.07]
   - - [3584, 4288, 1, 3328]
-    - [443, 7135.0]
+    - [621, 7135.0]
   - - [5888, 1856, 1, 1280]
-    - [431, 8395.03]
+    - [609, 8395.03]
   - - [256, 1408, 1, 256]
-    - [432, 3977.46]
+    - [610, 3977.46]
   - - [5056, 64, 1, 1280]
-    - [432, 4257.78]
+    - [610, 4257.78]
   - - [1024, 704, 1, 256]
-    - [432, 5036.93]
+    - [610, 5036.93]
   - - [448, 128, 1, 128]
-    - [353, 533.533]
+    - [531, 533.533]
   - - [2368, 3584, 1, 1280]
-    - [437, 8272.43]
+    - [615, 8272.43]
   - - [2368, 6784, 1, 1280]
-    - [430, 8288.24]
+    - [608, 8288.24]
   - - [1856, 4, 1, 1280]
-    - [370, 464.1]
+    - [548, 464.1]
   - - [448, 448, 1, 256]
-    - [432, 3058.45]
+    - [610, 3058.45]
   - - [2944, 3584, 1, 3328]
-    - [437, 8557.63]
+    - [615, 8557.63]
   - - [7680, 32, 1, 2560]
-    - [409, 3729.03]
+    - [587, 3729.03]
   - - [128, 4288, 1, 128]
-    - [352, 2116.2]
+    - [530, 2116.2]
   - - [256, 256, 1, 3328]
-    - [408, 4051.06]
+    - [586, 4051.06]
   - - [128, 1024, 1, 3328]
-    - [381, 5139.21]
+    - [559, 5139.21]
   - - [4, 1408, 1, 3328]
-    - [400, 502.871]
+    - [578, 502.871]
   - - [6784, 2944, 1, 256]
-    - [431, 8446.06]
+    - [609, 8446.06]
   - - [64, 1856, 1, 1280]
-    - [373, 3870.86]
+    - [551, 3870.86]
   - - [6784, 64, 1, 128]
-    - [421, 1877.62]
+    - [599, 1877.62]
   - - [4288, 2368, 1, 3328]
-    - [441, 8419.4]
+    - [619, 8419.4]
   - - [1856, 2368, 1, 256]
-    - [435, 6887.48]
+    - [613, 6887.48]
   - - [3584, 256, 1, 128]
-    - [425, 2496.71]
+    - [603, 2496.71]
   - - [3584, 6784, 1, 3328]
-    - [437, 7626.18]
+    - [615, 7626.18]
   - - [256, 1024, 1, 256]
-    - [438, 3095.53]
+    - [616, 3095.53]
   - - [4, 6784, 1, 3328]
-    - [400, 589.274]
+    - [578, 589.274]
   - - [1024, 5888, 1, 3328]
-    - [437, 7794.35]
+    - [615, 7794.35]
   - - [1024, 128, 1, 1280]
-    - [410, 3130.18]
+    - [588, 3130.18]
   - - [3072, 32, 1, 1024]
-    - [397, 1675.59]
+    - [575, 1675.59]
   - - [6144, 24000, 1, 2560]
-    - [437, 7256.14]
+    - [615, 7256.14]
   - - [5056, 4288, 1, 1280]
-    - [435, 8349.03]
+    - [613, 8349.03]
   - - [5888, 64, 1, 256]
-    - [384, 2593.35]
+    - [562, 2593.35]
   - - [6784, 1856, 1, 3328]
-    - [431, 8087.38]
+    - [609, 8087.38]
   - - [1408, 5056, 1, 1280]
-    - [433, 7802.63]
+    - [611, 7802.63]
   - - [1856, 256, 1, 1280]
-    - [438, 6150.73]
+    - [616, 6150.73]
   - - [64, 5888, 1, 3328]
-    - [405, 5301.49]
+    - [583, 5301.49]
   - - [2368, 2368, 1, 1280]
-    - [435, 8233.43]
+    - [613, 8233.43]
   - - [2944, 5888, 1, 128]
-    - [428, 3745.51]
+    - [606, 3745.51]
   - - [704, 5888, 1, 1280]
-    - [433, 8245.04]
+    - [611, 8245.04]
   - - [2368, 3584, 1, 128]
-    - [425, 4523.43]
+    - [603, 4523.43]
   - - [1856, 5056, 1, 128]
-    - [422, 4498.08]
+    - [600, 4498.08]
   - - [704, 1024, 1, 1280]
-    - [446, 5479.59]
+    - [624, 5479.59]
   - - [448, 256, 1, 3328]
-    - [389, 5048.8]
+    - [567, 5048.8]
   - - [448, 1856, 1, 128]
-    - [422, 2936.92]
+    - [600, 2936.92]
   - - [8192, 3200, 1, 2048]
-    - [431, 6713.12]
+    - [609, 6713.12]
   - - [128, 1024, 1, 128]
-    - [367, 998.744]
+    - [545, 998.744]
   - - [2944, 4, 1, 128]
-    - [452, 98.7471]
+    - [630, 98.7471]
   - - [1024, 704, 1, 1280]
-    - [438, 5897.0]
+    - [616, 5897.0]
   - - [128, 5888, 1, 256]
-    - [438, 5014.08]
+    - [616, 5014.08]
   - - [1024, 5056, 1, 1280]
-    - [437, 8857.81]
+    - [615, 8857.81]
   - - [4288, 1024, 1, 256]
-    - [443, 6195.39]
+    - [621, 6195.39]
   - - [2944, 2368, 1, 128]
-    - [421, 4442.23]
+    - [599, 4442.23]
   - - [704, 704, 1, 3328]
-    - [438, 6764.4]
+    - [616, 6764.4]
   - - [704, 1408, 1, 1280]
-    - [439, 7383.58]
+    - [617, 7383.58]
   - - [5888, 448, 1, 1280]
-    - [437, 7299.49]
+    - [615, 7299.49]
   - - [3584, 256, 1, 3328]
-    - [435, 7061.72]
+    - [613, 7061.72]
   - - [704, 5888, 1, 3328]
-    - [439, 8142.42]
+    - [617, 8142.42]
   - - [704, 1856, 1, 128]
-    - [425, 3139.14]
+    - [603, 3139.14]
   - - [448, 448, 1, 3328]
-    - [403, 5063.34]
+    - [581, 5063.34]
   - - [4, 4288, 1, 128]
-    - [453, 64.9775]
+    - [631, 64.9775]
   - - [128, 704, 1, 1280]
-    - [373, 3400.55]
+    - [551, 3400.55]
   - - [3584, 2944, 1, 256]
-    - [443, 7982.14]
+    - [621, 7982.14]
   - - [3584, 4, 1, 128]
-    - [452, 105.318]
+    - [630, 105.318]
   - - [1856, 128, 1, 3328]
-    - [404, 5442.19]
+    - [582, 5442.19]
   - - [4, 64, 1, 1280]
-    - [458, 42.3268]
+    - [636, 42.3268]
   - - [2944, 448, 1, 128]
-    - [421, 2926.95]
+    - [599, 2926.95]
   - - [128, 2944, 1, 1280]
-    - [432, 5109.69]
+    - [610, 5109.69]
   - - [64, 64, 1, 3328]
-    - [400, 1252.99]
+    - [578, 1252.99]
   - - [448, 2944, 1, 1280]
-    - [441, 6684.47]
+    - [619, 6684.47]
   - - [512, 24000, 1, 2048]
-    - [437, 7939.03]
+    - [615, 7939.03]
   - - [128, 256, 1, 3328]
-    - [418, 3276.9]
+    - [596, 3276.9]
   - - [1408, 5056, 1, 3328]
-    - [443, 8959.21]
+    - [621, 8959.21]
   - - [1856, 1856, 1, 3328]
-    - [433, 8006.17]
+    - [611, 8006.17]
   - - [3584, 128, 1, 256]
-    - [438, 4292.52]
+    - [616, 4292.52]
   - - [2560, 800, 1, 2560]
-    - [433, 6262.48]
+    - [611, 6262.48]
   - - [448, 1408, 1, 3328]
-    - [449, 4997.35]
+    - [627, 4997.35]
   - - [2368, 2368, 1, 256]
-    - [451, 4978.94]
+    - [629, 4978.94]
   - - [4288, 4288, 1, 1280]
-    - [430, 8617.78]
+    - [608, 8617.78]
   - - [64, 448, 1, 1280]
-    - [376, 2057.28]
+    - [554, 2057.28]
   - - [5888, 1024, 1, 1280]
-    - [448, 6848.17]
+    - [626, 6848.17]
   - - [1408, 4288, 1, 256]
-    - [431, 7077.01]
+    - [609, 7077.01]
   - - [448, 4, 1, 256]
-    - [456, 84.4294]
+    - [634, 84.4294]
   - - [5888, 448, 1, 128]
-    - [425, 3493.91]
+    - [603, 3493.91]
   - - [512, 48000, 1, 2560]
-    - [443, 8960.13]
+    - [621, 8960.13]
   - - [35, 8457, 1, 1760]
-    - [345, 3934.78]
+    - [523, 3934.78]
   - - [704, 6784, 1, 3328]
-    - [430, 8180.88]
+    - [608, 8180.88]
   - - [2560, 6400, 1, 2560]
-    - [431, 7822.24]
+    - [609, 7822.24]
   - - [5056, 1024, 1, 1280]
-    - [433, 8357.38]
+    - [611, 8357.38]
   - - [448, 5888, 1, 3328]
-    - [437, 7505.28]
+    - [615, 7505.28]
   - - [128, 4, 1, 128]
-    - [452, 0.662251]
+    - [630, 0.662251]
   - - [1024, 2944, 1, 1280]
-    - [437, 8406.24]
+    - [615, 8406.24]
   - - [5056, 5888, 1, 1280]
-    - [437, 8819.76]
+    - [615, 8819.76]
   - - [4288, 5888, 1, 128]
-    - [422, 3522.32]
+    - [600, 3522.32]
   - - [256, 3584, 1, 256]
-    - [433, 5883.89]
+    - [611, 5883.89]
   - - [1408, 3584, 1, 128]
-    - [421, 4283.41]
+    - [599, 4283.41]
   - - [256, 2944, 1, 3328]
-    - [441, 5670.63]
+    - [619, 5670.63]
   - - [448, 3584, 1, 128]
-    - [425, 3171.72]
+    - [603, 3171.72]
   - - [5888, 2944, 1, 1280]
-    - [443, 8198.86]
+    - [621, 8198.86]
   - - [4, 6784, 1, 1280]
-    - [390, 553.896]
+    - [568, 553.896]
   - - [2368, 5888, 1, 128]
-    - [421, 4787.32]
+    - [599, 4787.32]
   - - [8448, 16, 1, 2816]
-    - [380, 2452.63]
+    - [558, 2452.63]
   - - [64, 2944, 1, 128]
-    - [353, 1376.66]
+    - [531, 1376.66]
   - - [2368, 4, 1, 256]
-    - [375, 278.177]
+    - [553, 278.177]
   - - [3584, 5888, 1, 256]
-    - [451, 6233.66]
+    - [629, 6233.66]
   - - [2368, 1024, 1, 128]
-    - [422, 3781.51]
+    - [600, 3781.51]
   - - [2368, 704, 1, 128]
-    - [422, 3198.32]
+    - [600, 3198.32]
   - - [3584, 2944, 1, 1280]
-    - [433, 8045.68]
+    - [611, 8045.68]
   - - [3584, 2368, 1, 128]
-    - [422, 4188.57]
+    - [600, 4188.57]
   - - [5056, 704, 1, 128]
-    - [425, 4019.21]
+    - [603, 4019.21]
   - - [448, 2368, 1, 128]
-    - [427, 2522.21]
+    - [605, 2522.21]
   - - [5056, 1408, 1, 3328]
-    - [435, 8349.93]
+    - [613, 8349.93]
   - - [1408, 704, 1, 256]
-    - [441, 4741.42]
+    - [619, 4741.42]
   - - [6784, 1024, 1, 3328]
-    - [443, 8769.5]
+    - [621, 8769.5]
   - - [6784, 2944, 1, 3328]
-    - [440, 7319.74]
+    - [618, 7319.74]
   - - [2944, 5056, 1, 3328]
-    - [430, 8889.76]
+    - [608, 8889.76]
   - - [1856, 1856, 1, 256]
-    - [433, 6309.84]
+    - [611, 6309.84]
   - - [1024, 5888, 1, 128]
-    - [424, 3759.6]
+    - [602, 3759.6]
   - - [6784, 2368, 1, 1280]
-    - [433, 8298.4]
+    - [611, 8298.4]
   - - [256, 4, 1, 128]
-    - [452, 7.10171]
+    - [630, 7.10171]
   - - [4288, 5888, 1, 1280]
-    - [437, 8365.28]
+    - [615, 8365.28]
   - - [4288, 4288, 1, 256]
-    - [437, 6513.78]
+    - [615, 6513.78]
   - - [8448, 32, 1, 2816]
-    - [408, 4257.74]
+    - [586, 4257.74]
   - - [448, 2944, 1, 3328]
-    - [441, 6875.62]
+    - [619, 6875.62]
   - - [5888, 4, 1, 128]
-    - [452, 163.94]
+    - [630, 163.94]
   - - [4288, 1856, 1, 1280]
-    - [437, 8402.91]
+    - [615, 8402.91]
   - - [1856, 2944, 1, 3328]
-    - [437, 6612.21]
+    - [615, 6612.21]
   - - [256, 6784, 1, 3328]
-    - [438, 7358.7]
+    - [616, 7358.7]
   - - [64, 5888, 1, 256]
-    - [432, 3359.05]
+    - [610, 3359.05]
   - - [256, 5056, 1, 128]
-    - [425, 2489.21]
+    - [603, 2489.21]
   - - [5056, 1024, 1, 256]
-    - [443, 8077.87]
+    - [621, 8077.87]
   - - [704, 64, 1, 3328]
-    - [387, 3288.4]
+    - [565, 3288.4]
   - - [5056, 1856, 1, 3328]
-    - [441, 8171.13]
+    - [619, 8171.13]
   - - [4, 2944, 1, 3328]
-    - [400, 546.843]
+    - [578, 546.843]
   - - [4, 5056, 1, 256]
-    - [375, 378.561]
+    - [553, 378.561]
   - - [1856, 1408, 1, 256]
-    - [443, 6320.88]
+    - [621, 6320.88]
   - - [8448, 12000, 1, 2816]
-    - [441, 7365.87]
+    - [619, 7365.87]
   - - [6784, 128, 1, 3328]
-    - [438, 6366.57]
+    - [616, 6366.57]
   - - [4288, 1408, 1, 128]
-    - [421, 4451.7]
+    - [599, 4451.7]
   - - [1856, 5888, 1, 3328]
-    - [439, 8619.76]
+    - [617, 8619.76]
   - - [4288, 5056, 1, 256]
-    - [443, 7289.05]
+    - [621, 7289.05]
   - - [1408, 128, 1, 1280]
-    - [381, 4291.15]
+    - [559, 4291.15]
   - - [4096, 800, 1, 1024]
-    - [432, 5867.89]
+    - [610, 5867.89]
   - - [5056, 256, 1, 3328]
-    - [438, 7527.61]
+    - [616, 7527.61]
   - - [704, 704, 1, 256]
-    - [438, 4417.85]
+    - [616, 4417.85]
   - - [1024, 5888, 1, 1280]
-    - [443, 8674.57]
+    - [621, 8674.57]
   - - [6784, 2368, 1, 128]
-    - [421, 4724.08]
+    - [599, 4724.08]
   - - [4, 5056, 1, 1280]
-    - [390, 540.307]
+    - [568, 540.307]
   - - [256, 64, 1, 1280]
-    - [392, 1515.38]
+    - [570, 1515.38]
   - - [128, 1856, 1, 1280]
-    - [432, 4574.21]
+    - [610, 4574.21]
   - - [1856, 1024, 1, 1280]
-    - [437, 7741.61]
+    - [615, 7741.61]
   - - [6784, 4288, 1, 1280]
-    - [443, 8521.29]
+    - [621, 8521.29]
   - - [2560, 64, 1, 2560]
-    - [374, 3504.7]
+    - [552, 3504.7]
   - - [1856, 1856, 1, 1280]
-    - [433, 7779.31]
+    - [611, 7779.31]
   - - [4096, 400, 1, 1024]
-    - [443, 4157.81]
+    - [621, 4157.81]
   - - [3072, 24000, 1, 1024]
-    - [443, 8663.45]
+    - [621, 8663.45]
   - - [128, 4288, 1, 3328]
-    - [389, 5674.23]
+    - [567, 5674.23]
   - - [4, 2368, 1, 3328]
-    - [400, 525.48]
+    - [578, 525.48]
   - - [5888, 1856, 1, 128]
-    - [425, 4099.74]
+    - [603, 4099.74]
   - - [448, 704, 1, 1280]
-    - [438, 4309.47]
+    - [616, 4309.47]
   - - [128, 5056, 1, 1280]
-    - [381, 5068.46]
+    - [559, 5068.46]
   - - [1024, 448, 1, 3328]
-    - [441, 6077.82]
+    - [619, 6077.82]
   - - [1856, 704, 1, 1280]
-    - [449, 6257.49]
+    - [627, 6257.49]
   - - [5056, 3584, 1, 128]
-    - [422, 4598.52]
+    - [600, 4598.52]
   - - [5888, 5888, 1, 3328]
-    - [443, 8058.25]
+    - [621, 8058.25]
   - - [6784, 1024, 1, 256]
-    - [443, 5120.99]
+    - [621, 5120.99]
   - - [2944, 2368, 1, 256]
-    - [434, 6523.03]
+    - [612, 6523.03]
   - - [256, 448, 1, 256]
-    - [384, 1816.94]
+    - [562, 1816.94]
   - - [5056, 5888, 1, 3328]
-    - [436, 6722.41]
+    - [614, 6722.41]
   - - [1856, 1024, 1, 256]
-    - [443, 6632.31]
+    - [621, 6632.31]
   - - [512, 48000, 1, 1536]
-    - [437, 8556.01]
+    - [615, 8556.01]
   - - [3584, 448, 1, 1280]
-    - [432, 6567.09]
+    - [610, 6567.09]
   - - [8448, 5984, 1, 2816]
-    - [437, 8990.66]
+    - [615, 8990.66]
   - - [448, 5888, 1, 256]
-    - [437, 6220.47]
+    - [615, 6220.47]
   - - [704, 64, 1, 128]
-    - [350, 450.66]
+    - [528, 450.66]
   - - [1408, 6784, 1, 3328]
-    - [430, 8478.68]
+    - [608, 8478.68]
   - - [448, 1024, 1, 128]
-    - [429, 1844.33]
+    - [607, 1844.33]
   - - [4288, 704, 1, 128]
-    - [425, 3895.26]
+    - [603, 3895.26]
   - - [128, 1856, 1, 128]
-    - [356, 1456.46]
+    - [534, 1456.46]
   - - [448, 2368, 1, 3328]
-    - [435, 5538.04]
+    - [613, 5538.04]
   - - [5056, 64, 1, 128]
-    - [421, 1648.94]
+    - [599, 1648.94]
   - - [5056, 2944, 1, 256]
-    - [437, 8230.87]
+    - [615, 8230.87]
   - - [6784, 5888, 1, 128]
-    - [421, 4873.19]
+    - [599, 4873.19]
   - - [1024, 700, 1, 512]
-    - [435, 4445.37]
+    - [613, 4445.37]
   - - [704, 1024, 1, 256]
-    - [433, 4707.99]
+    - [611, 4707.99]
   - - [1024, 4, 1, 256]
-    - [375, 174.863]
+    - [553, 174.863]
   - - [2944, 704, 1, 128]
-    - [425, 3483.42]
+    - [603, 3483.42]
   - - [128, 6784, 1, 1280]
-    - [433, 6522.93]
+    - [611, 6522.93]
   - - [1408, 3584, 1, 3328]
-    - [437, 8673.59]
+    - [615, 8673.59]
   - - [2368, 6784, 1, 256]
-    - [433, 7941.76]
+    - [611, 7941.76]
   - - [5056, 1408, 1, 1280]
-    - [437, 8801.01]
+    - [615, 8801.01]
   - - [256, 256, 1, 128]
-    - [362, 551.982]
+    - [540, 551.982]
   - - [5056, 4288, 1, 128]
-    - [429, 3793.64]
+    - [607, 3793.64]
   - - [1408, 1856, 1, 128]
-    - [421, 3067.74]
+    - [599, 3067.74]
   - - [1408, 5888, 1, 3328]
-    - [437, 9148.97]
+    - [615, 9148.97]
   - - [1856, 256, 1, 256]
-    - [433, 4319.52]
+    - [611, 4319.52]
   - - [6784, 6784, 1, 256]
-    - [433, 7668.53]
+    - [611, 7668.53]
   - - [64, 256, 1, 128]
-    - [367, 131.172]
+    - [545, 131.172]
   - - [4288, 2368, 1, 128]
-    - [422, 4582.99]
+    - [600, 4582.99]
   - - [256, 4288, 1, 1280]
-    - [432, 6058.61]
+    - [610, 6058.61]
   - - [2368, 2944, 1, 256]
-    - [437, 8016.07]
+    - [615, 8016.07]
   - - [4, 1856, 1, 256]
-    - [454, 252.832]
+    - [632, 252.832]
   - - [3584, 1856, 1, 1280]
-    - [433, 7760.24]
+    - [611, 7760.24]
   - - [6784, 6784, 1, 128]
-    - [422, 4970.14]
+    - [600, 4970.14]
   - - [256, 1856, 1, 128]
-    - [428, 1580.59]
+    - [606, 1580.59]
   - - [704, 64, 1, 1280]
-    - [417, 2556.47]
+    - [595, 2556.47]
   - - [5888, 5056, 1, 256]
-    - [437, 8216.67]
+    - [615, 8216.67]
   - - [8448, 48000, 1, 2816]
-    - [443, 4082.89]
+    - [621, 4082.89]
   - - [3584, 448, 1, 256]
-    - [437, 5518.92]
+    - [615, 5518.92]
   - - [448, 4288, 1, 128]
-    - [425, 3415.25]
+    - [603, 3415.25]
   - - [7680, 64, 1, 2560]
-    - [386, 5162.1]
+    - [564, 5162.1]
   - - [256, 6784, 1, 256]
-    - [437, 6272.62]
+    - [615, 6272.62]
   - - [1408, 4288, 1, 128]
-    - [425, 4343.63]
+    - [603, 4343.63]
   - - [2944, 704, 1, 3328]
-    - [432, 7679.71]
+    - [610, 7679.71]
   - - [128, 448, 1, 256]
-    - [372, 1422.59]
+    - [550, 1422.59]
   - - [5056, 256, 1, 1280]
-    - [439, 5052.39]
+    - [617, 5052.39]
   - - [2560, 32, 1, 2560]
-    - [395, 3106.07]
+    - [573, 3106.07]
   - - [3584, 3584, 1, 256]
-    - [443, 8260.57]
+    - [621, 8260.57]
   - - [448, 1408, 1, 128]
-    - [421, 2397.38]
+    - [599, 2397.38]
   - - [128, 256, 1, 1280]
-    - [376, 2340.67]
+    - [554, 2340.67]
   - - [3584, 5056, 1, 256]
-    - [443, 7347.56]
+    - [621, 7347.56]
   - - [6784, 128, 1, 256]
-    - [433, 5591.1]
+    - [611, 5591.1]
   - - [4288, 4, 1, 256]
-    - [375, 354.206]
+    - [553, 354.206]
   - - [704, 448, 1, 256]
-    - [438, 3492.33]
+    - [616, 3492.33]
   - - [2944, 2368, 1, 1280]
-    - [445, 6661.71]
+    - [623, 6661.71]
   - - [448, 64, 1, 3328]
-    - [417, 3058.45]
+    - [595, 3058.45]
   - - [1408, 3584, 1, 256]
-    - [443, 7966.59]
+    - [621, 7966.59]
   - - [3584, 4, 1, 3328]
-    - [456, 605.559]
+    - [634, 605.559]
   - - [6784, 3584, 1, 256]
-    - [433, 7525.41]
+    - [611, 7525.41]
   - - [256, 128, 1, 128]
-    - [365, 276.041]
+    - [543, 276.041]
   - - [704, 1408, 1, 128]
-    - [422, 3109.85]
+    - [600, 3109.85]
   - - [4, 2368, 1, 256]
-    - [456, 283.375]
+    - [634, 283.375]
   - - [4288, 128, 1, 1280]
-    - [438, 5132.65]
+    - [616, 5132.65]
   - - [128, 1408, 1, 256]
-    - [432, 2733.35]
+    - [610, 2733.35]
   - - [4, 2944, 1, 256]
-    - [454, 314.127]
+    - [632, 314.127]
   - - [64, 128, 1, 3328]
-    - [402, 1514.71]
+    - [580, 1514.71]
   - - [5056, 2368, 1, 128]
-    - [426, 3449.17]
+    - [604, 3449.17]
   - - [2944, 2944, 1, 3328]
-    - [430, 8169.03]
+    - [608, 8169.03]
   - - [5056, 6784, 1, 256]
-    - [450, 5792.77]
+    - [628, 5792.77]
   - - [1856, 3584, 1, 128]
-    - [427, 4213.5]
+    - [605, 4213.5]
   - - [128, 2944, 1, 128]
-    - [351, 1970.46]
+    - [529, 1970.46]
   - - [35, 8457, 1, 2560]
-    - [346, 3525.15]
+    - [524, 3525.15]
   - - [1024, 704, 1, 3328]
-    - [432, 6784.99]
+    - [610, 6784.99]
   - - [6784, 448, 1, 256]
-    - [441, 6544.88]
+    - [619, 6544.88]
   - - [3584, 6784, 1, 128]
-    - [421, 4623.6]
+    - [599, 4623.6]
   - - [128, 4288, 1, 256]
-    - [435, 3606.6]
+    - [613, 3606.6]
   - - [704, 448, 1, 3328]
-    - [432, 4478.01]
+    - [610, 4478.01]
   - - [128, 128, 1, 3328]
-    - [417, 2177.65]
+    - [595, 2177.65]
   - - [5056, 1856, 1, 256]
-    - [451, 5608.72]
+    - [629, 5608.72]
   - - [4608, 5984, 1, 1536]
-    - [440, 7859.85]
+    - [618, 7859.85]
   - - [256, 128, 1, 256]
-    - [376, 998.744]
+    - [554, 998.744]
   - - [1760, 3200, 1, 1760]
-    - [433, 8179.64]
+    - [611, 8179.64]
   - - [1024, 1856, 1, 256]
-    - [443, 6143.27]
+    - [621, 6143.27]
   - - [4096, 1600, 1, 1024]
-    - [451, 5851.52]
+    - [629, 5851.52]
   - - [4288, 64, 1, 128]
-    - [356, 1372.26]
+    - [534, 1372.26]
   - - [256, 448, 1, 3328]
-    - [395, 4795.1]
+    - [573, 4795.1]
   - - [1408, 6784, 1, 1280]
-    - [437, 8426.5]
+    - [615, 8426.5]
   - - [3584, 3584, 1, 1280]
-    - [437, 7556.56]
+    - [615, 7556.56]
   - - [7680, 24000, 1, 2560]
-    - [430, 5019.19]
+    - [608, 5019.19]
   - - [64, 2368, 1, 1280]
-    - [381, 4061.8]
+    - [559, 4061.8]
   - - [448, 2368, 1, 1280]
-    - [432, 5928.77]
+    - [610, 5928.77]
   - - [4608, 48000, 1, 1536]
-    - [437, 6937.4]
+    - [615, 6937.4]
   - - [5888, 5888, 1, 128]
-    - [422, 3744.0]
+    - [600, 3744.0]
   - - [64, 6784, 1, 3328]
-    - [432, 5988.72]
+    - [610, 5988.72]
   - - [2944, 256, 1, 1280]
-    - [438, 6717.97]
+    - [616, 6717.97]
   - - [2048, 16, 1, 2048]
-    - [390, 1210.58]
+    - [568, 1210.58]
   - - [256, 2368, 1, 128]
-    - [425, 1936.07]
+    - [603, 1936.07]
   - - [5056, 2368, 1, 3328]
-    - [443, 8875.63]
+    - [621, 8875.63]
   - - [2944, 4288, 1, 256]
-    - [437, 8063.24]
+    - [615, 8063.24]
   - - [1408, 3584, 1, 1280]
-    - [433, 8197.07]
+    - [611, 8197.07]
   - - [2368, 64, 1, 256]
-    - [432, 2365.79]
+    - [610, 2365.79]
   - - [64, 448, 1, 3328]
-    - [418, 3027.4]
+    - [596, 3027.4]
   - - [704, 128, 1, 3328]
-    - [389, 4452.19]
+    - [567, 4452.19]
   - - [8192, 1600, 1, 2048]
-    - [437, 7229.93]
+    - [615, 7229.93]
   - - [1856, 704, 1, 256]
-    - [439, 5545.45]
+    - [617, 5545.45]
   - - [4, 4288, 1, 1280]
-    - [390, 523.825]
+    - [568, 523.825]
   - - [1408, 448, 1, 3328]
-    - [444, 4789.4]
+    - [622, 4789.4]
   - - [1024, 4, 1, 3328]
-    - [370, 504.223]
+    - [548, 504.223]
   - - [512, 24000, 1, 2560]
-    - [443, 8903.62]
+    - [621, 8903.62]
   - - [2368, 6784, 1, 3328]
-    - [443, 8311.14]
+    - [621, 8311.14]
   - - [1856, 1408, 1, 1280]
-    - [433, 8160.11]
+    - [611, 8160.11]
   - - [1856, 448, 1, 1280]
-    - [435, 6243.07]
+    - [613, 6243.07]
   - - [6784, 704, 1, 128]
-    - [421, 4069.05]
+    - [599, 4069.05]
   - - [4, 4, 1, 256]
-    - [390, 0.842029]
+    - [568, 0.842029]
   - - [128, 5888, 1, 128]
-    - [421, 2328.02]
+    - [599, 2328.02]
   - - [1408, 5888, 1, 256]
-    - [432, 6986.91]
+    - [610, 6986.91]
   - - [704, 2944, 1, 1280]
-    - [433, 7905.03]
+    - [611, 7905.03]
   - - [4288, 64, 1, 1280]
-    - [408, 3828.27]
+    - [586, 3828.27]
   - - [256, 64, 1, 256]
-    - [383, 655.46]
+    - [561, 655.46]
   - - [704, 1856, 1, 256]
-    - [441, 5444.37]
+    - [619, 5444.37]
   - - [704, 6784, 1, 128]
-    - [421, 4319.77]
+    - [599, 4319.77]
   - - [3584, 704, 1, 1280]
-    - [441, 7726.43]
+    - [619, 7726.43]
   - - [256, 128, 1, 1280]
-    - [376, 2184.63]
+    - [554, 2184.63]
   - - [5888, 2368, 1, 256]
-    - [443, 8192.69]
+    - [621, 8192.69]
   - - [256, 2368, 1, 1280]
-    - [438, 5675.54]
+    - [616, 5675.54]
   - - [2944, 6784, 1, 128]
-    - [426, 4248.35]
+    - [604, 4248.35]
   - - [3584, 448, 1, 3328]
-    - [437, 6560.77]
+    - [615, 6560.77]
   - - [1408, 4, 1, 256]
-    - [455, 176.79]
+    - [633, 176.79]
   - - [704, 2368, 1, 3328]
-    - [438, 7085.31]
+    - [616, 7085.31]
   - - [2944, 448, 1, 256]
-    - [434, 3412.0]
+    - [612, 3412.0]
   - - [1856, 448, 1, 128]
-    - [422, 2748.82]
+    - [600, 2748.82]
   - - [4288, 4, 1, 3328]
-    - [390, 553.648]
+    - [568, 553.648]
   - - [2368, 128, 1, 1280]
-    - [411, 4173.65]
+    - [589, 4173.65]
   - - [256, 5888, 1, 128]
-    - [426, 2860.98]
+    - [604, 2860.98]
   - - [64, 6784, 1, 256]
-    - [439, 3637.18]
+    - [617, 3637.18]
   - - [64, 5056, 1, 1280]
-    - [438, 4289.53]
+    - [616, 4289.53]
   - - [4, 6784, 1, 128]
-    - [452, 160.906]
+    - [630, 160.906]
   - - [2048, 3200, 1, 512]
-    - [439, 6927.09]
+    - [617, 6927.09]
   - - [2944, 2944, 1, 1280]
-    - [431, 6267.85]
+    - [609, 6267.85]
   - - [5056, 448, 1, 3328]
-    - [432, 7400.36]
+    - [610, 7400.36]
   - - [4, 3584, 1, 1280]
-    - [390, 499.83]
+    - [568, 499.83]
   - - [1408, 128, 1, 128]
-    - [367, 1037.36]
+    - [545, 1037.36]
   - - [6784, 704, 1, 3328]
-    - [438, 7633.95]
+    - [616, 7633.95]
   - - [128, 64, 1, 1280]
-    - [390, 1170.39]
+    - [568, 1170.39]
   - - [2368, 256, 1, 1280]
-    - [438, 5609.89]
+    - [616, 5609.89]
   - - [4, 448, 1, 3328]
-    - [458, 358.5]
+    - [636, 358.5]
   - - [5888, 4288, 1, 128]
-    - [426, 4521.74]
+    - [604, 4521.74]
   - - [4, 5888, 1, 256]
-    - [390, 353.933]
+    - [568, 353.933]
   - - [1408, 2944, 1, 3328]
-    - [431, 8951.41]
+    - [609, 8951.41]
   - - [3584, 704, 1, 128]
-    - [421, 3395.41]
+    - [599, 3395.41]
   - - [4608, 12000, 1, 1536]
-    - [430, 6609.99]
+    - [608, 6609.99]
   - - [64, 1024, 1, 256]
-    - [376, 1588.85]
+    - [554, 1588.85]
   - - [5056, 5056, 1, 128]
-    - [421, 4080.81]
+    - [599, 4080.81]
   - - [2368, 448, 1, 1280]
-    - [432, 5423.04]
+    - [610, 5423.04]
   - - [128, 3584, 1, 256]
-    - [438, 4705.25]
+    - [616, 4705.25]
   - - [704, 448, 1, 1280]
-    - [435, 3961.07]
+    - [613, 3961.07]
   - - [8192, 800, 1, 2048]
-    - [433, 6306.36]
+    - [611, 6306.36]
   - - [448, 5056, 1, 128]
-    - [425, 3709.56]
+    - [603, 3709.56]
   - - [256, 4, 1, 1280]
-    - [457, 163.94]
+    - [635, 163.94]
   - - [5056, 3584, 1, 256]
-    - [430, 7008.34]
+    - [608, 7008.34]
   - - [2368, 4, 1, 3328]
-    - [390, 496.366]
+    - [568, 496.366]
   - - [1408, 5056, 1, 128]
-    - [425, 4175.37]
+    - [603, 4175.37]
   - - [2944, 3584, 1, 128]
-    - [421, 4659.79]
+    - [599, 4659.79]
   - - [3584, 2368, 1, 256]
-    - [443, 5851.87]
+    - [621, 5851.87]
   - - [128, 3584, 1, 3328]
-    - [433, 6105.04]
+    - [611, 6105.04]
   - - [128, 1024, 1, 1280]
-    - [373, 3848.09]
+    - [551, 3848.09]
   - - [8448, 24000, 1, 2816]
-    - [443, 5128.64]
+    - [621, 5128.64]
   - - [64, 704, 1, 256]
-    - [376, 1253.83]
+    - [554, 1253.83]
   - - [4288, 256, 1, 1280]
-    - [432, 5625.86]
+    - [610, 5625.86]
   - - [3584, 3584, 1, 3328]
-    - [437, 8206.15]
+    - [615, 8206.15]
   - - [4, 704, 1, 128]
-    - [452, 29.5484]
+    - [630, 29.5484]
   - - [5888, 6784, 1, 256]
-    - [439, 8248.75]
+    - [617, 8248.75]
   - - [4288, 2944, 1, 3328]
-    - [437, 8657.12]
+    - [615, 8657.12]
   - - [2944, 64, 1, 128]
-    - [356, 1240.7]
+    - [534, 1240.7]
   - - [1024, 128, 1, 3328]
-    - [381, 4433.1]
+    - [559, 4433.1]
   - - [1024, 16, 1, 500000]
-    - [344, 2571.15]
+    - [522, 2571.15]
   - - [4288, 128, 1, 3328]
-    - [381, 5716.85]
+    - [559, 5716.85]
   - - [7680, 128, 1, 2560]
-    - [379, 5488.1]
+    - [557, 5488.1]
   - - [256, 5056, 1, 1280]
-    - [439, 6380.06]
+    - [617, 6380.06]
   - - [1408, 256, 1, 128]
-    - [425, 1633.83]
+    - [603, 1633.83]
   - - [2944, 5888, 1, 3328]
-    - [434, 7849.02]
+    - [612, 7849.02]
   - - [6784, 5888, 1, 1280]
-    - [443, 9047.72]
+    - [621, 9047.72]
   - - [2048, 800, 1, 512]
-    - [438, 4841.17]
+    - [616, 4841.17]
   - - [704, 128, 1, 256]
-    - [383, 1567.27]
+    - [561, 1567.27]
   - - [5888, 4288, 1, 1280]
-    - [437, 7982.93]
+    - [615, 7982.93]
   - - [1024, 24000, 1, 2048]
-    - [439, 5774.4]
+    - [617, 5774.4]
   - - [448, 256, 1, 1280]
-    - [373, 3707.19]
+    - [551, 3707.19]
   - - [5888, 3584, 1, 128]
-    - [426, 3804.5]
+    - [604, 3804.5]
   - - [1024, 2944, 1, 128]
-    - [421, 3308.36]
+    - [599, 3308.36]
   - - [5056, 4, 1, 1280]
-    - [454, 469.062]
+    - [632, 469.062]
   - - [256, 1408, 1, 1280]
-    - [432, 4899.99]
+    - [610, 4899.99]
   - - [3072, 16, 1, 1024]
-    - [390, 1233.72]
+    - [568, 1233.72]
   - - [704, 3584, 1, 128]
-    - [421, 3919.53]
+    - [599, 3919.53]
   - - [5888, 448, 1, 3328]
-    - [451, 6095.71]
+    - [629, 6095.71]
   - - [2368, 4288, 1, 1280]
-    - [433, 8338.4]
+    - [611, 8338.4]
   - - [4288, 2944, 1, 128]
-    - [425, 3946.6]
+    - [603, 3946.6]
   - - [1024, 6784, 1, 3328]
-    - [439, 7494.38]
+    - [617, 7494.38]
   - - [128, 2368, 1, 256]
-    - [438, 2895.42]
+    - [616, 2895.42]
   - - [6784, 64, 1, 3328]
-    - [432, 5964.99]
+    - [610, 5964.99]
   - - [5056, 2944, 1, 3328]
-    - [443, 6605.63]
+    - [621, 6605.63]
   - - [448, 128, 1, 256]
-    - [376, 1339.52]
+    - [554, 1339.52]
   - - [2944, 3584, 1, 256]
-    - [439, 7165.66]
+    - [617, 7165.66]
   - - [1408, 1408, 1, 3328]
-    - [443, 8332.96]
+    - [621, 8332.96]
   - - [1856, 128, 1, 1280]
-    - [438, 4498.43]
+    - [616, 4498.43]
   - - [3584, 3584, 1, 128]
-    - [422, 4000.11]
+    - [600, 4000.11]
   - - [64, 3584, 1, 256]
-    - [449, 2383.23]
+    - [627, 2383.23]
   - - [1408, 4, 1, 3328]
-    - [400, 423.008]
+    - [578, 423.008]
   - - [128, 2944, 1, 3328]
-    - [405, 5430.03]
+    - [583, 5430.03]
   - - [3584, 704, 1, 256]
-    - [438, 6154.09]
+    - [616, 6154.09]
   - - [2944, 448, 1, 3328]
-    - [438, 6507.82]
+    - [616, 6507.82]
   - - [3584, 1408, 1, 3328]
-    - [443, 8829.73]
+    - [621, 8829.73]
   - - [704, 3584, 1, 1280]
-    - [433, 7860.33]
+    - [611, 7860.33]
   - - [2944, 6784, 1, 1280]
-    - [443, 8894.6]
+    - [621, 8894.6]
   - - [1856, 6784, 1, 256]
-    - [443, 8115.19]
+    - [621, 8115.19]
   - - [4288, 448, 1, 3328]
-    - [435, 6397.35]
+    - [613, 6397.35]
   - - [6784, 4288, 1, 128]
-    - [421, 4109.54]
+    - [599, 4109.54]
   - - [6784, 704, 1, 1280]
-    - [431, 7999.14]
+    - [609, 7999.14]
   - - [256, 4288, 1, 256]
-    - [435, 4603.94]
+    - [613, 4603.94]
   - - [3584, 6784, 1, 256]
-    - [443, 7361.65]
+    - [621, 7361.65]
   - - [6144, 12000, 1, 2048]
-    - [442, 6311.76]
+    - [620, 6311.76]
   - - [6144, 16, 1, 2560]
-    - [391, 2240.65]
+    - [569, 2240.65]
   - - [3584, 64, 1, 128]
-    - [362, 1292.36]
+    - [540, 1292.36]
   - - [5888, 1024, 1, 3328]
-    - [430, 8394.59]
+    - [608, 8394.59]
   - - [448, 64, 1, 128]
-    - [353, 262.244]
+    - [531, 262.244]
   - - [704, 6784, 1, 1280]
-    - [437, 7740.66]
+    - [615, 7740.66]
   - - [4, 1024, 1, 1280]
-    - [390, 378.921]
+    - [568, 378.921]
   - - [5888, 128, 1, 256]
-    - [438, 5003.68]
+    - [616, 5003.68]
   - - [4096, 16, 1, 4096]
-    - [390, 1585.85]
+    - [568, 1585.85]
   - - [1856, 5056, 1, 3328]
-    - [431, 8522.92]
+    - [609, 8522.92]
   - - [4, 6784, 1, 256]
-    - [375, 387.757]
+    - [553, 387.757]
   - - [1024, 3584, 1, 128]
-    - [425, 3031.61]
+    - [603, 3031.61]
   - - [1024, 1408, 1, 128]
-    - [427, 2600.85]
+    - [605, 2600.85]
   - - [2368, 2944, 1, 128]
-    - [424, 4340.26]
+    - [602, 4340.26]
   - - [5056, 64, 1, 256]
-    - [438, 3109.62]
+    - [616, 3109.62]
   - - [4, 448, 1, 1280]
-    - [458, 253.835]
+    - [636, 253.835]
   - - [5056, 2944, 1, 128]
-    - [429, 3740.01]
+    - [607, 3740.01]
   - - [5888, 5056, 1, 3328]
-    - [443, 9016.48]
+    - [621, 9016.48]
   - - [1024, 704, 1, 128]
-    - [425, 2363.66]
+    - [603, 2363.66]
   - - [5888, 2368, 1, 128]
-    - [428, 3651.83]
+    - [606, 3651.83]
   - - [128, 5056, 1, 3328]
-    - [432, 6243.64]
+    - [610, 6243.64]
   - - [3584, 6784, 1, 1280]
-    - [430, 9080.67]
+    - [608, 9080.67]
   - - [448, 4, 1, 1280]
-    - [458, 243.083]
+    - [636, 243.083]
   - - [1856, 5888, 1, 256]
-    - [443, 8182.12]
+    - [621, 8182.12]
   - - [256, 256, 1, 256]
-    - [376, 1542.12]
+    - [554, 1542.12]
   - - [256, 64, 1, 128]
-    - [357, 135.226]
+    - [535, 135.226]
   - - [4288, 4288, 1, 3328]
-    - [443, 8674.64]
+    - [621, 8674.64]
   - - [4288, 1408, 1, 1280]
-    - [431, 7867.18]
+    - [609, 7867.18]
   - - [3584, 5056, 1, 128]
-    - [421, 4457.83]
+    - [599, 4457.83]
   - - [4, 1024, 1, 3328]
-    - [370, 440.394]
+    - [548, 440.394]
   - - [4288, 2368, 1, 256]
-    - [451, 5699.57]
+    - [629, 5699.57]
   - - [2944, 5056, 1, 1280]
-    - [443, 8236.56]
+    - [621, 8236.56]
   - - [448, 6784, 1, 256]
-    - [433, 6620.62]
+    - [611, 6620.62]
   - - [64, 128, 1, 128]
-    - [358, 67.6629]
+    - [536, 67.6629]
   - - [1856, 2368, 1, 128]
-    - [425, 4233.7]
+    - [603, 4233.7]
   - - [6784, 2368, 1, 3328]
-    - [443, 8269.9]
+    - [621, 8269.9]
   - - [256, 1024, 1, 1280]
-    - [432, 4882.88]
+    - [610, 4882.88]
   - - [704, 4, 1, 128]
-    - [452, 19.111]
+    - [630, 19.111]
   - - [256, 4, 1, 256]
-    - [390, 46.9114]
+    - [568, 46.9114]
   - - [4288, 128, 1, 256]
-    - [438, 4273.49]
+    - [616, 4273.49]
   - - [4288, 1856, 1, 3328]
-    - [433, 8195.81]
+    - [611, 8195.81]
   - - [3584, 448, 1, 128]
-    - [426, 2750.65]
+    - [604, 2750.65]
   - - [2048, 1600, 1, 2048]
-    - [449, 5753.59]
+    - [627, 5753.59]
   - - [256, 4, 1, 3328]
-    - [459, 297.978]
+    - [637, 297.978]
   - - [4, 1408, 1, 1280]
-    - [457, 402.386]
+    - [635, 402.386]
   - - [3584, 64, 1, 1280]
-    - [446, 4096.1]
+    - [624, 4096.1]
   - - [1408, 448, 1, 128]
-    - [421, 2498.25]
+    - [599, 2498.25]
   - - [3584, 1024, 1, 1280]
-    - [443, 7252.18]
+    - [621, 7252.18]
   - - [1856, 5056, 1, 256]
-    - [437, 7711.59]
+    - [615, 7711.59]
   - - [4, 3584, 1, 256]
-    - [454, 314.314]
+    - [632, 314.314]
   - - [4, 2944, 1, 1280]
-    - [390, 483.218]
+    - [568, 483.218]
   - - [1024, 4288, 1, 256]
-    - [442, 6544.52]
+    - [620, 6544.52]
   - - [5888, 3584, 1, 3328]
-    - [431, 8105.15]
+    - [609, 8105.15]
   - - [1856, 4, 1, 256]
-    - [390, 252.832]
+    - [568, 252.832]
   - - [4, 256, 1, 256]
-    - [375, 48.2882]
+    - [553, 48.2882]
   - - [5056, 3584, 1, 3328]
-    - [436, 7354.8]
+    - [614, 7354.8]
   - - [704, 448, 1, 128]
-    - [429, 1233.91]
+    - [607, 1233.91]
   - - [2368, 1408, 1, 1280]
-    - [437, 6654.24]
+    - [615, 6654.24]
   - - [5056, 2944, 1, 1280]
-    - [443, 8505.72]
+    - [621, 8505.72]
   - - [4, 4, 1, 128]
-    - [453, 0.1478505]
+    - [631, 0.1478505]
   - - [3584, 256, 1, 256]
-    - [435, 4616.47]
+    - [613, 4616.47]
   - - [1024, 6784, 1, 256]
-    - [437, 7944.98]
+    - [615, 7944.98]
   - - [4, 128, 1, 256]
-    - [390, 29.3571]
+    - [568, 29.3571]
   - - [64, 64, 1, 1280]
-    - [401, 642.61]
+    - [579, 642.61]
   - - [5124, 9124, 1, 2048]
-    - [443, 8019.4]
+    - [621, 8019.4]
   - - [6784, 4, 1, 128]
-    - [452, 193.067]
+    - [630, 193.067]
   - - [2944, 1408, 1, 128]
-    - [421, 3827.13]
+    - [599, 3827.13]
   - - [448, 128, 1, 3328]
-    - [394, 4064.0]
+    - [572, 4064.0]
   - - [3584, 1408, 1, 1280]
-    - [443, 7180.83]
+    - [621, 7180.83]
   - - [64, 4288, 1, 3328]
-    - [389, 4786.84]
+    - [567, 4786.84]
   - - [5056, 6784, 1, 3328]
-    - [430, 7889.83]
+    - [608, 7889.83]
   - - [128, 2944, 1, 256]
-    - [433, 3599.69]
+    - [611, 3599.69]
   - - [128, 6784, 1, 128]
-    - [351, 2606.79]
+    - [529, 2606.79]
   - - [3584, 4288, 1, 256]
-    - [437, 7299.81]
+    - [615, 7299.81]
   - - [448, 1856, 1, 256]
-    - [433, 5207.07]
+    - [611, 5207.07]
   - - [1856, 6784, 1, 3328]
-    - [435, 8386.36]
+    - [613, 8386.36]
   - - [3584, 128, 1, 3328]
-    - [379, 5590.04]
+    - [557, 5590.04]
   - - [64, 1856, 1, 256]
-    - [372, 1949.38]
+    - [550, 1949.38]
   - - [64, 448, 1, 256]
-    - [377, 955.833]
+    - [555, 955.833]
   - - [5888, 4288, 1, 256]
-    - [441, 7791.84]
+    - [619, 7791.84]
   - - [4, 448, 1, 128]
-    - [452, 8.84146]
+    - [630, 8.84146]
   - - [5056, 1408, 1, 256]
-    - [443, 5154.01]
+    - [621, 5154.01]
   - - [35, 8457, 1, 2048]
-    - [348, 3182.57]
+    - [526, 3182.57]
   - - [64, 256, 1, 1280]
-    - [397, 1713.46]
+    - [575, 1713.46]
   - - [3584, 1024, 1, 256]
-    - [433, 6528.18]
+    - [611, 6528.18]
   - - [256, 704, 1, 256]
-    - [432, 2720.46]
+    - [610, 2720.46]
   - - [5888, 5888, 1, 256]
-    - [441, 7992.26]
+    - [619, 7992.26]
   - - [4288, 1024, 1, 1280]
-    - [435, 7837.5]
+    - [613, 7837.5]
   - - [5888, 128, 1, 3328]
-    - [438, 7181.13]
+    - [616, 7181.13]
   - - [448, 6784, 1, 3328]
-    - [432, 7663.1]
+    - [610, 7663.1]
   - - [2944, 1408, 1, 1280]
-    - [441, 7903.14]
+    - [619, 7903.14]
   - - [64, 128, 1, 1280]
-    - [390, 1191.66]
+    - [568, 1191.66]
   - - [2944, 1856, 1, 3328]
-    - [431, 7844.41]
+    - [609, 7844.41]
   - - [2368, 64, 1, 128]
-    - [362, 997.973]
+    - [540, 997.973]
   - - [256, 1024, 1, 128]
-    - [421, 1215.84]
+    - [599, 1215.84]
   - - [3584, 5888, 1, 1280]
-    - [430, 8958.94]
+    - [608, 8958.94]
   - - [64, 4, 1, 128]
-    - [453, 1.21608]
+    - [631, 1.21608]
   - - [6784, 1856, 1, 1280]
-    - [430, 6728.8]
+    - [608, 6728.8]
   - - [2944, 5056, 1, 256]
-    - [443, 8275.21]
+    - [621, 8275.21]
   - - [4288, 4, 1, 128]
-    - [452, 147.644]
+    - [630, 147.644]
   - - [5888, 256, 1, 3328]
-    - [439, 7094.2]
+    - [617, 7094.2]
   - - [2944, 4288, 1, 128]
-    - [424, 4611.55]
+    - [602, 4611.55]
   - - [3584, 1408, 1, 256]
-    - [434, 6543.06]
+    - [612, 6543.06]
   - - [704, 3584, 1, 3328]
-    - [433, 8117.2]
+    - [611, 8117.2]
   - - [4096, 3200, 1, 1024]
-    - [448, 6656.13]
+    - [626, 6656.13]
   - - [5056, 448, 1, 1280]
-    - [446, 6096.2]
+    - [624, 6096.2]
   - - [3584, 1856, 1, 3328]
-    - [431, 8552.41]
+    - [609, 8552.41]
   - - [4288, 6784, 1, 1280]
-    - [437, 8212.46]
+    - [615, 8212.46]
   - - [2560, 7000, 1, 2560]
-    - [439, 7655.34]
+    - [617, 7655.34]
   - - [1408, 704, 1, 1280]
-    - [435, 5756.79]
+    - [613, 5756.79]
   - - [2944, 1024, 1, 256]
-    - [443, 6880.91]
+    - [621, 6880.91]
   - - [6784, 64, 1, 256]
-    - [438, 4438.96]
+    - [616, 4438.96]
   - - [2368, 4288, 1, 3328]
-    - [439, 8377.99]
+    - [617, 8377.99]
   - - [4, 1408, 1, 256]
-    - [456, 222.599]
+    - [634, 222.599]
   - - [1024, 1408, 1, 1280]
-    - [433, 6339.38]
+    - [611, 6339.38]
   - - [64, 64, 1, 256]
-    - [390, 187.346]
+    - [568, 187.346]
   - - [704, 256, 1, 3328]
-    - [432, 4046.14]
+    - [610, 4046.14]
   - - [6784, 5056, 1, 256]
-    - [443, 7972.17]
+    - [621, 7972.17]
   - - [1856, 1856, 1, 128]
-    - [427, 3716.61]
+    - [605, 3716.61]
   - - [3584, 5056, 1, 3328]
-    - [443, 8684.76]
+    - [621, 8684.76]
   - - [448, 6784, 1, 128]
-    - [425, 3829.05]
+    - [603, 3829.05]
   - - [4, 704, 1, 3328]
-    - [458, 393.206]
+    - [636, 393.206]
   - - [35, 8457, 1, 4096]
-    - [347, 3173.24]
+    - [525, 3173.24]
   - - [448, 2944, 1, 256]
-    - [441, 5553.41]
+    - [619, 5553.41]
   - - [4, 4288, 1, 3328]
-    - [400, 573.211]
+    - [578, 573.211]
   - - [2944, 6784, 1, 256]
-    - [437, 8566.06]
+    - [615, 8566.06]
   - - [2944, 2944, 1, 128]
-    - [421, 4540.83]
+    - [599, 4540.83]
   - - [4, 4, 1, 1280]
-    - [400, 3.14762]
+    - [578, 3.14762]
   - - [1856, 3584, 1, 1280]
-    - [437, 7306.36]
+    - [615, 7306.36]
   - - [64, 2944, 1, 256]
-    - [449, 2292.61]
+    - [627, 2292.61]
   - - [448, 256, 1, 128]
-    - [358, 797.93]
+    - [536, 797.93]
   - - [4288, 448, 1, 128]
-    - [424, 3430.5]
+    - [602, 3430.5]
   - - [4608, 24000, 1, 1536]
-    - [442, 6820.24]
+    - [620, 6820.24]
   - - [1856, 1408, 1, 3328]
-    - [445, 6600.24]
+    - [623, 6600.24]
   - - [128, 128, 1, 128]
-    - [350, 161.917]
+    - [528, 161.917]
   - - [1024, 4288, 1, 3328]
-    - [433, 7937.08]
+    - [611, 7937.08]
   - - [448, 2368, 1, 256]
-    - [441, 4526.45]
+    - [619, 4526.45]
   - - [1024, 4, 1, 128]
-    - [453, 16.9907]
+    - [631, 16.9907]
   - - [64, 1408, 1, 1280]
-    - [373, 3345.32]
+    - [551, 3345.32]
   - - [64, 6784, 1, 1280]
-    - [438, 5526.6]
+    - [616, 5526.6]
   - - [5056, 448, 1, 256]
-    - [432, 4216.65]
+    - [610, 4216.65]
   - - [2944, 2368, 1, 3328]
-    - [443, 7000.42]
+    - [621, 7000.42]
   - - [704, 4288, 1, 3328]
-    - [449, 6414.43]
+    - [627, 6414.43]
   - - [1408, 128, 1, 256]
-    - [432, 2720.46]
+    - [610, 2720.46]
   - - [1024, 1856, 1, 1280]
-    - [443, 7682.93]
+    - [621, 7682.93]
   - - [2048, 6400, 1, 2048]
-    - [439, 7418.22]
+    - [617, 7418.22]
   - - [512, 48000, 1, 2816]
-    - [443, 8884.77]
+    - [621, 8884.77]
   - - [5124, 9124, 1, 2560]
-    - [435, 6040.8]
+    - [613, 6040.8]
   - - [128, 2368, 1, 3328]
-    - [389, 5025.66]
+    - [567, 5025.66]
   - - [1024, 5888, 1, 256]
-    - [437, 7322.21]
+    - [615, 7322.21]
   - - [64, 2944, 1, 1280]
-    - [373, 4222.31]
+    - [551, 4222.31]
   - - [5056, 64, 1, 3328]
-    - [414, 4936.32]
+    - [592, 4936.32]
   - - [128, 704, 1, 128]
-    - [359, 683.414]
+    - [537, 683.414]
   - - [1408, 2368, 1, 256]
-    - [438, 6404.22]
+    - [616, 6404.22]
   - - [1408, 1408, 1, 256]
-    - [443, 4537.93]
+    - [621, 4537.93]
   - - [4, 64, 1, 128]
-    - [452, 2.56747]
+    - [630, 2.56747]
   - - [64, 1024, 1, 128]
-    - [351, 532.372]
+    - [529, 532.372]
   - - [1024, 8, 1, 500000]
-    - [341, 1685.08]
+    - [519, 1685.08]
   - - [2368, 2368, 1, 128]
-    - [422, 4334.33]
+    - [600, 4334.33]
   - - [64, 5888, 1, 128]
-    - [351, 2003.19]
+    - [529, 2003.19]
   - - [5888, 4, 1, 3328]
-    - [369, 339.118]
+    - [547, 339.118]
   - - [6784, 1408, 1, 128]
-    - [425, 4431.23]
+    - [603, 4431.23]
   - - [4288, 5888, 1, 256]
-    - [443, 7800.88]
+    - [621, 7800.88]
   - - [1408, 5056, 1, 256]
-    - [437, 8153.38]
+    - [615, 8153.38]
   - - [5056, 128, 1, 3328]
-    - [394, 5829.93]
+    - [572, 5829.93]
   - - [128, 128, 1, 1280]
-    - [397, 1691.35]
+    - [575, 1691.35]
   - - [448, 704, 1, 256]
-    - [438, 3364.28]
+    - [616, 3364.28]
   - - [4288, 3584, 1, 128]
-    - [422, 2952.68]
+    - [600, 2952.68]
   - - [2944, 128, 1, 3328]
-    - [394, 5620.82]
+    - [572, 5620.82]
   - - [64, 1408, 1, 3328]
-    - [395, 4169.91]
+    - [573, 4169.91]
   - - [3584, 5056, 1, 1280]
-    - [440, 7780.76]
+    - [618, 7780.76]
   - - [256, 448, 1, 1280]
-    - [373, 3929.45]
+    - [551, 3929.45]
   - - [704, 704, 1, 128]
-    - [421, 2346.17]
+    - [599, 2346.17]
   - - [5056, 4, 1, 128]
-    - [452, 144.557]
+    - [630, 144.557]
   - - [704, 256, 1, 1280]
-    - [441, 2283.22]
+    - [619, 2283.22]
   - - [64, 2368, 1, 3328]
-    - [373, 4921.69]
+    - [551, 4921.69]
   - - [1856, 1024, 1, 128]
-    - [422, 3459.57]
+    - [600, 3459.57]
   - - [1856, 64, 1, 128]
-    - [354, 918.237]
+    - [532, 918.237]
   - - [4096, 64, 1, 4096]
-    - [399, 4000.62]
+    - [577, 4000.62]
   - - [1024, 24000, 1, 1536]
-    - [435, 8502.36]
+    - [613, 8502.36]
   - - [704, 4288, 1, 256]
-    - [439, 6003.83]
+    - [617, 6003.83]
   - - [5888, 2368, 1, 1280]
-    - [430, 8801.3]
+    - [608, 8801.3]
   - - [128, 256, 1, 256]
-    - [384, 1070.08]
+    - [562, 1070.08]
   - - [64, 128, 1, 256]
-    - [390, 374.591]
+    - [568, 374.591]
   - - [2368, 5888, 1, 1280]
-    - [433, 8308.63]
+    - [611, 8308.63]
   - - [5888, 256, 1, 1280]
-    - [441, 7154.42]
+    - [619, 7154.42]
   - - [1760, 128, 1, 1760]
-    - [382, 5363.91]
+    - [560, 5363.91]
   - - [4, 5888, 1, 1280]
-    - [390, 542.304]
+    - [568, 542.304]
   - - [704, 128, 1, 128]
-    - [362, 779.447]
+    - [540, 779.447]
   - - [1024, 4, 1, 1280]
-    - [390, 392.531]
+    - [568, 392.531]
   - - [2368, 1856, 1, 3328]
-    - [433, 7975.32]
+    - [611, 7975.32]
   - - [2368, 128, 1, 128]
-    - [355, 1584.96]
+    - [533, 1584.96]
   - - [2944, 704, 1, 256]
-    - [441, 4039.21]
+    - [619, 4039.21]
   - - [5056, 128, 1, 128]
-    - [421, 2575.89]
+    - [599, 2575.89]
   - - [2368, 1024, 1, 3328]
-    - [449, 6165.54]
+    - [627, 6165.54]
   - - [256, 704, 1, 3328]
-    - [432, 4028.74]
+    - [610, 4028.74]
   - - [704, 3584, 1, 256]
-    - [443, 6102.92]
+    - [621, 6102.92]
   - - [704, 2944, 1, 3328]
-    - [433, 8202.84]
+    - [611, 8202.84]
   - - [6784, 1024, 1, 128]
-    - [425, 4386.4]
+    - [603, 4386.4]
   - - [256, 448, 1, 128]
-    - [362, 834.195]
+    - [540, 834.195]
   - - [448, 1024, 1, 3328]
-    - [450, 5412.48]
+    - [628, 5412.48]
   - - [2944, 1024, 1, 3328]
-    - [443, 6265.87]
+    - [621, 6265.87]
   - - [2944, 5056, 1, 128]
-    - [421, 4770.88]
+    - [599, 4770.88]
   - - [2368, 256, 1, 256]
-    - [438, 3975.23]
+    - [616, 3975.23]
   - - [1408, 6784, 1, 256]
-    - [437, 7987.02]
+    - [615, 7987.02]
   - - [6784, 1408, 1, 3328]
-    - [437, 8472.71]
+    - [615, 8472.71]
   - - [4288, 6784, 1, 128]
-    - [428, 3865.2]
+    - [606, 3865.2]
   - - [704, 64, 1, 256]
-    - [376, 1287.41]
+    - [554, 1287.41]
   - - [5888, 4, 1, 1280]
-    - [375, 510.022]
+    - [553, 510.022]
   - - [256, 2368, 1, 3328]
-    - [438, 5837.65]
+    - [616, 5837.65]
   - - [6784, 2944, 1, 1280]
-    - [443, 8560.54]
+    - [621, 8560.54]
   - - [4288, 1856, 1, 128]
-    - [421, 4617.07]
+    - [599, 4617.07]
   - - [1856, 2944, 1, 128]
-    - [421, 4287.73]
+    - [599, 4287.73]
   - - [6784, 448, 1, 128]
-    - [425, 3893.43]
+    - [603, 3893.43]
   - - [64, 3584, 1, 128]
-    - [351, 1609.76]
+    - [529, 1609.76]
   - - [448, 5056, 1, 1280]
-    - [441, 7124.41]
+    - [619, 7124.41]
   - - [2368, 1856, 1, 128]
-    - [424, 4004.65]
+    - [602, 4004.65]
   - - [64, 2944, 1, 3328]
-    - [374, 5086.48]
+    - [552, 5086.48]
   - - [4288, 704, 1, 256]
-    - [439, 6176.57]
+    - [617, 6176.57]
   - - [256, 3584, 1, 128]
-    - [422, 2553.15]
+    - [600, 2553.15]
   - - [5888, 704, 1, 256]
-    - [438, 6781.51]
+    - [616, 6781.51]
   - - [3584, 1024, 1, 128]
-    - [425, 3660.95]
+    - [603, 3660.95]
   - - [256, 5888, 1, 3328]
-    - [441, 7772.13]
+    - [619, 7772.13]
   - - [1408, 4288, 1, 3328]
-    - [437, 8832.86]
+    - [615, 8832.86]
   - - [6784, 4288, 1, 256]
-    - [443, 8566.14]
+    - [621, 8566.14]
   - - [4288, 256, 1, 128]
-    - [423, 1953.79]
+    - [601, 1953.79]
   - - [5888, 256, 1, 256]
-    - [441, 3730.53]
+    - [619, 3730.53]
   - - [6784, 1024, 1, 1280]
-    - [437, 8578.39]
+    - [615, 8578.39]
   - - [5888, 1024, 1, 128]
-    - [422, 4092.96]
+    - [600, 4092.96]
   - - [1024, 128, 1, 256]
-    - [372, 1897.98]
+    - [550, 1897.98]
   - - [512, 16, 1, 500000]
-    - [343, 2363.79]
+    - [521, 2363.79]
   - - [128, 64, 1, 3328]
-    - [400, 1592.56]
+    - [578, 1592.56]
   - - [448, 64, 1, 256]
-    - [390, 976.168]
+    - [568, 976.168]
   - - [2368, 256, 1, 128]
-    - [425, 2094.99]
+    - [603, 2094.99]
   - - [6784, 3584, 1, 1280]
-    - [437, 8570.16]
+    - [615, 8570.16]
   - - [1024, 6784, 1, 1280]
-    - [443, 8203.57]
+    - [621, 8203.57]
   - - [2944, 64, 1, 1280]
-    - [381, 4300.61]
+    - [559, 4300.61]
   - - [1408, 2944, 1, 1280]
-    - [433, 7349.64]
+    - [611, 7349.64]
   - - [256, 1856, 1, 256]
-    - [432, 4649.75]
+    - [610, 4649.75]
   - - [2048, 800, 1, 2048]
-    - [451, 4668.73]
+    - [629, 4668.73]
   - - [1408, 2368, 1, 3328]
-    - [441, 7537.74]
+    - [619, 7537.74]
   - - [2944, 4, 1, 3328]
-    - [390, 514.142]
+    - [568, 514.142]
   - - [128, 1408, 1, 3328]
-    - [382, 4991.64]
+    - [560, 4991.64]
   - - [2944, 1856, 1, 128]
-    - [421, 4317.39]
+    - [599, 4317.39]
   - - [256, 2944, 1, 128]
-    - [421, 2258.27]
+    - [599, 2258.27]
   - - [256, 6784, 1, 128]
-    - [421, 3147.02]
+    - [599, 3147.02]
   - - [2368, 4, 1, 128]
-    - [453, 33.9286]
+    - [631, 33.9286]
   - - [1408, 256, 1, 3328]
-    - [432, 5077.85]
+    - [610, 5077.85]
   - - [1856, 4, 1, 128]
-    - [453, 21.5025]
+    - [631, 21.5025]
   - - [5056, 6784, 1, 128]
-    - [421, 4945.11]
+    - [599, 4945.11]
   - - [4288, 5056, 1, 128]
-    - [424, 4729.87]
+    - [602, 4729.87]
   - - [1856, 5888, 1, 128]
-    - [421, 4707.96]
+    - [599, 4707.96]
   - - [2944, 5888, 1, 256]
-    - [435, 8014.78]
+    - [613, 8014.78]
   - - [3584, 1856, 1, 256]
-    - [437, 7567.13]
+    - [615, 7567.13]
   - - [4288, 3584, 1, 1280]
-    - [430, 8726.43]
+    - [608, 8726.43]
   - - [2368, 448, 1, 256]
-    - [438, 4227.7]
+    - [616, 4227.7]
   - - [4288, 256, 1, 3328]
-    - [439, 5487.41]
+    - [617, 5487.41]
   - - [1856, 704, 1, 128]
-    - [425, 3125.06]
+    - [603, 3125.06]
   - - [1408, 64, 1, 256]
-    - [385, 1620.09]
+    - [563, 1620.09]
   - - [64, 1856, 1, 128]
-    - [349, 955.147]
+    - [527, 955.147]
   - - [4, 256, 1, 128]
-    - [452, 10.8789]
+    - [630, 10.8789]
   - - [2560, 16, 1, 2560]
-    - [397, 2019.7]
+    - [575, 2019.7]
   - - [704, 5888, 1, 128]
-    - [426, 3976.26]
+    - [604, 3976.26]
   - - [6784, 3584, 1, 128]
-    - [425, 4018.91]
+    - [603, 4018.91]
   - - [1024, 64, 1, 256]
-    - [390, 1370.79]
+    - [568, 1370.79]
   - - [64, 2368, 1, 256]
-    - [432, 2255.76]
+    - [610, 2255.76]
   - - [4288, 5056, 1, 3328]
-    - [437, 8368.69]
+    - [615, 8368.69]
   - - [4, 1856, 1, 1280]
-    - [390, 392.126]
+    - [568, 392.126]
   - - [4288, 128, 1, 128]
-    - [355, 2287.03]
+    - [533, 2287.03]
   - - [1408, 1408, 1, 128]
-    - [425, 3233.48]
+    - [603, 3233.48]
   - - [7680, 16, 1, 2560]
-    - [393, 2257.37]
+    - [571, 2257.37]
   - - [1856, 128, 1, 128]
-    - [355, 1532.8]
+    - [533, 1532.8]
   - - [5056, 2368, 1, 256]
-    - [437, 8167.29]
+    - [615, 8167.29]
   - - [4288, 704, 1, 3328]
-    - [443, 6411.16]
+    - [621, 6411.16]
   - - [448, 3584, 1, 256]
-    - [443, 5477.74]
+    - [621, 5477.74]
   - - [2368, 64, 1, 1280]
-    - [373, 3936.52]
+    - [551, 3936.52]
   - - [2368, 1024, 1, 1280]
-    - [439, 7688.82]
+    - [617, 7688.82]
   - - [2944, 1408, 1, 3328]
-    - [430, 7668.78]
+    - [608, 7668.78]
   - - [1408, 448, 1, 256]
-    - [432, 4863.98]
+    - [610, 4863.98]
   - - [1024, 1408, 1, 3328]
-    - [441, 7448.99]
+    - [619, 7448.99]
   - - [2944, 5888, 1, 1280]
-    - [431, 8208.57]
+    - [609, 8208.57]
   - - [1408, 4, 1, 1280]
-    - [370, 479.419]
+    - [548, 479.419]
   - - [5888, 3584, 1, 256]
-    - [431, 8610.09]
+    - [609, 8610.09]
   - - [2368, 5056, 1, 128]
-    - [428, 3726.25]
+    - [606, 3726.25]
   - - [1408, 1856, 1, 3328]
-    - [432, 7829.48]
+    - [610, 7829.48]
   - - [4, 4, 1, 3328]
-    - [459, 4.39419]
+    - [637, 4.39419]
   - - [6784, 1408, 1, 1280]
-    - [432, 7690.8]
+    - [610, 7690.8]
   - - [4096, 7000, 1, 4096]
-    - [444, 6272.49]
+    - [622, 6272.49]
   - - [704, 2944, 1, 256]
-    - [433, 6095.91]
+    - [611, 6095.91]
   - - [4288, 64, 1, 256]
-    - [398, 2121.31]
+    - [576, 2121.31]
   - - [6784, 5888, 1, 3328]
-    - [437, 8955.6]
+    - [615, 8955.6]
   - - [2368, 4288, 1, 128]
-    - [421, 4699.65]
+    - [599, 4699.65]
   - - [64, 4288, 1, 1280]
-    - [411, 4013.73]
+    - [589, 4013.73]
   - - [6784, 64, 1, 1280]
-    - [432, 5418.83]
+    - [610, 5418.83]
   - - [3584, 128, 1, 128]
-    - [361, 2165.3]
+    - [539, 2165.3]
   - - [1024, 6784, 1, 128]
-    - [422, 3765.3]
+    - [600, 3765.3]
   - - [4, 1856, 1, 128]
-    - [453, 33.3728]
+    - [631, 33.3728]
   - - [1408, 64, 1, 3328]
-    - [394, 4489.51]
+    - [572, 4489.51]
   - - [6784, 4, 1, 256]
-    - [390, 400.262]
+    - [568, 400.262]
   - - [1408, 1408, 1, 1280]
-    - [437, 8139.53]
+    - [615, 8139.53]
   - - [16384, 400, 1, 4096]
-    - [441, 6087.28]
+    - [619, 6087.28]
   - - [256, 2368, 1, 256]
-    - [432, 4766.35]
+    - [610, 4766.35]
   - - [448, 4288, 1, 3328]
-    - [439, 7577.08]
+    - [617, 7577.08]
   - - [2368, 1408, 1, 256]
-    - [435, 5284.53]
+    - [613, 5284.53]
   - - [5888, 5056, 1, 128]
-    - [422, 3643.6]
+    - [600, 3643.6]
   - - [704, 2368, 1, 256]
-    - [437, 5334.73]
+    - [615, 5334.73]
   - - [1024, 24000, 1, 2560]
-    - [445, 7438.06]
+    - [623, 7438.06]
   - - [2944, 448, 1, 1280]
-    - [446, 4937.53]
+    - [624, 4937.53]
   - - [5888, 2368, 1, 3328]
-    - [431, 8201.84]
+    - [609, 8201.84]
   - - [5124, 9124, 1, 1760]
-    - [438, 6764.06]
+    - [616, 6764.06]
   - - [448, 1408, 1, 1280]
-    - [432, 5881.54]
+    - [610, 5881.54]
   - - [448, 1856, 1, 1280]
-    - [439, 6225.56]
+    - [617, 6225.56]
   - - [4288, 448, 1, 1280]
-    - [441, 5626.37]
+    - [619, 5626.37]
   - - [5888, 704, 1, 3328]
-    - [435, 7873.62]
+    - [613, 7873.62]
   - - [5056, 256, 1, 128]
-    - [426, 2921.03]
+    - [604, 2921.03]
   - - [1856, 256, 1, 128]
-    - [428, 1995.42]
+    - [606, 1995.42]
   - - [64, 1408, 1, 128]
-    - [349, 758.938]
+    - [527, 758.938]
   - - [704, 4, 1, 256]
-    - [390, 130.697]
+    - [568, 130.697]
   - - [1408, 5888, 1, 128]
-    - [421, 4574.05]
+    - [599, 4574.05]
   - - [7680, 12000, 1, 2560]
-    - [437, 8747.13]
+    - [615, 8747.13]
   - - [1408, 1024, 1, 256]
-    - [434, 4609.23]
+    - [612, 4609.23]
   - - [8192, 400, 1, 2048]
-    - [446, 5283.25]
+    - [624, 5283.25]
   - - [1024, 1856, 1, 128]
-    - [421, 2686.38]
+    - [599, 2686.38]
   - - [256, 704, 1, 128]
-    - [421, 1004.83]
+    - [599, 1004.83]
   - - [2560, 128, 1, 2560]
-    - [399, 4259.14]
+    - [577, 4259.14]
   - - [448, 1024, 1, 256]
-    - [432, 4813.24]
+    - [610, 4813.24]
   - - [128, 4, 1, 3328]
-    - [458, 128.408]
+    - [636, 128.408]
   - - [5056, 6784, 1, 1280]
-    - [440, 6579.85]
+    - [618, 6579.85]
   - - [1408, 64, 1, 128]
-    - [362, 819.3]
+    - [540, 819.3]
   - - [1024, 448, 1, 1280]
-    - [441, 5703.31]
+    - [619, 5703.31]
   - - [704, 5056, 1, 3328]
-    - [433, 7574.49]
+    - [611, 7574.49]
   - - [128, 5056, 1, 256]
-    - [432, 5113.53]
+    - [610, 5113.53]
   - - [64, 1024, 1, 3328]
-    - [417, 3980.1]
+    - [595, 3980.1]
   - - [1856, 4, 1, 3328]
-    - [371, 433.253]
+    - [549, 433.253]
   - - [4, 2944, 1, 128]
-    - [453, 46.6225]
+    - [631, 46.6225]
   - - [2368, 2944, 1, 3328]
-    - [431, 9002.13]
+    - [609, 9002.13]
   - - [448, 448, 1, 1280]
-    - [373, 3969.52]
+    - [551, 3969.52]
   - - [2368, 3584, 1, 256]
-    - [443, 7806.39]
+    - [621, 7806.39]
   - - [5056, 3584, 1, 1280]
-    - [430, 8971.56]
+    - [608, 8971.56]
   - - [5124, 9124, 1, 4096]
-    - [443, 7208.72]
+    - [621, 7208.72]
   - - [7680, 48000, 1, 2560]
-    - [437, 3835.91]
+    - [615, 3835.91]
   - - [448, 4, 1, 3328]
-    - [458, 409.7]
+    - [636, 409.7]
   - - [1856, 2944, 1, 1280]
-    - [430, 7173.71]
+    - [608, 7173.71]
   - - [1024, 48000, 1, 2816]
-    - [437, 8976.26]
+    - [615, 8976.26]
   - - [128, 1024, 1, 256]
-    - [376, 1969.26]
+    - [554, 1969.26]
   - - [2944, 1408, 1, 256]
-    - [439, 4585.12]
+    - [617, 4585.12]
   - - [4288, 1408, 1, 3328]
-    - [433, 8237.27]
+    - [611, 8237.27]
   - - [3584, 64, 1, 3328]
-    - [379, 5183.16]
+    - [557, 5183.16]
   - - [5888, 2944, 1, 128]
-    - [428, 3674.56]
+    - [606, 3674.56]
   - - [2944, 1024, 1, 128]
-    - [425, 3834.32]
+    - [603, 3834.32]
   - - [4288, 5056, 1, 1280]
-    - [437, 8086.1]
+    - [615, 8086.1]
   - - [5888, 6784, 1, 1280]
-    - [431, 6941.32]
+    - [609, 6941.32]
   - - [6784, 5056, 1, 128]
-    - [422, 4860.15]
+    - [600, 4860.15]
   - - [256, 1024, 1, 3328]
-    - [446, 5156.22]
+    - [624, 5156.22]
   - - [3584, 4, 1, 256]
-    - [390, 332.529]
+    - [568, 332.529]
   - - [1760, 1600, 1, 1760]
-    - [433, 6330.76]
+    - [611, 6330.76]
   - - [1856, 64, 1, 3328]
-    - [394, 4756.03]
+    - [572, 4756.03]
   - - [4, 128, 1, 3328]
-    - [458, 160.244]
+    - [636, 160.244]
   - - [5888, 1408, 1, 3328]
-    - [431, 8722.74]
+    - [609, 8722.74]
   - - [448, 2944, 1, 128]
-    - [424, 2997.63]
+    - [602, 2997.63]
   - - [2368, 1856, 1, 256]
-    - [432, 6662.34]
+    - [610, 6662.34]
   - - [256, 5056, 1, 256]
-    - [434, 5256.29]
+    - [612, 5256.29]
   - - [128, 3584, 1, 128]
-    - [353, 2073.56]
+    - [531, 2073.56]
   - - [448, 3584, 1, 3328]
-    - [430, 6833.96]
+    - [608, 6833.96]
   - - [4, 5056, 1, 3328]
-    - [400, 581.523]
+    - [578, 581.523]
   - - [704, 2368, 1, 128]
-    - [421, 3402.29]
+    - [599, 3402.29]
   - - [5888, 256, 1, 128]
-    - [426, 2977.54]
+    - [604, 2977.54]
   - - [4, 5056, 1, 128]
-    - [452, 65.2074]
+    - [630, 65.2074]
   - - [448, 256, 1, 256]
-    - [438, 1764.53]
+    - [616, 1764.53]
   - - [704, 4, 1, 3328]
-    - [390, 398.554]
+    - [568, 398.554]
   - - [1408, 256, 1, 256]
-    - [433, 3463.86]
+    - [611, 3463.86]
   - - [3584, 1856, 1, 128]
-    - [429, 3228.19]
+    - [607, 3228.19]
   - - [4288, 4288, 1, 128]
-    - [425, 4853.93]
+    - [603, 4853.93]
   - - [1856, 1024, 1, 3328]
-    - [449, 5994.68]
+    - [627, 5994.68]
   - - [128, 5888, 1, 3328]
-    - [403, 6512.85]
+    - [581, 6512.85]
   - - [1024, 5056, 1, 256]
-    - [443, 7859.42]
+    - [621, 7859.42]
   - - [5888, 5888, 1, 1280]
-    - [443, 8131.44]
+    - [621, 8131.44]
   - - [5056, 5888, 1, 128]
-    - [422, 4920.71]
+    - [600, 4920.71]
   - - [2368, 1408, 1, 3328]
-    - [441, 7110.74]
+    - [619, 7110.74]
   - - [1024, 48000, 1, 1536]
-    - [441, 8590.82]
+    - [619, 8590.82]
   - - [5888, 448, 1, 256]
-    - [442, 3567.74]
+    - [620, 3567.74]
   - - [2560, 3200, 1, 2560]
-    - [432, 7638.31]
+    - [610, 7638.31]
   - - [5888, 6784, 1, 128]
-    - [422, 3910.92]
+    - [600, 3910.92]
   - - [6144, 48000, 1, 2048]
-    - [443, 3412.95]
+    - [621, 3412.95]
   - - [6784, 5056, 1, 1280]
-    - [434, 7890.22]
+    - [612, 7890.22]
   - - [5056, 704, 1, 1280]
-    - [438, 7665.06]
+    - [616, 7665.06]
   - - [1024, 48000, 1, 2560]
-    - [443, 8188.5]
+    - [621, 8188.5]
   - - [4608, 32, 1, 1536]
-    - [411, 2856.97]
+    - [589, 2856.97]
   - - [1024, 2368, 1, 128]
-    - [421, 3019.35]
+    - [599, 3019.35]
   - - [128, 704, 1, 256]
-    - [372, 1696.33]
+    - [550, 1696.33]
   - - [2368, 448, 1, 3328]
-    - [438, 5799.29]
+    - [616, 5799.29]
   - - [128, 5888, 1, 1280]
-    - [432, 6680.75]
+    - [610, 6680.75]
   - - [16384, 800, 1, 4096]
-    - [437, 6322.22]
+    - [615, 6322.22]
   - - [448, 128, 1, 1280]
-    - [411, 2849.49]
+    - [589, 2849.49]
   - - [6784, 4, 1, 3328]
-    - [390, 563.12]
+    - [568, 563.12]
   - - [5888, 5056, 1, 1280]
-    - [437, 8631.33]
+    - [615, 8631.33]
   - - [1024, 64, 1, 3328]
-    - [412, 3481.96]
+    - [590, 3481.96]
   - - [3072, 48000, 1, 1024]
-    - [437, 9019.49]
+    - [615, 9019.49]
   - - [64, 3584, 1, 1280]
-    - [374, 4327.95]
+    - [552, 4327.95]
   - - [6784, 1408, 1, 256]
-    - [437, 6320.59]
+    - [615, 6320.59]
   - - [3584, 5888, 1, 128]
-    - [424, 4406.79]
+    - [602, 4406.79]
   - - [5056, 5888, 1, 256]
-    - [443, 8037.13]
+    - [621, 8037.13]
   - - [2368, 1024, 1, 256]
-    - [435, 4936.14]
+    - [613, 4936.14]
   - - [2944, 1856, 1, 256]
-    - [443, 7222.32]
+    - [621, 7222.32]
   - - [1856, 6784, 1, 1280]
-    - [433, 8251.81]
+    - [611, 8251.81]
   - - [64, 5056, 1, 128]
-    - [353, 1643.7]
+    - [531, 1643.7]
   - - [64, 6784, 1, 128]
-    - [351, 1929.77]
+    - [529, 1929.77]
   - - [448, 704, 1, 128]
-    - [423, 979.959]
+    - [601, 979.959]
   - - [4, 1024, 1, 128]
-    - [452, 20.1416]
+    - [630, 20.1416]
   - - [4288, 3584, 1, 256]
-    - [437, 8444.14]
+    - [615, 8444.14]
   - - [1408, 704, 1, 128]
-    - [421, 3021.0]
+    - [599, 3021.0]
   - - [64, 256, 1, 3328]
-    - [417, 2227.47]
+    - [595, 2227.47]
   - - [6784, 448, 1, 3328]
-    - [443, 6573.11]
+    - [621, 6573.11]
   - - [5056, 1856, 1, 1280]
-    - [435, 7976.23]
+    - [613, 7976.23]
   - - [1408, 1024, 1, 3328]
-    - [433, 7470.33]
+    - [611, 7470.33]
   - - [2368, 256, 1, 3328]
-    - [438, 5394.37]
+    - [616, 5394.37]
   - - [5888, 3584, 1, 1280]
-    - [430, 9031.55]
+    - [608, 9031.55]
   - - [1856, 3584, 1, 3328]
-    - [445, 7272.6]
+    - [623, 7272.6]
   - - [5888, 128, 1, 1280]
-    - [438, 6684.48]
+    - [616, 6684.48]
   - - [1024, 2944, 1, 256]
-    - [443, 7415.09]
+    - [621, 7415.09]
   - - [448, 6784, 1, 1280]
-    - [439, 7923.78]
+    - [617, 7923.78]
   - - [256, 3584, 1, 1280]
-    - [435, 6901.87]
+    - [613, 6901.87]
   - - [704, 5056, 1, 256]
-    - [440, 5004.55]
+    - [618, 5004.55]
   - - [3584, 1024, 1, 3328]
-    - [432, 7894.63]
+    - [610, 7894.63]
   - - [2944, 1856, 1, 1280]
-    - [437, 7903.27]
+    - [615, 7903.27]
   - - [128, 256, 1, 128]
-    - [350, 325.745]
+    - [528, 325.745]
   - - [5056, 256, 1, 256]
-    - [434, 3356.56]
+    - [612, 3356.56]
   - - [2944, 4288, 1, 3328]
-    - [443, 7813.93]
+    - [621, 7813.93]
   - - [2368, 3584, 1, 3328]
-    - [443, 8371.09]
+    - [621, 8371.09]
   - - [2944, 704, 1, 1280]
-    - [449, 5514.09]
+    - [627, 5514.09]
   - - [128, 4, 1, 256]
-    - [390, 25.3062]
+    - [568, 25.3062]
   - - [2944, 3584, 1, 1280]
-    - [437, 7738.83]
+    - [615, 7738.83]
   - - [1856, 5888, 1, 1280]
-    - [431, 8584.63]
+    - [609, 8584.63]
   - - [256, 256, 1, 1280]
-    - [411, 2962.18]
+    - [589, 2962.18]
   - - [2048, 3200, 1, 2048]
-    - [439, 6911.69]
+    - [617, 6911.69]
   - - [4288, 1408, 1, 256]
-    - [437, 7954.0]
+    - [615, 7954.0]
   - - [3584, 64, 1, 256]
-    - [438, 2780.42]
+    - [616, 2780.42]
   - - [64, 1856, 1, 3328]
-    - [373, 4912.04]
+    - [551, 4912.04]
   - - [256, 1408, 1, 128]
-    - [421, 1373.24]
+    - [599, 1373.24]
   - - [5888, 1408, 1, 128]
-    - [426, 4242.01]
+    - [604, 4242.01]
   - - [4288, 2368, 1, 1280]
-    - [435, 8012.7]
+    - [613, 8012.7]
   - - [4, 4288, 1, 256]
-    - [456, 301.674]
+    - [634, 301.674]
   - - [256, 4288, 1, 128]
-    - [421, 2706.36]
+    - [599, 2706.36]
   - - [2048, 128, 1, 2048]
-    - [416, 2885.26]
+    - [594, 2885.26]
   - - [256, 128, 1, 3328]
-    - [418, 3170.21]
+    - [596, 3170.21]
   - - [512, 8, 1, 500000]
-    - [342, 1915.12]
+    - [520, 1915.12]
   - - [6784, 2368, 1, 256]
-    - [437, 8323.66]
+    - [615, 8323.66]
   - - [5888, 128, 1, 128]
-    - [425, 2466.08]
+    - [603, 2466.08]
   - - [1024, 24000, 1, 2816]
-    - [435, 8131.64]
+    - [613, 8131.64]
   - - [7680, 5984, 1, 2560]
-    - [439, 6040.77]
+    - [617, 6040.77]
   - - [4288, 1856, 1, 256]
-    - [451, 5818.53]
+    - [629, 5818.53]
   - - [1856, 256, 1, 3328]
-    - [432, 6532.03]
+    - [610, 6532.03]
   - - [1856, 2944, 1, 256]
-    - [437, 7312.92]
+    - [615, 7312.92]
   - - [5056, 1024, 1, 128]
-    - [427, 4103.0]
+    - [605, 4103.0]
   - - [64, 5888, 1, 1280]
-    - [432, 5058.25]
+    - [610, 5058.25]
   - - [1760, 800, 1, 1760]
-    - [435, 7280.0]
+    - [613, 7280.0]
   - - [6784, 256, 1, 128]
-    - [425, 3257.69]
+    - [603, 3257.69]
   - - [5888, 704, 1, 128]
-    - [421, 3813.93]
+    - [599, 3813.93]
   - - [1408, 2368, 1, 128]
-    - [422, 3561.27]
+    - [600, 3561.27]
   - - [1024, 4288, 1, 1280]
-    - [441, 7752.74]
+    - [619, 7752.74]
   - - [2368, 5056, 1, 3328]
-    - [444, 7711.91]
+    - [622, 7711.91]
   - - [448, 4, 1, 128]
-    - [452, 18.4795]
+    - [630, 18.4795]
   - - [4, 256, 1, 3328]
-    - [459, 269.71]
+    - [637, 269.71]
   - - [4288, 1024, 1, 3328]
-    - [438, 7910.27]
+    - [616, 7910.27]
   - - [6144, 48000, 1, 2560]
-    - [437, 3541.09]
+    - [615, 3541.09]
   - - [1024, 5056, 1, 3328]
-    - [431, 8509.66]
+    - [609, 8509.66]
   - - [1024, 1856, 1, 3328]
-    - [437, 7907.93]
+    - [615, 7907.93]
   - - [704, 704, 1, 1280]
-    - [449, 5648.15]
+    - [627, 5648.15]
   - - [128, 2368, 1, 1280]
-    - [408, 4145.11]
+    - [586, 4145.11]
   - - [1408, 128, 1, 3328]
-    - [381, 4919.6]
+    - [559, 4919.6]
   - - [3584, 256, 1, 1280]
-    - [433, 5185.56]
+    - [611, 5185.56]
   - - [4, 128, 1, 128]
-    - [452, 3.07891]
+    - [630, 3.07891]
   - - [5888, 64, 1, 1280]
-    - [381, 4499.59]
+    - [559, 4499.59]
   - - [3584, 128, 1, 1280]
-    - [438, 5929.01]
+    - [616, 5929.01]
   - - [4, 256, 1, 1280]
-    - [457, 170.767]
+    - [635, 170.767]
   - - [128, 704, 1, 3328]
-    - [381, 4379.37]
+    - [559, 4379.37]
   - - [4288, 6784, 1, 256]
-    - [431, 7181.09]
+    - [609, 7181.09]
   - - [3584, 2944, 1, 3328]
-    - [437, 8553.3]
+    - [615, 8553.3]
   - - [128, 1856, 1, 256]
-    - [438, 3207.77]
+    - [616, 3207.77]
   - - [64, 4288, 1, 256]
-    - [432, 2907.99]
+    - [610, 2907.99]
   - - [4, 3584, 1, 3328]
-    - [390, 560.605]
+    - [568, 560.605]
   - - [64, 4, 1, 3328]
-    - [459, 67.5025]
+    - [637, 67.5025]
   - - [4, 64, 1, 3328]
-    - [459, 88.8467]
+    - [637, 88.8467]
   - - [5888, 2944, 1, 256]
-    - [437, 7255.77]
+    - [615, 7255.77]
   - - [1856, 64, 1, 256]
-    - [383, 1743.72]
+    - [561, 1743.72]
   - - [5056, 128, 1, 1280]
-    - [438, 6009.79]
+    - [616, 6009.79]
   - - [448, 4288, 1, 1280]
-    - [439, 6466.82]
+    - [617, 6466.82]
   - - [448, 1856, 1, 3328]
-    - [439, 6381.99]
+    - [617, 6381.99]
   - - [1024, 4288, 1, 128]
-    - [424, 3491.87]
+    - [602, 3491.87]
   - - [4, 1024, 1, 256]
-    - [457, 172.563]
+    - [635, 172.563]
   - - [5056, 4288, 1, 256]
-    - [437, 8241.52]
+    - [615, 8241.52]
   - - [1024, 448, 1, 256]
-    - [441, 4218.51]
+    - [619, 4218.51]
   - - [1024, 3584, 1, 256]
-    - [437, 6513.69]
+    - [615, 6513.69]
   - - [2944, 128, 1, 1280]
-    - [381, 4710.48]
+    - [559, 4710.48]
   - - [2048, 32, 1, 2048]
-    - [396, 1779.23]
+    - [574, 1779.23]
   - - [64, 256, 1, 256]
-    - [390, 655.46]
+    - [568, 655.46]
   - - [1408, 4, 1, 128]
-    - [453, 20.1249]
+    - [631, 20.1249]
   - - [128, 2368, 1, 128]
-    - [353, 1707.73]
+    - [531, 1707.73]
   - - [256, 704, 1, 1280]
-    - [432, 3735.31]
+    - [610, 3735.31]
   - - [64, 2368, 1, 128]
-    - [360, 1049.81]
+    - [538, 1049.81]
   - - [6784, 6784, 1, 3328]
-    - [437, 9277.94]
+    - [615, 9277.94]
   - - [448, 5888, 1, 1280]
-    - [443, 7319.75]
+    - [621, 7319.75]
   - - [5056, 448, 1, 128]
-    - [425, 3694.43]
+    - [603, 3694.43]
   - - [4288, 704, 1, 1280]
-    - [435, 7890.96]
+    - [613, 7890.96]
   - - [3584, 2944, 1, 128]
-    - [427, 4124.71]
+    - [605, 4124.71]
   - - [6784, 256, 1, 1280]
-    - [443, 7185.83]
+    - [621, 7185.83]
   - - [256, 2944, 1, 1280]
-    - [432, 6736.76]
+    - [610, 6736.76]
   - - [64, 4288, 1, 128]
-    - [351, 1614.41]
+    - [529, 1614.41]
   - - [2368, 5888, 1, 3328]
-    - [433, 8616.46]
+    - [611, 8616.46]
   - - [4, 64, 1, 256]
-    - [370, 11.4778]
+    - [548, 11.4778]
   - - [704, 1024, 1, 3328]
-    - [438, 6801.92]
+    - [616, 6801.92]
   - - [2368, 1856, 1, 1280]
-    - [435, 7853.57]
+    - [613, 7853.57]
   - - [448, 5056, 1, 3328]
-    - [438, 7453.04]
+    - [616, 7453.04]
   - - [128, 448, 1, 128]
-    - [353, 530.449]
+    - [531, 530.449]
   - - [128, 6784, 1, 256]
-    - [433, 5557.55]
+    - [611, 5557.55]
   - - [3584, 4288, 1, 128]
-    - [424, 4462.73]
+    - [602, 4462.73]
   - - [64, 448, 1, 128]
-    - [353, 278.132]
+    - [531, 278.132]
   - - [5888, 4288, 1, 3328]
-    - [430, 9153.55]
+    - [608, 9153.55]
   - - [2368, 704, 1, 256]
-    - [437, 5350.78]
+    - [615, 5350.78]
   - - [256, 1856, 1, 3328]
-    - [432, 6536.35]
+    - [610, 6536.35]
   - - [1856, 128, 1, 256]
-    - [446, 2847.36]
+    - [624, 2847.36]
   - - [6784, 128, 1, 128]
-    - [426, 2530.82]
+    - [604, 2530.82]
   - - [3584, 1408, 1, 128]
-    - [427, 3625.62]
+    - [605, 3625.62]
   - - [1856, 5056, 1, 1280]
-    - [433, 8123.39]
+    - [611, 8123.39]
   - - [2944, 1024, 1, 1280]
-    - [443, 8450.41]
+    - [621, 8450.41]
   - - [5056, 4, 1, 256]
-    - [457, 380.787]
+    - [635, 380.787]
   - - [3584, 5888, 1, 3328]
-    - [435, 8567.99]
+    - [613, 8567.99]
   - - [2368, 4288, 1, 256]
-    - [439, 7858.07]
+    - [617, 7858.07]
   - - [1024, 2368, 1, 3328]
-    - [433, 6776.45]
+    - [611, 6776.45]
   - - [64, 704, 1, 3328]
-    - [388, 3503.52]
+    - [566, 3503.52]
   - - [704, 1408, 1, 256]
-    - [433, 6099.99]
+    - [611, 6099.99]
   - - [4096, 128, 1, 4096]
-    - [413, 4116.57]
+    - [591, 4116.57]
   - - [1024, 3584, 1, 1280]
-    - [443, 7231.65]
+    - [621, 7231.65]
   - - [4288, 5888, 1, 3328]
-    - [437, 8762.42]
+    - [615, 8762.42]
   - - [4288, 4, 1, 1280]
-    - [390, 492.797]
+    - [568, 492.797]
   - - [4608, 16, 1, 1536]
-    - [391, 1892.58]
+    - [569, 1892.58]
   - - [5888, 64, 1, 128]
-    - [368, 1747.73]
+    - [546, 1747.73]
   - - [4, 5888, 1, 128]
-    - [453, 84.5915]
+    - [631, 84.5915]
   - - [1024, 2944, 1, 3328]
-    - [441, 6907.05]
+    - [619, 6907.05]
   - - [6784, 1856, 1, 256]
-    - [437, 6274.07]
+    - [615, 6274.07]
   - - [2048, 64, 1, 2048]
-    - [420, 2371.44]
+    - [598, 2371.44]
   - - [256, 6784, 1, 1280]
-    - [437, 7067.04]
+    - [615, 7067.04]
   - - [1856, 3584, 1, 256]
-    - [443, 7706.87]
+    - [621, 7706.87]
   - - [128, 448, 1, 3328]
-    - [388, 3995.93]
+    - [566, 3995.93]
   - - [6784, 1856, 1, 128]
-    - [425, 4459.09]
+    - [603, 4459.09]
   - - [4, 448, 1, 256]
-    - [390, 84.4294]
+    - [568, 84.4294]
   - - [5056, 128, 1, 256]
-    - [438, 4954.5]
+    - [616, 4954.5]
   - - [512, 24000, 1, 2816]
-    - [431, 8994.98]
+    - [609, 8994.98]
   - - [256, 5888, 1, 1280]
-    - [430, 6184.0]
+    - [608, 6184.0]
   - - [4, 128, 1, 1280]
-    - [458, 71.9597]
+    - [636, 71.9597]
   - - [16384, 1600, 1, 4096]
-    - [437, 6921.09]
+    - [615, 6921.09]
   - - [6784, 128, 1, 1280]
-    - [441, 6486.37]
+    - [619, 6486.37]
   - - [64, 1408, 1, 256]
-    - [378, 1647.86]
+    - [556, 1647.86]
   - - [2368, 1408, 1, 128]
-    - [425, 3937.1]
+    - [603, 3937.1]
   - - [1856, 448, 1, 256]
-    - [438, 4635.57]
+    - [616, 4635.57]
   - - [1408, 1024, 1, 128]
-    - [421, 3208.51]
+    - [599, 3208.51]
   - - [128, 64, 1, 128]
-    - [350, 70.192]
+    - [528, 70.192]
   - - [6784, 3584, 1, 3328]
-    - [443, 8466.28]
+    - [621, 8466.28]
   - - [1760, 7000, 1, 1760]
-    - [441, 8149.21]
+    - [619, 8149.21]
   - - [2944, 64, 1, 3328]
-    - [374, 5018.09]
+    - [552, 5018.09]
   - - [64, 64, 1, 128]
-    - [350, 35.5249]
+    - [528, 35.5249]
   - - [2368, 5056, 1, 1280]
-    - [437, 8764.0]
+    - [615, 8764.0]
   - - [64, 4, 1, 1280]
-    - [459, 43.6745]
+    - [637, 43.6745]
   - - [1408, 2368, 1, 1280]
-    - [438, 7660.38]
+    - [616, 7660.38]
   - - [128, 1408, 1, 1280]
-    - [373, 4185.27]
+    - [551, 4185.27]
   - - [256, 64, 1, 3328]
-    - [398, 2071.75]
+    - [576, 2071.75]
   - - [704, 4288, 1, 128]
-    - [421, 4069.18]
+    - [599, 4069.18]
   - - [128, 1856, 1, 3328]
-    - [404, 5776.15]
+    - [582, 5776.15]
   - - [2944, 2944, 1, 256]
-    - [443, 7949.31]
+    - [621, 7949.31]
   - - [2944, 4, 1, 1280]
-    - [390, 483.218]
+    - [568, 483.218]
   - - [5888, 4, 1, 256]
-    - [375, 396.765]
+    - [553, 396.765]
   - - [6784, 256, 1, 256]
-    - [449, 4044.83]
+    - [627, 4044.83]
   - - [256, 5056, 1, 3328]
-    - [432, 7607.37]
+    - [610, 7607.37]
   - - [128, 4288, 1, 1280]
-    - [373, 4958.78]
+    - [551, 4958.78]
   - - [5056, 1856, 1, 128]
-    - [425, 4560.94]
+    - [603, 4560.94]
   - - [5056, 1024, 1, 3328]
-    - [437, 8634.18]
+    - [615, 8634.18]
   - - [128, 128, 1, 256]
-    - [375, 699.151]
+    - [553, 699.151]
   - - [1760, 64, 1, 1760]
-    - [381, 4580.65]
+    - [559, 4580.65]
   - - [4288, 3584, 1, 3328]
-    - [443, 9143.76]
+    - [621, 9143.76]
   - - [448, 704, 1, 3328]
-    - [432, 4473.43]
+    - [610, 4473.43]
   - - [448, 448, 1, 128]
-    - [363, 1264.38]
+    - [541, 1264.38]
   - - [1024, 2368, 1, 1280]
-    - [441, 7452.51]
+    - [619, 7452.51]
   - - [1856, 704, 1, 3328]
-    - [432, 6103.34]
+    - [610, 6103.34]
   - - [4, 2368, 1, 128]
-    - [452, 96.019]
+    - [630, 96.019]
   - - [5888, 6784, 1, 3328]
-    - [437, 9131.74]
+    - [615, 9131.74]
   - - [704, 4288, 1, 1280]
-    - [439, 7906.46]
+    - [617, 7906.46]
   - - [704, 256, 1, 256]
-    - [432, 2772.78]
+    - [610, 2772.78]
   - - [1024, 48000, 1, 2048]
-    - [436, 6513.45]
+    - [614, 6513.45]
   - - [4288, 1024, 1, 128]
-    - [421, 4291.77]
-  - - [512, 2048, 1, 49]
-    - [467, 4555.08]
-  - - [512, 128, 1, 784]
-    - [460, 3195.39]
-  - - [2048, 512, 1, 49]
-    - [468, 4253.43]
-  - - [1024, 256, 1, 196]
-    - [464, 4039.43]
+    - [599, 4291.77]
   - - [256, 64, 1, 3136]
-    - [462, 3015.37]
+    - [640, 3015.37]
   - - [256, 1024, 1, 196]
-    - [466, 4225.45]
-  - - [64, 256, 1, 3136]
-    - [463, 3058.45]
-  - - [128, 512, 1, 784]
-    - [461, 3380.38]
-  - - [64, 64, 1, 3136]
-    - [465, 1372.44]
+    - [644, 4225.45]
   - - [1024, 1024, 1, 3328]
-    - [578, 8705.1]
+    - [756, 8705.1]
   - - [2048, 200, 1, 3200]
-    - [583, 6173.42]
+    - [761, 6173.42]
   - - [1024, 200, 1, 13312]
-    - [481, 5213.31]
+    - [659, 5213.31]
   - - [1024, 256, 1, 1536]
-    - [583, 5859.43]
+    - [761, 5859.43]
   - - [4096, 256, 1, 12288]
-    - [588, 8807.52]
+    - [766, 8807.52]
   - - [64, 200, 1, 1024]
-    - [555, 366.632]
+    - [733, 366.632]
   - - [32, 512, 1, 1024]
-    - [510, 453.049]
+    - [688, 453.049]
   - - [2048, 256, 1, 3328]
-    - [572, 7876.73]
+    - [750, 7876.73]
   - - [4096, 512, 1, 32]
-    - [576, 3975.74]
+    - [754, 3975.74]
   - - [2048, 256, 1, 13312]
-    - [553, 7837.81]
+    - [731, 7837.81]
   - - [4096, 200, 1, 11264]
-    - [588, 6902.76]
+    - [766, 6902.76]
   - - [2048, 512, 1, 1024]
-    - [582, 8100.14]
+    - [760, 8100.14]
   - - [2048, 1024, 1, 1664]
-    - [482, 9082.08]
+    - [660, 9082.08]
   - - [1024, 1024, 1, 64]
-    - [578, 4258.28]
+    - [756, 4258.28]
   - - [512, 1024, 1, 1536]
-    - [572, 7597.33]
+    - [750, 7597.33]
   - - [1024, 256, 1, 15360]
-    - [473, 6735.24]
+    - [651, 6735.24]
   - - [1, 512, 1, 1024]
-    - [523, 15.1657]
+    - [701, 15.1657]
   - - [4096, 512, 1, 1408]
-    - [485, 9024.52]
+    - [663, 9024.52]
   - - [1024, 200, 1, 1408]
-    - [583, 4461.09]
+    - [761, 4461.09]
   - - [1024, 512, 1, 512]
-    - [577, 6528.2]
+    - [755, 6528.2]
   - - [4096, 256, 1, 15360]
-    - [584, 8824.03]
+    - [762, 8824.03]
   - - [2048, 512, 1, 640]
-    - [574, 7989.25]
+    - [752, 7989.25]
   - - [4096, 1024, 1, 1280]
-    - [480, 9421.54]
+    - [658, 9421.54]
   - - [1024, 200, 1, 6144]
-    - [572, 4966.52]
+    - [750, 4966.52]
   - - [1024, 1024, 1, 512]
-    - [574, 7731.54]
+    - [752, 7731.54]
   - - [128, 512, 1, 2048]
-    - [490, 2190.34]
+    - [668, 2190.34]
   - - [2048, 1024, 1, 640]
-    - [480, 8581.8]
+    - [658, 8581.8]
   - - [1024, 256, 1, 3328]
-    - [572, 6192.71]
+    - [750, 6192.71]
   - - [4096, 1024, 1, 13312]
-    - [485, 9642.59]
+    - [663, 9642.59]
   - - [2048, 256, 1, 2048]
-    - [572, 7485.75]
+    - [750, 7485.75]
   - - [2048, 1024, 1, 13312]
-    - [485, 9352.26]
+    - [663, 9352.26]
   - - [2048, 512, 1, 16640]
-    - [573, 8839.17]
+    - [751, 8839.17]
   - - [1024, 512, 1, 128]
-    - [577, 4280.0]
+    - [755, 4280.0]
   - - [2048, 1024, 1, 3584]
-    - [480, 9264.72]
+    - [658, 9264.72]
   - - [2048, 512, 1, 256]
-    - [588, 6990.61]
+    - [766, 6990.61]
   - - [512, 256, 1, 3200]
-    - [535, 4154.52]
+    - [713, 4154.52]
   - - [4096, 1024, 1, 1920]
-    - [480, 9535.32]
+    - [658, 9535.32]
   - - [4096, 200, 1, 2560]
-    - [585, 6754.65]
+    - [763, 6754.65]
   - - [1024, 256, 1, 16384]
-    - [475, 6289.6]
+    - [653, 6289.6]
   - - [1024, 1024, 1, 1152]
-    - [578, 8407.39]
+    - [756, 8407.39]
   - - [2048, 200, 1, 32]
-    - [521, 1412.51]
+    - [699, 1412.51]
   - - [512, 1024, 1, 2816]
-    - [572, 7843.25]
+    - [750, 7843.25]
   - - [4096, 256, 1, 14336]
-    - [584, 8844.77]
+    - [762, 8844.77]
   - - [1024, 200, 1, 4608]
-    - [583, 4931.74]
+    - [761, 4931.74]
   - - [1024, 200, 1, 16384]
-    - [478, 5135.15]
+    - [656, 5135.15]
   - - [64, 256, 1, 1024]
-    - [556, 461.013]
+    - [734, 461.013]
   - - [1, 200, 1, 1024]
-    - [538, 7.49884]
+    - [716, 7.49884]
   - - [2048, 200, 1, 2080]
-    - [583, 6033.87]
+    - [761, 6033.87]
   - - [512, 256, 1, 1792]
-    - [493, 3153.71]
+    - [671, 3153.71]
   - - [2048, 200, 1, 1024]
-    - [583, 5711.3]
+    - [761, 5711.3]
   - - [4096, 1024, 1, 12288]
-    - [480, 9658.23]
+    - [658, 9658.23]
   - - [4096, 200, 1, 4096]
-    - [574, 6834.55]
+    - [752, 6834.55]
   - - [1024, 512, 1, 11264]
-    - [541, 7686.46]
+    - [719, 7686.46]
   - - [128, 512, 1, 1024]
-    - [511, 1458.99]
+    - [689, 1458.99]
   - - [32, 256, 1, 2048]
-    - [529, 384.899]
+    - [707, 384.899]
   - - [1024, 200, 1, 1792]
-    - [583, 4638.64]
+    - [761, 4638.64]
   - - [1024, 1024, 1, 1792]
-    - [578, 8550.56]
+    - [756, 8550.56]
   - - [32, 256, 1, 512]
-    - [562, 161.419]
+    - [740, 161.419]
   - - [512, 200, 1, 2816]
-    - [488, 3353.1]
+    - [666, 3353.1]
   - - [512, 200, 1, 3072]
-    - [473, 3298.89]
+    - [651, 3298.89]
   - - [1024, 1024, 1, 8192]
-    - [519, 8369.1]
+    - [697, 8369.1]
   - - [1024, 256, 1, 12288]
-    - [476, 6475.71]
+    - [654, 6475.71]
   - - [4096, 200, 1, 768]
-    - [578, 6367.97]
+    - [756, 6367.97]
   - - [1024, 512, 1, 16384]
-    - [594, 7367.12]
+    - [772, 7367.12]
   - - [4096, 256, 1, 1024]
-    - [574, 8214.16]
+    - [752, 8214.16]
   - - [1024, 512, 1, 256]
-    - [577, 5537.13]
+    - [755, 5537.13]
   - - [4096, 1024, 1, 8320]
-    - [480, 9674.26]
+    - [658, 9674.26]
   - - [4096, 256, 1, 9216]
-    - [582, 8791.02]
+    - [760, 8791.02]
   - - [1024, 512, 1, 1408]
-    - [572, 7459.65]
+    - [750, 7459.65]
   - - [1024, 512, 1, 5632]
-    - [583, 7997.91]
+    - [761, 7997.91]
   - - [4096, 200, 1, 256]
-    - [588, 5371.9]
+    - [766, 5371.9]
   - - [1024, 200, 1, 128]
-    - [566, 1998.15]
+    - [744, 1998.15]
   - - [256, 200, 1, 1024]
-    - [535, 1196.01]
+    - [713, 1196.01]
   - - [1024, 200, 1, 5120]
-    - [583, 4957.44]
+    - [761, 4957.44]
   - - [512, 1024, 1, 3072]
-    - [596, 7104.07]
+    - [774, 7104.07]
   - - [4096, 1024, 1, 15360]
-    - [480, 9669.04]
+    - [658, 9669.04]
   - - [1, 256, 1, 2048]
-    - [522, 13.9262]
+    - [700, 13.9262]
   - - [1024, 1024, 1, 4160]
-    - [574, 8759.3]
+    - [752, 8759.3]
   - - [1024, 256, 1, 256]
-    - [581, 3728.37]
+    - [759, 3728.37]
   - - [2048, 256, 1, 384]
-    - [583, 6123.17]
+    - [761, 6123.17]
   - - [512, 256, 1, 2560]
-    - [537, 3809.64]
+    - [715, 3809.64]
   - - [4096, 512, 1, 3072]
-    - [485, 9215.19]
+    - [663, 9215.19]
   - - [1024, 256, 1, 4160]
-    - [572, 6293.49]
+    - [750, 6293.49]
   - - [4096, 512, 1, 13312]
-    - [482, 9367.32]
+    - [660, 9367.32]
   - - [4096, 1024, 1, 3840]
-    - [480, 9631.57]
+    - [658, 9631.57]
   - - [4096, 200, 1, 640]
-    - [578, 6206.16]
+    - [756, 6206.16]
   - - [32, 200, 1, 2048]
-    - [516, 303.507]
+    - [694, 303.507]
   - - [1024, 200, 1, 512]
-    - [572, 3713.19]
+    - [750, 3713.19]
   - - [1024, 1024, 1, 7168]
-    - [575, 8475.74]
+    - [753, 8475.74]
   - - [2048, 1024, 1, 3200]
-    - [480, 9271.34]
+    - [658, 9271.34]
   - - [512, 512, 1, 1536]
-    - [583, 5832.27]
+    - [761, 5832.27]
   - - [4096, 256, 1, 768]
-    - [588, 8066.07]
+    - [766, 8066.07]
   - - [2048, 256, 1, 6656]
-    - [572, 8034.87]
+    - [750, 8034.87]
   - - [1024, 256, 1, 896]
-    - [572, 5467.54]
+    - [750, 5467.54]
   - - [2048, 256, 1, 512]
-    - [583, 6465.31]
+    - [761, 6465.31]
   - - [2048, 200, 1, 3072]
-    - [583, 6165.78]
+    - [761, 6165.78]
   - - [128, 200, 1, 1024]
-    - [540, 692.87]
+    - [718, 692.87]
   - - [4096, 512, 1, 3840]
-    - [485, 9272.7]
+    - [663, 9272.7]
   - - [1024, 200, 1, 3200]
-    - [583, 4838.85]
+    - [761, 4838.85]
   - - [4096, 512, 1, 5632]
-    - [480, 9335.52]
+    - [658, 9335.52]
   - - [4096, 512, 1, 64]
-    - [515, 5275.95]
+    - [693, 5275.95]
   - - [1024, 512, 1, 2816]
-    - [572, 7816.68]
+    - [750, 7816.68]
   - - [4096, 256, 1, 7680]
-    - [578, 8795.5]
+    - [756, 8795.5]
   - - [4096, 200, 1, 1024]
-    - [588, 6448.91]
+    - [766, 6448.91]
   - - [1024, 512, 1, 12288]
-    - [542, 7624.67]
+    - [720, 7624.67]
   - - [2048, 1024, 1, 512]
-    - [485, 8436.16]
+    - [663, 8436.16]
   - - [128, 256, 1, 2048]
-    - [559, 1342.28]
+    - [737, 1342.28]
   - - [2048, 200, 1, 1792]
-    - [583, 6020.47]
+    - [761, 6020.47]
   - - [1024, 1024, 1, 2816]
-    - [574, 8670.5]
+    - [752, 8670.5]
   - - [2048, 512, 1, 1536]
-    - [585, 8466.32]
+    - [763, 8466.32]
   - - [4096, 256, 1, 3072]
-    - [582, 8631.47]
+    - [760, 8631.47]
   - - [1024, 200, 1, 1536]
-    - [564, 4577.7]
+    - [742, 4577.7]
   - - [1024, 256, 1, 1024]
-    - [572, 5491.82]
+    - [750, 5491.82]
   - - [4096, 512, 1, 8192]
-    - [485, 9325.64]
+    - [663, 9325.64]
   - - [128, 1024, 1, 512]
-    - [583, 2534.42]
+    - [761, 2534.42]
   - - [4096, 512, 1, 2304]
-    - [480, 9193.09]
+    - [658, 9193.09]
   - - [2048, 256, 1, 5632]
-    - [583, 7999.64]
+    - [761, 7999.64]
   - - [1024, 256, 1, 5120]
-    - [583, 6307.32]
+    - [761, 6307.32]
   - - [1024, 512, 1, 6656]
-    - [583, 8028.95]
+    - [761, 8028.95]
   - - [4096, 512, 1, 2816]
-    - [480, 9234.5]
+    - [658, 9234.5]
   - - [4096, 200, 1, 2080]
-    - [567, 6697.96]
+    - [745, 6697.96]
   - - [1024, 200, 1, 2304]
-    - [583, 4752.91]
+    - [761, 4752.91]
   - - [2048, 200, 1, 13312]
-    - [572, 6346.23]
+    - [750, 6346.23]
   - - [64, 1024, 1, 1024]
-    - [556, 1359.68]
+    - [734, 1359.68]
   - - [4096, 256, 1, 3584]
-    - [578, 8668.9]
+    - [756, 8668.9]
   - - [2048, 1024, 1, 7680]
-    - [480, 9365.88]
+    - [658, 9365.88]
   - - [1024, 256, 1, 1664]
-    - [572, 5907.57]
+    - [750, 5907.57]
   - - [1, 512, 1, 2048]
-    - [499, 23.5057]
+    - [677, 23.5057]
   - - [512, 512, 1, 1024]
-    - [572, 5360.23]
+    - [750, 5360.23]
   - - [2048, 256, 1, 8192]
-    - [544, 7665.31]
+    - [722, 7665.31]
   - - [2048, 512, 1, 512]
-    - [574, 7767.33]
+    - [752, 7767.33]
   - - [4096, 512, 1, 1920]
-    - [480, 9133.04]
+    - [658, 9133.04]
   - - [4096, 200, 1, 12288]
-    - [588, 6910.75]
+    - [766, 6910.75]
   - - [1024, 512, 1, 3072]
-    - [518, 7310.43]
+    - [696, 7310.43]
   - - [2048, 512, 1, 1152]
-    - [578, 8342.36]
+    - [756, 8342.36]
   - - [1024, 256, 1, 2080]
-    - [572, 6010.46]
+    - [750, 6010.46]
   - - [4096, 1024, 1, 32]
-    - [568, 4793.59]
+    - [746, 4793.59]
   - - [4096, 512, 1, 16640]
-    - [480, 9365.41]
+    - [658, 9365.41]
   - - [2048, 200, 1, 9216]
-    - [572, 6315.98]
+    - [750, 6315.98]
   - - [2048, 200, 1, 2560]
-    - [572, 6119.24]
+    - [750, 6119.24]
   - - [2048, 1024, 1, 1024]
-    - [480, 8628.69]
+    - [658, 8628.69]
   - - [2048, 256, 1, 4608]
-    - [572, 7951.39]
+    - [750, 7951.39]
   - - [512, 200, 1, 768]
-    - [524, 2132.51]
+    - [702, 2132.51]
   - - [128, 256, 1, 512]
-    - [524, 670.117]
+    - [702, 670.117]
   - - [4096, 512, 1, 1792]
-    - [485, 9127.01]
+    - [663, 9127.01]
   - - [4096, 1024, 1, 8192]
-    - [480, 9591.37]
+    - [658, 9591.37]
   - - [1024, 256, 1, 2816]
-    - [583, 6119.11]
+    - [761, 6119.11]
   - - [1024, 1024, 1, 13312]
-    - [575, 8529.37]
+    - [753, 8529.37]
   - - [2048, 1024, 1, 4160]
-    - [480, 9305.67]
+    - [658, 9305.67]
   - - [2048, 256, 1, 3584]
-    - [572, 7903.23]
+    - [750, 7903.23]
   - - [128, 200, 1, 2048]
-    - [540, 1135.91]
+    - [718, 1135.91]
   - - [4096, 512, 1, 10240]
-    - [482, 9339.59]
+    - [660, 9339.59]
   - - [4096, 512, 1, 512]
-    - [480, 8446.78]
+    - [658, 8446.78]
   - - [2048, 1024, 1, 6656]
-    - [480, 9331.75]
+    - [658, 9331.75]
   - - [1024, 512, 1, 640]
-    - [572, 6776.04]
+    - [750, 6776.04]
   - - [2048, 512, 1, 768]
-    - [574, 8085.51]
+    - [752, 8085.51]
   - - [2048, 200, 1, 1408]
-    - [572, 5880.17]
+    - [750, 5880.17]
   - - [4096, 200, 1, 2048]
-    - [588, 6691.71]
+    - [766, 6691.71]
   - - [1024, 1024, 1, 5632]
-    - [574, 8749.63]
+    - [752, 8749.63]
   - - [2048, 512, 1, 3584]
-    - [578, 8704.23]
+    - [756, 8704.23]
   - - [64, 512, 1, 512]
-    - [514, 667.983]
+    - [692, 667.983]
   - - [64, 200, 1, 512]
-    - [524, 251.388]
+    - [702, 251.388]
   - - [1024, 200, 1, 64]
-    - [479, 1310.82]
+    - [657, 1310.82]
   - - [512, 512, 1, 2304]
-    - [572, 6078.8]
+    - [750, 6078.8]
   - - [2048, 1024, 1, 14336]
-    - [480, 9321.94]
+    - [658, 9321.94]
   - - [4096, 512, 1, 11264]
-    - [482, 9339.95]
+    - [660, 9339.95]
   - - [4096, 512, 1, 128]
-    - [567, 6566.53]
+    - [745, 6566.53]
   - - [1024, 512, 1, 64]
-    - [587, 2953.84]
+    - [765, 2953.84]
   - - [4096, 512, 1, 768]
-    - [480, 8738.23]
+    - [658, 8738.23]
   - - [4096, 1024, 1, 11264]
-    - [480, 9637.78]
+    - [658, 9637.78]
   - - [1, 256, 1, 1024]
-    - [570, 8.93234]
+    - [748, 8.93234]
   - - [4096, 200, 1, 7680]
-    - [567, 6889.57]
+    - [745, 6889.57]
   - - [1024, 200, 1, 12288]
-    - [539, 5237.74]
+    - [717, 5237.74]
   - - [1024, 1024, 1, 1280]
-    - [574, 8418.17]
+    - [752, 8418.17]
   - - [4096, 1024, 1, 16640]
-    - [480, 9675.01]
+    - [658, 9675.01]
   - - [2048, 1024, 1, 5632]
-    - [480, 9327.85]
+    - [658, 9327.85]
   - - [1024, 200, 1, 15360]
-    - [539, 5386.63]
+    - [717, 5386.63]
   - - [1, 1024, 1, 1024]
-    - [589, 27.3499]
+    - [767, 27.3499]
   - - [2048, 256, 1, 16384]
-    - [550, 7652.75]
+    - [728, 7652.75]
   - - [4096, 512, 1, 12288]
-    - [482, 9359.51]
+    - [660, 9359.51]
   - - [2048, 200, 1, 896]
-    - [583, 5628.96]
+    - [761, 5628.96]
   - - [4096, 1024, 1, 5632]
-    - [480, 9626.78]
+    - [658, 9626.78]
   - - [2048, 256, 1, 32]
-    - [576, 1889.43]
+    - [754, 1889.43]
   - - [2048, 256, 1, 1280]
-    - [572, 7390.94]
+    - [750, 7390.94]
   - - [4096, 256, 1, 4096]
-    - [574, 8694.37]
+    - [752, 8694.37]
   - - [2048, 256, 1, 11264]
-    - [572, 8113.95]
+    - [750, 8113.95]
   - - [4096, 200, 1, 9216]
-    - [574, 6891.08]
+    - [752, 6891.08]
   - - [1024, 512, 1, 4096]
-    - [520, 7348.46]
+    - [698, 7348.46]
   - - [2048, 1024, 1, 10240]
-    - [482, 9095.91]
+    - [660, 9095.91]
   - - [4096, 1024, 1, 640]
-    - [480, 9115.68]
+    - [658, 9115.68]
   - - [128, 1024, 1, 2048]
-    - [473, 3270.51]
+    - [651, 3270.51]
   - - [4096, 200, 1, 3840]
-    - [567, 6836.26]
+    - [745, 6836.26]
   - - [1024, 1024, 1, 1920]
-    - [578, 8562.82]
+    - [756, 8562.82]
   - - [2048, 200, 1, 7168]
-    - [583, 6296.23]
+    - [761, 6296.23]
   - - [2048, 512, 1, 16384]
-    - [474, 8632.51]
+    - [652, 8632.51]
   - - [2048, 1024, 1, 12288]
-    - [480, 9158.08]
+    - [658, 9158.08]
   - - [4096, 1024, 1, 10240]
-    - [480, 9658.84]
+    - [658, 9658.84]
   - - [1024, 1024, 1, 8320]
-    - [582, 8799.58]
+    - [760, 8799.58]
   - - [1024, 256, 1, 9216]
-    - [572, 6375.23]
+    - [750, 6375.23]
   - - [4096, 256, 1, 1152]
-    - [567, 8301.09]
+    - [745, 8301.09]
   - - [512, 200, 1, 2560]
-    - [533, 3088.51]
+    - [711, 3088.51]
   - - [2048, 256, 1, 1920]
-    - [572, 7714.94]
+    - [750, 7714.94]
   - - [2048, 1024, 1, 4608]
-    - [480, 9305.7]
+    - [658, 9305.7]
   - - [512, 256, 1, 1024]
-    - [580, 2887.74]
+    - [758, 2887.74]
   - - [1024, 256, 1, 1920]
-    - [564, 5913.12]
+    - [742, 5913.12]
   - - [4096, 512, 1, 3584]
-    - [480, 9275.69]
+    - [658, 9275.69]
   - - [2048, 512, 1, 4160]
-    - [585, 8734.03]
+    - [763, 8734.03]
   - - [2048, 512, 1, 5632]
-    - [588, 8758.98]
+    - [766, 8758.98]
   - - [4096, 1024, 1, 4608]
-    - [480, 9657.22]
+    - [658, 9657.22]
   - - [4096, 1024, 1, 3328]
-    - [480, 9621.45]
+    - [658, 9621.45]
   - - [4096, 256, 1, 7168]
-    - [574, 8770.05]
+    - [752, 8770.05]
   - - [4096, 200, 1, 128]
-    - [588, 4458.33]
+    - [766, 4458.33]
   - - [2048, 200, 1, 5120]
-    - [572, 6176.91]
+    - [750, 6176.91]
   - - [1024, 1024, 1, 6656]
-    - [574, 8780.45]
+    - [752, 8780.45]
   - - [512, 1024, 1, 3200]
-    - [583, 7887.09]
+    - [761, 7887.09]
   - - [512, 200, 1, 2304]
-    - [473, 2991.09]
+    - [651, 2991.09]
   - - [2048, 1024, 1, 9216]
-    - [485, 9325.46]
+    - [663, 9325.46]
   - - [2048, 256, 1, 1536]
-    - [583, 7551.73]
+    - [761, 7551.73]
   - - [4096, 256, 1, 256]
-    - [588, 6932.83]
+    - [766, 6932.83]
   - - [2048, 512, 1, 1408]
-    - [585, 8430.86]
+    - [763, 8430.86]
   - - [1024, 256, 1, 384]
-    - [577, 4462.13]
+    - [755, 4462.13]
   - - [2048, 1024, 1, 2304]
-    - [480, 9174.94]
+    - [658, 9174.94]
   - - [4096, 512, 1, 6144]
-    - [482, 9284.25]
+    - [660, 9284.25]
   - - [1024, 200, 1, 14336]
-    - [471, 5268.57]
+    - [649, 5268.57]
   - - [1024, 512, 1, 2080]
-    - [583, 7736.47]
+    - [761, 7736.47]
   - - [2048, 512, 1, 2304]
-    - [585, 8616.07]
+    - [763, 8616.07]
   - - [4096, 512, 1, 15360]
-    - [485, 9362.17]
+    - [663, 9362.17]
   - - [1024, 256, 1, 32]
-    - [505, 1028.12]
+    - [683, 1028.12]
   - - [1024, 200, 1, 2816]
-    - [583, 4780.58]
+    - [761, 4780.58]
   - - [4096, 200, 1, 512]
-    - [574, 6054.23]
+    - [752, 6054.23]
   - - [4096, 1024, 1, 7168]
-    - [485, 9468.49]
+    - [663, 9468.49]
   - - [2048, 256, 1, 14336]
-    - [546, 7865.52]
+    - [724, 7865.52]
   - - [1024, 200, 1, 3072]
-    - [583, 4804.2]
+    - [761, 4804.2]
   - - [2048, 200, 1, 1280]
-    - [583, 5846.31]
+    - [761, 5846.31]
   - - [1024, 1024, 1, 2304]
-    - [574, 8633.32]
+    - [752, 8633.32]
   - - [4096, 1024, 1, 9216]
-    - [480, 9641.03]
+    - [658, 9641.03]
   - - [2048, 512, 1, 4608]
-    - [585, 8743.3]
+    - [763, 8743.3]
   - - [4096, 1024, 1, 7680]
-    - [480, 9684.86]
+    - [658, 9684.86]
   - - [4096, 256, 1, 6144]
-    - [585, 8757.24]
+    - [763, 8757.24]
   - - [4096, 256, 1, 896]
-    - [578, 8258.93]
+    - [756, 8258.93]
   - - [512, 256, 1, 1536]
-    - [562, 3065.36]
+    - [740, 3065.36]
   - - [1024, 256, 1, 512]
-    - [572, 4752.85]
+    - [750, 4752.85]
   - - [2048, 256, 1, 640]
-    - [572, 6776.04]
+    - [750, 6776.04]
   - - [256, 256, 1, 2048]
-    - [509, 2249.06]
+    - [687, 2249.06]
   - - [2048, 1024, 1, 8192]
-    - [480, 9178.17]
+    - [658, 9178.17]
   - - [4096, 200, 1, 16640]
-    - [472, 7009.59]
+    - [650, 7009.59]
   - - [256, 512, 1, 512]
-    - [484, 2511.66]
+    - [662, 2511.66]
   - - [2048, 512, 1, 384]
-    - [585, 7467.7]
+    - [763, 7467.7]
   - - [2048, 200, 1, 16384]
-    - [553, 6327.31]
+    - [731, 6327.31]
   - - [4096, 200, 1, 10240]
-    - [578, 6892.74]
+    - [756, 6892.74]
   - - [1024, 512, 1, 9216]
-    - [527, 7530.09]
+    - [705, 7530.09]
   - - [4096, 1024, 1, 64]
-    - [502, 6260.26]
+    - [680, 6260.26]
   - - [4096, 200, 1, 1920]
-    - [588, 6710.27]
+    - [766, 6710.27]
   - - [2048, 1024, 1, 1280]
-    - [480, 8998.34]
+    - [658, 8998.34]
   - - [1024, 200, 1, 3840]
-    - [572, 4873.87]
+    - [750, 4873.87]
   - - [256, 1024, 1, 512]
-    - [583, 4766.35]
+    - [761, 4766.35]
   - - [2048, 1024, 1, 3328]
-    - [480, 9275.2]
+    - [658, 9275.2]
   - - [1024, 256, 1, 16640]
-    - [537, 6837.22]
+    - [715, 6837.22]
   - - [4096, 512, 1, 14336]
-    - [485, 9354.42]
+    - [663, 9354.42]
   - - [1024, 1024, 1, 16640]
-    - [582, 8832.37]
+    - [760, 8832.37]
   - - [1024, 256, 1, 1152]
-    - [583, 5642.66]
+    - [761, 5642.66]
   - - [512, 512, 1, 512]
-    - [572, 4779.93]
+    - [750, 4779.93]
   - - [4096, 512, 1, 8320]
-    - [485, 9327.96]
+    - [663, 9327.96]
   - - [2048, 512, 1, 7680]
-    - [588, 8793.96]
+    - [766, 8793.96]
   - - [4096, 1024, 1, 6656]
-    - [480, 9667.03]
+    - [658, 9667.03]
   - - [1024, 512, 1, 3584]
-    - [583, 7900.57]
+    - [761, 7900.57]
   - - [1024, 1024, 1, 32]
-    - [568, 2974.78]
+    - [746, 2974.78]
   - - [512, 512, 1, 2816]
-    - [564, 6155.85]
+    - [742, 6155.85]
   - - [2048, 512, 1, 1664]
-    - [588, 8496.55]
+    - [766, 8496.55]
   - - [1024, 1024, 1, 14336]
-    - [474, 8624.74]
+    - [652, 8624.74]
   - - [2048, 200, 1, 2048]
-    - [583, 6029.86]
+    - [761, 6029.86]
   - - [1024, 1024, 1, 3584]
-    - [574, 8702.62]
+    - [752, 8702.62]
   - - [512, 200, 1, 1280]
-    - [488, 2350.75]
+    - [666, 2350.75]
   - - [4096, 256, 1, 6656]
-    - [588, 8788.41]
+    - [766, 8788.41]
   - - [4096, 256, 1, 4160]
-    - [565, 8728.44]
+    - [743, 8728.44]
   - - [128, 256, 1, 1024]
-    - [547, 859.589]
+    - [725, 859.589]
   - - [512, 200, 1, 3200]
-    - [488, 3376.85]
+    - [666, 3376.85]
   - - [2048, 512, 1, 9216]
-    - [571, 8806.4]
+    - [749, 8806.4]
   - - [2048, 1024, 1, 256]
-    - [567, 7713.76]
+    - [745, 7713.76]
   - - [1024, 256, 1, 2304]
-    - [583, 6015.83]
+    - [761, 6015.83]
   - - [1024, 200, 1, 8192]
-    - [583, 5022.02]
+    - [761, 5022.02]
   - - [2048, 256, 1, 3072]
-    - [500, 7515.09]
+    - [678, 7515.09]
   - - [2048, 256, 1, 8320]
-    - [572, 8063.68]
+    - [750, 8063.68]
   - - [4096, 512, 1, 1024]
-    - [482, 8824.41]
+    - [660, 8824.41]
   - - [1024, 512, 1, 3200]
-    - [572, 7866.39]
+    - [750, 7866.39]
   - - [1024, 512, 1, 896]
-    - [564, 7161.11]
+    - [742, 7161.11]
   - - [2048, 512, 1, 1280]
-    - [578, 8384.52]
+    - [756, 8384.52]
   - - [4096, 200, 1, 64]
-    - [487, 3260.6]
+    - [665, 3260.6]
   - - [1024, 256, 1, 6144]
-    - [593, 6143.72]
+    - [771, 6143.72]
   - - [1024, 200, 1, 2560]
-    - [572, 4762.89]
+    - [750, 4762.89]
   - - [1024, 1024, 1, 5120]
-    - [501, 8454.23]
+    - [679, 8454.23]
   - - [2048, 512, 1, 6656]
-    - [578, 8799.05]
+    - [756, 8799.05]
   - - [4096, 1024, 1, 1536]
-    - [480, 9503.37]
+    - [658, 9503.37]
   - - [1024, 1024, 1, 128]
-    - [503, 5825.52]
+    - [681, 5825.52]
   - - [512, 1024, 1, 1792]
-    - [572, 7701.12]
+    - [750, 7701.12]
   - - [2048, 1024, 1, 32]
-    - [483, 3938.41]
+    - [661, 3938.41]
   - - [4096, 256, 1, 2816]
-    - [567, 8652.2]
+    - [745, 8652.2]
   - - [1024, 1024, 1, 15360]
-    - [474, 8719.7]
+    - [652, 8719.7]
   - - [1024, 256, 1, 5632]
-    - [572, 6344.18]
+    - [750, 6344.18]
   - - [1024, 1024, 1, 4096]
-    - [575, 8187.86]
+    - [753, 8187.86]
   - - [2048, 200, 1, 4160]
-    - [583, 6222.48]
+    - [761, 6222.48]
   - - [512, 256, 1, 768]
-    - [514, 2771.67]
+    - [692, 2771.67]
   - - [4096, 512, 1, 640]
-    - [485, 8590.58]
+    - [663, 8590.58]
   - - [2048, 512, 1, 8192]
-    - [527, 8494.9]
+    - [705, 8494.9]
   - - [1024, 512, 1, 768]
-    - [572, 7049.35]
+    - [750, 7049.35]
   - - [4096, 200, 1, 8320]
-    - [567, 6908.7]
+    - [745, 6908.7]
   - - [2048, 512, 1, 896]
-    - [574, 8224.23]
+    - [752, 8224.23]
   - - [4096, 200, 1, 7168]
-    - [585, 6878.59]
+    - [763, 6878.59]
   - - [2048, 512, 1, 13312]
-    - [573, 8803.04]
+    - [751, 8803.04]
   - - [64, 512, 1, 1024]
-    - [477, 844.024]
+    - [655, 844.024]
   - - [2048, 200, 1, 3840]
-    - [572, 6192.48]
+    - [750, 6192.48]
   - - [1024, 1024, 1, 768]
-    - [565, 8098.51]
+    - [743, 8098.51]
   - - [4096, 512, 1, 16384]
-    - [485, 9345.73]
+    - [663, 9345.73]
   - - [4096, 256, 1, 2304]
-    - [565, 8596.45]
+    - [743, 8596.45]
   - - [1, 256, 1, 4096]
-    - [570, 19.9293]
+    - [748, 19.9293]
   - - [1024, 1024, 1, 11264]
-    - [575, 8491.48]
+    - [753, 8491.48]
   - - [2048, 200, 1, 16640]
-    - [569, 6510.64]
+    - [747, 6510.64]
   - - [1024, 256, 1, 3072]
-    - [583, 6179.55]
+    - [761, 6179.55]
   - - [4096, 1024, 1, 512]
-    - [480, 9032.25]
+    - [658, 9032.25]
   - - [2048, 256, 1, 2816]
-    - [572, 7793.57]
+    - [750, 7793.57]
   - - [32, 512, 1, 512]
-    - [484, 318.816]
+    - [662, 318.816]
   - - [256, 512, 1, 2048]
-    - [535, 3369.02]
+    - [713, 3369.02]
   - - [1024, 512, 1, 384]
-    - [583, 6198.58]
+    - [761, 6198.58]
   - - [2048, 200, 1, 7680]
-    - [572, 6307.7]
+    - [750, 6307.7]
   - - [1024, 512, 1, 4608]
-    - [583, 7953.48]
-  - - [2048, 256, 1, 768]
-    - [583, 7059.24]
+    - [761, 7953.48]
   - - [4096, 200, 1, 32]
-    - [532, 2199.29]
+    - [710, 2199.29]
   - - [4096, 200, 1, 3328]
-    - [567, 6813.12]
+    - [745, 6813.12]
   - - [1024, 200, 1, 1152]
-    - [572, 4375.65]
+    - [750, 4375.65]
   - - [1024, 1024, 1, 1408]
-    - [574, 8457.91]
+    - [752, 8457.91]
   - - [2048, 200, 1, 15360]
-    - [548, 6333.1]
+    - [726, 6333.1]
   - - [512, 1024, 1, 2048]
-    - [558, 6280.76]
+    - [736, 6280.76]
   - - [1024, 512, 1, 1024]
-    - [583, 7064.19]
+    - [761, 7064.19]
   - - [1024, 200, 1, 10240]
-    - [572, 5030.69]
+    - [750, 5030.69]
   - - [4096, 256, 1, 5632]
-    - [585, 8765.22]
+    - [763, 8765.22]
   - - [512, 512, 1, 3072]
-    - [595, 5942.44]
+    - [773, 5942.44]
   - - [2048, 256, 1, 1408]
-    - [572, 7545.05]
+    - [750, 7545.05]
   - - [2048, 256, 1, 6144]
-    - [583, 7963.97]
+    - [761, 7963.97]
   - - [4096, 256, 1, 3328]
-    - [578, 8682.58]
+    - [756, 8682.58]
   - - [1024, 200, 1, 1664]
-    - [572, 4595.4]
+    - [750, 4595.4]
   - - [2048, 1024, 1, 1152]
-    - [480, 8942.65]
+    - [658, 8942.65]
   - - [2048, 512, 1, 6144]
-    - [573, 8729.71]
+    - [751, 8729.71]
   - - [2048, 512, 1, 3200]
-    - [574, 8696.56]
+    - [752, 8696.56]
   - - [4096, 1024, 1, 2080]
-    - [513, 9538.45]
+    - [691, 9538.45]
   - - [4096, 1024, 1, 768]
-    - [480, 9260.75]
+    - [658, 9260.75]
   - - [4096, 1024, 1, 2560]
-    - [480, 9567.27]
+    - [658, 9567.27]
   - - [64, 200, 1, 2048]
-    - [512, 583.161]
+    - [690, 583.161]
   - - [2048, 200, 1, 4608]
-    - [583, 6243.28]
+    - [761, 6243.28]
   - - [1024, 1024, 1, 6144]
-    - [575, 8320.25]
+    - [753, 8320.25]
   - - [4096, 256, 1, 1664]
-    - [578, 8503.17]
+    - [756, 8503.17]
   - - [2048, 200, 1, 384]
-    - [583, 4940.0]
+    - [761, 4940.0]
   - - [1, 200, 1, 2048]
-    - [529, 11.3281]
+    - [707, 11.3281]
   - - [4096, 256, 1, 1792]
-    - [588, 8504.12]
+    - [766, 8504.12]
   - - [2048, 1024, 1, 64]
-    - [502, 5309.35]
+    - [680, 5309.35]
   - - [4096, 1024, 1, 16384]
-    - [469, 9428.61]
+    - [647, 9428.61]
   - - [1024, 512, 1, 16640]
-    - [583, 8122.55]
+    - [761, 8122.55]
   - - [2048, 512, 1, 10240]
-    - [573, 8766.21]
+    - [751, 8766.21]
   - - [4096, 512, 1, 6656]
-    - [480, 9351.75]
+    - [658, 9351.75]
   - - [2048, 256, 1, 16640]
-    - [572, 8135.27]
+    - [750, 8135.27]
   - - [2048, 512, 1, 2816]
-    - [574, 8660.32]
+    - [752, 8660.32]
   - - [1024, 200, 1, 32]
-    - [492, 780.291]
+    - [670, 780.291]
   - - [1, 512, 1, 4096]
-    - [517, 34.8671]
+    - [695, 34.8671]
   - - [256, 256, 1, 1024]
-    - [524, 1490.08]
+    - [702, 1490.08]
   - - [2048, 1024, 1, 128]
-    - [497, 6605.3]
+    - [675, 6605.3]
   - - [2048, 1024, 1, 2080]
-    - [480, 9159.51]
+    - [658, 9159.51]
   - - [2048, 1024, 1, 16640]
-    - [480, 9371.65]
+    - [658, 9371.65]
   - - [1024, 200, 1, 384]
-    - [583, 3378.24]
+    - [761, 3378.24]
   - - [4096, 256, 1, 384]
-    - [528, 7369.3]
+    - [706, 7369.3]
   - - [4096, 256, 1, 13312]
-    - [582, 8776.48]
+    - [760, 8776.48]
   - - [2048, 256, 1, 128]
-    - [577, 4280.0]
+    - [755, 4280.0]
   - - [512, 256, 1, 2304]
-    - [489, 3584.98]
+    - [667, 3584.98]
   - - [2048, 1024, 1, 3072]
-    - [482, 9156.52]
+    - [660, 9156.52]
   - - [1024, 1024, 1, 640]
-    - [578, 7928.84]
+    - [756, 7928.84]
   - - [256, 512, 1, 1024]
-    - [583, 2843.7]
+    - [761, 2843.7]
   - - [4096, 1024, 1, 1408]
-    - [480, 9437.56]
+    - [658, 9437.56]
   - - [4096, 200, 1, 5632]
-    - [585, 6873.96]
+    - [763, 6873.96]
   - - [4096, 1024, 1, 2048]
-    - [480, 9437.1]
+    - [658, 9437.1]
   - - [2048, 1024, 1, 2560]
-    - [485, 9195.62]
+    - [663, 9195.62]
   - - [4096, 1024, 1, 128]
-    - [567, 7407.26]
+    - [745, 7407.26]
   - - [1024, 200, 1, 3328]
-    - [583, 4857.39]
+    - [761, 4857.39]
   - - [2048, 200, 1, 1152]
-    - [572, 5760.1]
+    - [750, 5760.1]
   - - [1024, 200, 1, 9216]
-    - [471, 5053.21]
+    - [649, 5053.21]
   - - [4096, 256, 1, 512]
-    - [565, 7617.45]
+    - [743, 7617.45]
   - - [4096, 1024, 1, 14336]
-    - [480, 9665.12]
+    - [658, 9665.12]
   - - [1024, 1024, 1, 384]
-    - [503, 7478.8]
+    - [681, 7478.8]
   - - [2048, 200, 1, 512]
-    - [572, 5150.28]
+    - [750, 5150.28]
   - - [2048, 256, 1, 9216]
-    - [551, 7717.71]
+    - [729, 7717.71]
   - - [2048, 256, 1, 1792]
-    - [572, 7655.94]
+    - [750, 7655.94]
   - - [4096, 512, 1, 9216]
-    - [482, 9331.22]
+    - [660, 9331.22]
   - - [4096, 200, 1, 15360]
-    - [472, 6958.14]
+    - [650, 6958.14]
   - - [1024, 512, 1, 2048]
-    - [571, 7067.91]
+    - [749, 7067.91]
   - - [64, 256, 1, 2048]
-    - [496, 723.256]
+    - [674, 723.256]
   - - [4096, 200, 1, 1792]
-    - [574, 6699.65]
+    - [752, 6699.65]
   - - [1, 200, 1, 4096]
-    - [506, 15.6387]
+    - [684, 15.6387]
   - - [2048, 1024, 1, 2048]
-    - [485, 9071.93]
+    - [663, 9071.93]
   - - [1024, 200, 1, 2080]
-    - [564, 4679.19]
+    - [742, 4679.19]
   - - [2048, 200, 1, 1536]
-    - [583, 5939.92]
+    - [761, 5939.92]
   - - [1024, 1024, 1, 3072]
-    - [545, 8333.15]
+    - [723, 8333.15]
   - - [512, 200, 1, 1792]
-    - [470, 2679.73]
+    - [648, 2679.73]
   - - [1024, 256, 1, 11264]
-    - [473, 6470.98]
+    - [651, 6470.98]
   - - [2048, 512, 1, 12288]
-    - [520, 8729.24]
+    - [698, 8729.24]
   - - [1024, 256, 1, 1792]
-    - [583, 5931.44]
+    - [761, 5931.44]
   - - [1024, 200, 1, 7168]
-    - [583, 4970.33]
+    - [761, 4970.33]
   - - [32, 256, 1, 1024]
-    - [494, 237.334]
+    - [672, 237.334]
   - - [512, 256, 1, 3072]
-    - [537, 3813.1]
+    - [715, 3813.1]
   - - [1024, 1024, 1, 2080]
-    - [574, 8600.41]
+    - [752, 8600.41]
   - - [2048, 200, 1, 2304]
-    - [583, 6093.32]
+    - [761, 6093.32]
   - - [4096, 512, 1, 1536]
-    - [480, 9075.0]
+    - [658, 9075.0]
   - - [2048, 256, 1, 7168]
-    - [583, 7895.26]
+    - [761, 7895.26]
   - - [2048, 512, 1, 1792]
-    - [585, 8531.92]
+    - [763, 8531.92]
   - - [1024, 200, 1, 2048]
-    - [572, 4685.43]
+    - [750, 4685.43]
   - - [1024, 1024, 1, 4608]
-    - [578, 8735.71]
+    - [756, 8735.71]
   - - [4096, 256, 1, 8192]
-    - [574, 8782.55]
+    - [752, 8782.55]
   - - [512, 1024, 1, 1280]
-    - [564, 7483.25]
+    - [742, 7483.25]
   - - [2048, 1024, 1, 16384]
-    - [474, 8878.96]
+    - [652, 8878.96]
   - - [512, 512, 1, 1280]
-    - [572, 5745.72]
+    - [750, 5745.72]
   - - [1024, 200, 1, 1280]
-    - [564, 4446.23]
-  - - [4096, 512, 1, 4096]
-    - [482, 9264.49]
+    - [742, 4446.23]
   - - [2048, 256, 1, 3200]
-    - [572, 7842.85]
+    - [750, 7842.85]
   - - [2048, 512, 1, 15360]
-    - [520, 8757.24]
+    - [698, 8757.24]
   - - [1024, 512, 1, 3328]
-    - [572, 7854.04]
+    - [750, 7854.04]
   - - [1024, 512, 1, 4160]
-    - [572, 7934.61]
+    - [750, 7934.61]
   - - [4096, 200, 1, 6656]
-    - [574, 6883.3]
+    - [752, 6883.3]
   - - [4096, 1024, 1, 1024]
-    - [480, 9229.44]
+    - [658, 9229.44]
   - - [2048, 200, 1, 3328]
-    - [583, 6182.74]
+    - [761, 6182.74]
   - - [1024, 1024, 1, 256]
-    - [503, 6932.83]
+    - [681, 6932.83]
   - - [512, 200, 1, 512]
-    - [524, 1910.77]
+    - [702, 1910.77]
   - - [2048, 256, 1, 64]
-    - [495, 2912.81]
+    - [673, 2912.81]
   - - [1024, 256, 1, 2560]
-    - [572, 6123.17]
+    - [750, 6123.17]
   - - [2048, 512, 1, 11264]
-    - [584, 8728.94]
+    - [762, 8728.94]
   - - [32, 200, 1, 1024]
-    - [579, 187.56]
+    - [757, 187.56]
   - - [32, 512, 1, 2048]
-    - [523, 694.521]
+    - [701, 694.521]
   - - [2048, 256, 1, 2304]
-    - [572, 7759.35]
+    - [750, 7759.35]
   - - [2048, 256, 1, 12288]
-    - [551, 7726.35]
+    - [729, 7726.35]
   - - [4096, 200, 1, 8192]
-    - [574, 6870.94]
+    - [752, 6870.94]
   - - [1024, 512, 1, 7168]
-    - [520, 7479.2]
+    - [698, 7479.2]
   - - [1024, 512, 1, 1792]
-    - [572, 7626.11]
+    - [750, 7626.11]
   - - [4096, 1024, 1, 1664]
-    - [480, 9503.54]
+    - [658, 9503.54]
   - - [4096, 200, 1, 2816]
-    - [567, 6775.44]
+    - [745, 6775.44]
   - - [1024, 1024, 1, 896]
-    - [574, 8229.99]
+    - [752, 8229.99]
   - - [1024, 200, 1, 8320]
-    - [535, 5173.58]
+    - [713, 5173.58]
   - - [1024, 1024, 1, 12288]
-    - [575, 8463.21]
+    - [753, 8463.21]
   - - [1024, 256, 1, 8320]
-    - [564, 6404.37]
+    - [742, 6404.37]
   - - [1024, 200, 1, 1024]
-    - [572, 4297.54]
+    - [750, 4297.54]
   - - [1024, 200, 1, 16640]
-    - [534, 5499.51]
+    - [712, 5499.51]
   - - [4096, 256, 1, 5120]
-    - [588, 8729.15]
+    - [766, 8729.15]
   - - [1024, 256, 1, 3200]
-    - [583, 6124.96]
+    - [761, 6124.96]
   - - [512, 512, 1, 2560]
-    - [583, 6109.79]
+    - [761, 6109.79]
   - - [4096, 256, 1, 2048]
-    - [588, 8511.05]
+    - [766, 8511.05]
   - - [1024, 256, 1, 640]
-    - [572, 5102.66]
+    - [750, 5102.66]
   - - [2048, 256, 1, 5120]
-    - [500, 7667.93]
+    - [678, 7667.93]
   - - [2048, 256, 1, 7680]
-    - [583, 8054.45]
+    - [761, 8054.45]
   - - [4096, 512, 1, 384]
-    - [578, 8190.77]
+    - [756, 8190.77]
   - - [2048, 200, 1, 3584]
-    - [572, 6166.12]
+    - [750, 6166.12]
   - - [1024, 512, 1, 1536]
-    - [572, 7517.9]
+    - [750, 7517.9]
   - - [4096, 512, 1, 3328]
-    - [480, 9259.45]
+    - [658, 9259.45]
   - - [4096, 1024, 1, 256]
-    - [480, 8341.79]
+    - [658, 8341.79]
   - - [2048, 200, 1, 64]
-    - [543, 2307.71]
+    - [721, 2307.71]
   - - [2048, 200, 1, 4096]
-    - [583, 6212.04]
+    - [761, 6212.04]
   - - [1024, 1024, 1, 1536]
-    - [574, 8484.15]
+    - [752, 8484.15]
   - - [2048, 1024, 1, 7168]
-    - [482, 9315.24]
+    - [660, 9315.24]
   - - [1024, 256, 1, 3584]
-    - [572, 6207.32]
+    - [750, 6207.32]
   - - [4096, 256, 1, 32]
-    - [576, 2892.72]
+    - [754, 2892.72]
   - - [4096, 256, 1, 1280]
-    - [585, 8392.9]
+    - [763, 8392.9]
   - - [512, 512, 1, 3200]
-    - [583, 6219.41]
+    - [761, 6219.41]
   - - [2048, 1024, 1, 1536]
-    - [482, 9052.55]
+    - [660, 9052.55]
   - - [2048, 256, 1, 1024]
-    - [572, 7192.9]
+    - [750, 7192.9]
   - - [128, 200, 1, 512]
-    - [562, 502.677]
+    - [740, 502.677]
   - - [4096, 512, 1, 7168]
-    - [485, 9329.11]
+    - [663, 9329.11]
   - - [1024, 512, 1, 1152]
-    - [572, 7358.53]
+    - [750, 7358.53]
   - - [64, 1024, 1, 2048]
-    - [490, 2102.51]
+    - [668, 2102.51]
   - - [2048, 512, 1, 3328]
-    - [574, 8694.69]
+    - [752, 8694.69]
   - - [4096, 1024, 1, 896]
-    - [480, 9343.02]
+    - [658, 9343.02]
   - - [1, 1024, 1, 2048]
-    - [530, 40.9324]
+    - [708, 40.9324]
   - - [4096, 200, 1, 3584]
-    - [578, 6810.3]
+    - [756, 6810.3]
   - - [4096, 1024, 1, 4096]
-    - [480, 9347.56]
+    - [658, 9347.56]
   - - [1024, 256, 1, 14336]
-    - [473, 6625.8]
+    - [651, 6625.8]
   - - [2048, 200, 1, 256]
-    - [572, 4413.3]
+    - [750, 4413.3]
   - - [4096, 256, 1, 16384]
-    - [474, 8752.13]
+    - [652, 8752.13]
   - - [4096, 256, 1, 1920]
-    - [565, 8533.78]
+    - [743, 8533.78]
   - - [32, 1024, 1, 512]
-    - [563, 647.369]
+    - [741, 647.369]
   - - [1024, 256, 1, 7680]
-    - [583, 6387.36]
+    - [761, 6387.36]
   - - [2048, 256, 1, 1664]
-    - [583, 7631.44]
+    - [761, 7631.44]
   - - [512, 200, 1, 1536]
-    - [488, 2576.88]
+    - [666, 2576.88]
   - - [2048, 1024, 1, 6144]
-    - [469, 9033.77]
+    - [647, 9033.77]
   - - [512, 256, 1, 2816]
-    - [535, 3977.46]
+    - [713, 3977.46]
   - - [4096, 512, 1, 4160]
-    - [482, 9289.02]
+    - [660, 9289.02]
   - - [4096, 512, 1, 2080]
-    - [561, 9150.28]
+    - [739, 9150.28]
   - - [2048, 256, 1, 15360]
-    - [546, 7963.97]
+    - [724, 7963.97]
   - - [4096, 200, 1, 5120]
-    - [585, 6861.62]
+    - [763, 6861.62]
   - - [1024, 512, 1, 8192]
-    - [571, 7473.25]
+    - [749, 7473.25]
   - - [4096, 200, 1, 896]
-    - [588, 6443.25]
+    - [766, 6443.25]
   - - [2048, 512, 1, 8320]
-    - [578, 8810.24]
+    - [756, 8810.24]
   - - [1024, 1024, 1, 10240]
-    - [586, 8436.7]
+    - [764, 8436.7]
   - - [1024, 200, 1, 768]
-    - [572, 4087.58]
+    - [750, 4087.58]
   - - [2048, 200, 1, 640]
-    - [583, 5416.3]
+    - [761, 5416.3]
   - - [512, 200, 1, 2048]
-    - [537, 2702.62]
+    - [715, 2702.62]
   - - [1024, 1024, 1, 9216]
-    - [575, 8499.08]
+    - [753, 8499.08]
   - - [4096, 200, 1, 1408]
-    - [585, 6613.82]
+    - [763, 6613.82]
   - - [1024, 256, 1, 13312]
-    - [473, 6643.54]
+    - [651, 6643.54]
   - - [1024, 256, 1, 128]
-    - [504, 2706.1]
+    - [682, 2706.1]
   - - [2048, 200, 1, 5632]
-    - [583, 6270.12]
+    - [761, 6270.12]
   - - [64, 1024, 1, 512]
-    - [562, 1310.82]
+    - [740, 1310.82]
   - - [1024, 512, 1, 2560]
-    - [583, 7731.54]
+    - [761, 7731.54]
   - - [4096, 200, 1, 1280]
-    - [565, 6566.83]
+    - [743, 6566.83]
   - - [1024, 200, 1, 4096]
-    - [583, 4911.46]
+    - [761, 4911.46]
   - - [1024, 1024, 1, 2560]
-    - [574, 8630.35]
+    - [752, 8630.35]
   - - [2048, 512, 1, 64]
-    - [578, 4152.88]
+    - [756, 4152.88]
   - - [2048, 200, 1, 8192]
-    - [572, 6234.21]
+    - [750, 6234.21]
   - - [2048, 512, 1, 3072]
-    - [582, 8614.85]
+    - [760, 8614.85]
   - - [4096, 1024, 1, 5120]
-    - [480, 9573.75]
+    - [658, 9573.75]
   - - [4096, 256, 1, 640]
-    - [567, 7913.88]
+    - [745, 7913.88]
   - - [1024, 256, 1, 1280]
-    - [572, 5706.64]
+    - [750, 5706.64]
   - - [2048, 1024, 1, 1920]
-    - [482, 9141.34]
+    - [660, 9141.34]
   - - [2048, 256, 1, 4096]
-    - [572, 7937.28]
+    - [750, 7937.28]
   - - [2048, 1024, 1, 15360]
-    - [485, 9351.96]
+    - [663, 9351.96]
   - - [4096, 200, 1, 16384]
-    - [474, 6975.21]
+    - [652, 6975.21]
   - - [1, 1024, 1, 4096]
-    - [592, 60.7815]
+    - [770, 60.7815]
   - - [4096, 1024, 1, 2816]
-    - [480, 9583.98]
+    - [658, 9583.98]
   - - [4096, 200, 1, 1664]
-    - [567, 6658.7]
+    - [745, 6658.7]
   - - [4096, 512, 1, 256]
-    - [498, 7731.54]
+    - [676, 7731.54]
   - - [1024, 200, 1, 896]
-    - [572, 4193.45]
+    - [750, 4193.45]
   - - [2048, 200, 1, 6656]
-    - [583, 6291.17]
+    - [761, 6291.17]
   - - [2048, 1024, 1, 5120]
-    - [482, 9270.57]
+    - [660, 9270.57]
   - - [512, 1024, 1, 768]
-    - [572, 7099.06]
+    - [750, 7099.06]
   - - [2048, 512, 1, 14336]
-    - [552, 8559.13]
+    - [730, 8559.13]
   - - [2048, 200, 1, 8320]
-    - [572, 6314.72]
+    - [750, 6314.72]
   - - [4096, 256, 1, 3840]
-    - [588, 8718.56]
+    - [766, 8718.56]
   - - [2048, 1024, 1, 4096]
-    - [469, 8973.38]
+    - [647, 8973.38]
   - - [1024, 1024, 1, 3200]
-    - [578, 8701.98]
+    - [756, 8701.98]
   - - [1024, 256, 1, 4608]
-    - [572, 6268.05]
+    - [750, 6268.05]
   - - [4096, 512, 1, 4608]
-    - [480, 9316.47]
+    - [658, 9316.47]
   - - [2048, 512, 1, 2048]
-    - [571, 8462.76]
+    - [749, 8462.76]
   - - [4096, 512, 1, 1664]
-    - [480, 9074.53]
+    - [658, 9074.53]
   - - [4096, 256, 1, 4608]
-    - [567, 8718.05]
+    - [745, 8718.05]
   - - [1024, 512, 1, 32]
-    - [560, 1807.99]
+    - [738, 1807.99]
   - - [1024, 512, 1, 3840]
-    - [572, 7936.34]
+    - [750, 7936.34]
   - - [2048, 512, 1, 1920]
-    - [588, 8548.27]
+    - [766, 8548.27]
   - - [2048, 1024, 1, 896]
-    - [480, 8843.51]
+    - [658, 8843.51]
   - - [4096, 200, 1, 6144]
-    - [588, 6864.76]
+    - [766, 6864.76]
   - - [1024, 512, 1, 13312]
-    - [541, 7763.19]
+    - [719, 7763.19]
   - - [4096, 1024, 1, 4160]
-    - [480, 9650.72]
+    - [658, 9650.72]
   - - [2048, 200, 1, 2816]
-    - [572, 6119.76]
+    - [750, 6119.76]
   - - [1024, 1024, 1, 3840]
-    - [567, 8709.5]
+    - [745, 8709.5]
   - - [128, 1024, 1, 1024]
-    - [590, 2577.25]
+    - [768, 2577.25]
   - - [2048, 1024, 1, 11264]
-    - [485, 9339.06]
+    - [663, 9339.06]
   - - [2048, 1024, 1, 384]
-    - [574, 8210.81]
+    - [752, 8210.81]
   - - [1024, 256, 1, 2048]
-    - [595, 5755.58]
+    - [773, 5755.58]
   - - [2048, 1024, 1, 3840]
-    - [482, 9288.96]
+    - [660, 9288.96]
   - - [4096, 256, 1, 8320]
-    - [588, 8812.38]
+    - [766, 8812.38]
   - - [2048, 256, 1, 3840]
-    - [564, 7857.05]
+    - [742, 7857.05]
   - - [64, 256, 1, 512]
-    - [562, 336.182]
+    - [740, 336.182]
   - - [4096, 512, 1, 1280]
-    - [482, 8993.52]
+    - [660, 8993.52]
   - - [512, 256, 1, 1280]
-    - [514, 2996.03]
+    - [692, 2996.03]
   - - [1024, 512, 1, 7680]
-    - [572, 8041.59]
+    - [750, 8041.59]
   - - [4096, 1024, 1, 1152]
-    - [480, 9368.48]
+    - [658, 9368.48]
   - - [256, 200, 1, 512]
-    - [514, 993.07]
+    - [692, 993.07]
   - - [256, 1024, 1, 2048]
-    - [591, 4759.59]
+    - [769, 4759.59]
   - - [2048, 200, 1, 10240]
-    - [583, 6329.03]
+    - [761, 6329.03]
   - - [2048, 512, 1, 5120]
-    - [584, 8732.56]
+    - [762, 8732.56]
   - - [2048, 1024, 1, 1408]
-    - [482, 9006.9]
+    - [660, 9006.9]
   - - [512, 1024, 1, 512]
-    - [572, 6528.2]
+    - [750, 6528.2]
   - - [1024, 200, 1, 11264]
-    - [539, 5194.82]
+    - [717, 5194.82]
   - - [512, 1024, 1, 1024]
-    - [525, 6337.1]
+    - [703, 6337.1]
   - - [2048, 512, 1, 32]
-    - [491, 2777.78]
+    - [669, 2777.78]
   - - [4096, 256, 1, 2560]
-    - [574, 8621.49]
+    - [752, 8621.49]
   - - [4096, 256, 1, 64]
-    - [508, 4194.4]
+    - [686, 4194.4]
   - - [32, 1024, 1, 1024]
-    - [509, 778.264]
+    - [687, 778.264]
   - - [2048, 200, 1, 768]
-    - [583, 5507.33]
+    - [761, 5507.33]
   - - [512, 512, 1, 2048]
-    - [531, 5338.91]
+    - [709, 5338.91]
   - - [2048, 512, 1, 2560]
-    - [585, 8643.69]
+    - [763, 8643.69]
   - - [512, 256, 1, 512]
-    - [564, 2542.1]
+    - [742, 2542.1]
   - - [1024, 200, 1, 7680]
-    - [539, 5047.8]
+    - [717, 5047.8]
   - - [4096, 512, 1, 896]
-    - [480, 8856.85]
+    - [658, 8856.85]
   - - [4096, 1024, 1, 3072]
-    - [480, 9492.17]
+    - [658, 9492.17]
   - - [4096, 200, 1, 13312]
-    - [472, 6900.73]
+    - [650, 6900.73]
   - - [2048, 512, 1, 7168]
-    - [573, 8788.1]
+    - [751, 8788.1]
   - - [2048, 1024, 1, 2816]
-    - [485, 9229.88]
+    - [663, 9229.88]
   - - [2048, 512, 1, 128]
-    - [503, 5630.04]
+    - [681, 5630.04]
   - - [1024, 256, 1, 8192]
-    - [595, 6203.83]
+    - [773, 6203.83]
   - - [4096, 1024, 1, 1792]
-    - [480, 9510.42]
+    - [658, 9510.42]
   - - [1024, 200, 1, 6656]
-    - [564, 5002.85]
+    - [742, 5002.85]
   - - [1024, 1024, 1, 1024]
-    - [501, 8095.26]
+    - [679, 8095.26]
   - - [4096, 200, 1, 2304]
-    - [585, 6754.45]
+    - [763, 6754.45]
   - - [4096, 512, 1, 1152]
-    - [480, 8974.54]
+    - [658, 8974.54]
   - - [512, 200, 1, 1024]
-    - [562, 2233.01]
+    - [740, 2233.01]
   - - [1024, 256, 1, 3840]
-    - [583, 6244.72]
+    - [761, 6244.72]
   - - [512, 512, 1, 768]
-    - [572, 5331.84]
+    - [750, 5331.84]
   - - [2048, 512, 1, 4096]
-    - [582, 8621.76]
+    - [760, 8621.76]
   - - [2048, 256, 1, 2560]
-    - [572, 7770.93]
+    - [750, 7770.93]
   - - [2048, 256, 1, 4160]
-    - [583, 7923.08]
+    - [761, 7923.08]
   - - [1024, 256, 1, 64]
-    - [479, 1705.1]
+    - [657, 1705.1]
   - - [4096, 512, 1, 7680]
-    - [480, 9364.57]
+    - [658, 9364.57]
   - - [1024, 512, 1, 1664]
-    - [583, 7594.24]
+    - [761, 7594.24]
   - - [2048, 512, 1, 2080]
-    - [574, 8570.67]
+    - [752, 8570.67]
   - - [2048, 512, 1, 3840]
-    - [585, 8729.14]
+    - [763, 8729.14]
   - - [4096, 1024, 1, 384]
-    - [480, 8764.86]
+    - [658, 8764.86]
   - - [4096, 200, 1, 3072]
-    - [574, 6772.39]
+    - [752, 6772.39]
   - - [1024, 512, 1, 14336]
-    - [542, 7680.97]
+    - [720, 7680.97]
   - - [1024, 200, 1, 1920]
-    - [564, 4637.08]
+    - [742, 4637.08]
   - - [1024, 1024, 1, 1664]
-    - [578, 8506.49]
+    - [756, 8506.49]
   - - [512, 1024, 1, 2304]
-    - [572, 7775.33]
+    - [750, 7775.33]
   - - [2048, 1024, 1, 1792]
-    - [480, 9123.46]
+    - [658, 9123.46]
   - - [32, 200, 1, 512]
-    - [580, 125.744]
+    - [758, 125.744]
   - - [4096, 256, 1, 11264]
-    - [585, 8822.31]
+    - [763, 8822.31]
   - - [4096, 256, 1, 1408]
-    - [585, 8419.32]
+    - [763, 8419.32]
   - - [1024, 256, 1, 7168]
-    - [572, 6377.54]
+    - [750, 6377.54]
   - - [2048, 256, 1, 1152]
-    - [583, 7401.81]
+    - [761, 7401.81]
   - - [256, 256, 1, 512]
-    - [562, 1314.93]
+    - [740, 1314.93]
   - - [1024, 512, 1, 1280]
-    - [572, 7410.53]
+    - [750, 7410.53]
   - - [512, 512, 1, 1792]
-    - [564, 5931.44]
+    - [742, 5931.44]
   - - [2048, 200, 1, 12288]
-    - [546, 6242.25]
+    - [724, 6242.25]
   - - [2048, 200, 1, 1664]
-    - [583, 5953.75]
+    - [761, 5953.75]
   - - [4096, 200, 1, 4608]
-    - [578, 6853.54]
+    - [756, 6853.54]
   - - [512, 1024, 1, 2560]
-    - [572, 7778.13]
+    - [750, 7778.13]
   - - [4096, 200, 1, 384]
-    - [565, 5765.73]
+    - [743, 5765.73]
   - - [128, 512, 1, 512]
-    - [562, 1302.68]
+    - [740, 1302.68]
   - - [1024, 200, 1, 256]
-    - [566, 2861.93]
+    - [744, 2861.93]
   - - [256, 1024, 1, 1024]
-    - [507, 4522.26]
+    - [685, 4522.26]
   - - [2048, 200, 1, 128]
-    - [572, 3310.0]
+    - [750, 3310.0]
   - - [2048, 200, 1, 11264]
-    - [553, 6168.2]
+    - [731, 6168.2]
   - - [1024, 512, 1, 1920]
-    - [583, 7649.29]
+    - [761, 7649.29]
   - - [4096, 256, 1, 1536]
-    - [578, 8427.33]
+    - [756, 8427.33]
   - - [4096, 1024, 1, 3584]
-    - [480, 9618.0]
+    - [658, 9618.0]
   - - [2048, 256, 1, 256]
-    - [572, 5464.99]
+    - [750, 5464.99]
   - - [2048, 1024, 1, 768]
-    - [480, 8726.87]
+    - [658, 8726.87]
   - - [4096, 256, 1, 10240]
-    - [574, 8790.89]
+    - [752, 8790.89]
   - - [2048, 256, 1, 10240]
-    - [554, 7665.31]
+    - [732, 7665.31]
   - - [4096, 200, 1, 14336]
-    - [588, 6916.18]
+    - [766, 6916.18]
   - - [1024, 512, 1, 5120]
-    - [526, 7420.36]
+    - [704, 7420.36]
   - - [1024, 512, 1, 8320]
-    - [583, 8061.31]
+    - [761, 8061.31]
   - - [256, 200, 1, 2048]
-    - [538, 1916.36]
+    - [716, 1916.36]
   - - [1024, 200, 1, 640]
-    - [566, 3873.39]
+    - [744, 3873.39]
   - - [1024, 512, 1, 10240]
-    - [571, 7526.9]
+    - [749, 7526.9]
   - - [1024, 200, 1, 4160]
-    - [583, 4928.19]
+    - [761, 4928.19]
   - - [1024, 200, 1, 5632]
-    - [564, 4978.66]
+    - [742, 4978.66]
   - - [1024, 1024, 1, 2048]
-    - [519, 7937.28]
+    - [697, 7937.28]
   - - [1024, 256, 1, 6656]
-    - [583, 6373.68]
+    - [761, 6373.68]
   - - [2048, 1024, 1, 8320]
-    - [480, 9333.15]
+    - [658, 9333.15]
   - - [1024, 256, 1, 10240]
-    - [572, 6407.29]
+    - [750, 6407.29]
   - - [2048, 256, 1, 2080]
-    - [572, 7714.58]
+    - [750, 7714.58]
   - - [4096, 256, 1, 128]
-    - [486, 5765.47]
+    - [664, 5765.47]
   - - [1024, 256, 1, 768]
-    - [577, 5210.42]
+    - [755, 5210.42]
   - - [2048, 256, 1, 896]
-    - [583, 7267.46]
+    - [761, 7267.46]
   - - [64, 512, 1, 2048]
-    - [549, 1296.64]
+    - [727, 1296.64]
   - - [4096, 512, 1, 2048]
-    - [482, 9121.25]
+    - [660, 9121.25]
   - - [512, 256, 1, 2048]
-    - [535, 3283.31]
+    - [713, 3283.31]
   - - [4096, 256, 1, 16640]
-    - [567, 8839.88]
+    - [745, 8839.88]
   - - [4096, 512, 1, 2560]
-    - [485, 9222.15]
+    - [663, 9222.15]
   - - [1024, 512, 1, 15360]
-    - [536, 7865.66]
+    - [714, 7865.66]
   - - [4096, 1024, 1, 2304]
-    - [480, 9558.26]
+    - [658, 9558.26]
   - - [4096, 200, 1, 1152]
-    - [585, 6531.93]
+    - [763, 6531.93]
   - - [2048, 200, 1, 6144]
-    - [583, 6277.75]
+    - [761, 6277.75]
   - - [1024, 1024, 1, 7680]
-    - [578, 8799.34]
+    - [756, 8799.34]
   - - [2048, 200, 1, 1920]
-    - [583, 6031.02]
+    - [761, 6031.02]
   - - [32, 1024, 1, 2048]
-    - [557, 1174.98]
+    - [735, 1174.98]
   - - [1024, 200, 1, 3584]
-    - [564, 4880.44]
+    - [742, 4880.44]
   - - [4096, 256, 1, 2080]
-    - [571, 8557.22]
+    - [749, 8557.22]
   - - [1024, 1024, 1, 16384]
-    - [472, 8618.65]
+    - [650, 8618.65]
   - - [1024, 256, 1, 1408]
-    - [583, 5803.54]
+    - [761, 5803.54]
   - - [1024, 256, 1, 4096]
-    - [593, 6037.78]
+    - [771, 6037.78]
   - - [2048, 200, 1, 14336]
-    - [583, 6364.48]
+    - [761, 6364.48]
   - - [4096, 512, 1, 5120]
-    - [482, 9302.05]
+    - [660, 9302.05]
   - - [1024, 512, 1, 6144]
-    - [518, 7469.09]
+    - [696, 7469.09]
   - - [1024, 512, 1, 2304]
-    - [583, 7759.35]
+    - [761, 7759.35]
   - - [4096, 200, 1, 4160]
-    - [567, 6843.22]
+    - [745, 6843.22]
   - - [4096, 200, 1, 1536]
-    - [578, 6628.27]
+    - [756, 6628.27]
   - - [4096, 1024, 1, 6144]
-    - [480, 9593.08]
-  - - [1280, 384, 1, 64]
-    - [611, 3196.98]
+    - [658, 9593.08]
   - - [256, 64, 1, 1225]
-    - [612, 1194.77]
+    - [790, 1194.77]
   - - [2048, 320, 1, 64]
-    - [614, 3449.36]
-  - - [256, 48, 1, 1225]
-    - [605, 913.498]
-  - - [2048, 192, 1, 64]
-    - [604, 2516.68]
+    - [792, 3449.36]
   - - [1024, 128, 1, 289]
-    - [618, 2869.78]
-  - - [1280, 192, 1, 64]
-    - [597, 1872.56]
-  - - [192, 32, 1, 1225]
-    - [602, 505.906]
-  - - [1280, 448, 1, 64]
-    - [598, 3078.97]
+    - [796, 2869.78]
   - - [384, 64, 1, 1225]
-    - [603, 1511.43]
+    - [781, 1511.43]
   - - [2048, 384, 1, 64]
-    - [616, 3836.35]
-  - - [288, 48, 1, 1225]
-    - [599, 1032.69]
+    - [794, 3836.35]
   - - [64, 80, 1, 5329]
-    - [615, 888.267]
+    - [793, 888.267]
   - - [1024, 384, 1, 289]
-    - [609, 4291.62]
+    - [787, 4291.62]
   - - [2048, 448, 1, 64]
-    - [608, 3783.62]
-  - - [1280, 320, 1, 64]
-    - [614, 2777.05]
-  - - [192, 64, 1, 1225]
-    - [599, 926.997]
-  - - [384, 192, 1, 1225]
-    - [610, 2560.1]
-  - - [1536, 256, 1, 64]
-    - [617, 2621.54]
-  - - [192, 48, 1, 1225]
-    - [602, 698.714]
-  - - [768, 128, 1, 289]
-    - [619, 2291.22]
-  - - [1024, 256, 1, 289]
-    - [617, 4064.46]
+    - [786, 3783.62]
   - - [768, 192, 1, 289]
-    - [613, 2690.43]
-  - - [1536, 384, 1, 64]
-    - [600, 3145.83]
+    - [791, 2690.43]
   - - [288, 64, 1, 1225]
-    - [602, 1142.77]
-  - - [1024, 192, 1, 289]
-    - [607, 3243.23]
+    - [780, 1142.77]
   - - [384, 96, 1, 1225]
-    - [620, 1844.81]
-  - - [160, 64, 1, 5329]
-    - [606, 1564.58]
-  - - [768, 160, 1, 289]
-    - [601, 2386.68]
+    - [798, 1844.81]
   - - [1024, 3392, 1, 4096]
-    - [646, 8503.02]
+    - [824, 8503.02]
   - - [1024, 3301, 1, 4096]
-    - [648, 8414.1]
+    - [826, 8414.1]
   - - [1024, 3443, 1, 4096]
-    - [635, 8536.59]
+    - [813, 8536.59]
   - - [132, 134, 480, 64]
-    - [673, 4149.27]
+    - [851, 4149.27]
   - - [162, 162, 400, 64]
-    - [661, 5539.73]
+    - [839, 5539.73]
   - - [4096, 3548, 1, 1024]
-    - [627, 9773.01]
+    - [805, 9773.01]
   - - [4096, 2977, 1, 1024]
-    - [628, 9574.43]
+    - [806, 9574.43]
   - - [132, 135, 480, 64]
-    - [673, 4167.51]
+    - [851, 4167.51]
   - - [1024, 2985, 1, 4096]
-    - [631, 9133.99]
+    - [809, 9133.99]
   - - [33708, 3681, 1, 1024]
-    - [628, 10033.8]
+    - [806, 10033.8]
   - - [4096, 3443, 1, 1024]
-    - [628, 9513.78]
+    - [806, 9513.78]
   - - [11, 11, 5456, 64]
-    - [670, 627.346]
+    - [848, 627.346]
   - - [1024, 3400, 1, 4096]
-    - [649, 8420.02]
+    - [827, 8420.02]
   - - [4096, 3995, 1, 1024]
-    - [627, 9693.87]
+    - [805, 9693.87]
   - - [4096, 3190, 1, 1024]
-    - [627, 9474.84]
+    - [805, 9474.84]
   - - [4096, 3594, 1, 1024]
-    - [628, 9315.83]
+    - [806, 9315.83]
   - - [159, 162, 400, 64]
-    - [660, 5429.98]
+    - [838, 5429.98]
   - - [1024, 3565, 1, 4096]
-    - [643, 8532.8]
+    - [821, 8532.8]
   - - [4096, 3422, 1, 1024]
-    - [628, 9459.24]
+    - [806, 9459.24]
   - - [1024, 3214, 1, 4096]
-    - [648, 8064.92]
+    - [826, 8064.92]
   - - [33708, 3584, 1, 1024]
-    - [629, 10129.0]
+    - [807, 10129.0]
   - - [33708, 3640, 1, 1024]
-    - [626, 9919.22]
+    - [804, 9919.22]
   - - [4096, 3263, 1, 1024]
-    - [626, 9699.35]
+    - [804, 9699.35]
   - - [4096, 3296, 1, 1024]
-    - [626, 9780.8]
+    - [804, 9780.8]
   - - [1024, 3557, 1, 4096]
-    - [647, 8526.89]
+    - [825, 8526.89]
   - - [4096, 3463, 1, 1024]
-    - [626, 9578.13]
+    - [804, 9578.13]
   - - [4096, 3528, 1, 1024]
-    - [626, 9739.92]
+    - [804, 9739.92]
   - - [14, 14, 4368, 64]
-    - [658, 991.276]
+    - [836, 991.276]
   - - [4096, 3226, 1, 1024]
-    - [626, 9587.19]
+    - [804, 9587.19]
   - - [4096, 3439, 1, 1024]
-    - [629, 9499.72]
+    - [807, 9499.72]
   - - [1024, 3523, 1, 4096]
-    - [649, 8393.58]
+    - [827, 8393.58]
   - - [1024, 3098, 1, 4096]
-    - [655, 7882.87]
+    - [833, 7882.87]
   - - [4096, 3121, 1, 1024]
-    - [626, 9296.23]
+    - [804, 9296.23]
   - - [33708, 3894, 1, 1024]
-    - [627, 9952.27]
+    - [805, 9952.27]
   - - [1024, 3548, 1, 4096]
-    - [633, 8432.45]
+    - [811, 8432.45]
   - - [1024, 3451, 1, 4096]
-    - [646, 8456.44]
+    - [824, 8456.44]
   - - [4096, 3353, 1, 1024]
-    - [628, 9289.08]
+    - [806, 9289.08]
   - - [4096, 3402, 1, 1024]
-    - [628, 9406.44]
+    - [806, 9406.44]
   - - [4096, 3939, 1, 1024]
-    - [626, 9549.59]
+    - [804, 9549.59]
   - - [133, 133, 480, 64]
-    - [673, 4124.31]
+    - [851, 4124.31]
   - - [1024, 3559, 1, 4096]
-    - [648, 8587.04]
+    - [826, 8587.04]
   - - [1024, 2977, 1, 4096]
-    - [631, 9084.59]
+    - [809, 9084.59]
   - - [1024, 3478, 1, 4096]
-    - [642, 8342.85]
+    - [820, 8342.85]
   - - [134, 134, 480, 64]
-    - [675, 4204.43]
+    - [853, 4204.43]
   - - [1024, 3368, 1, 4096]
-    - [648, 8277.43]
+    - [826, 8277.43]
   - - [4096, 4012, 1, 1024]
-    - [628, 9726.57]
+    - [806, 9726.57]
   - - [4096, 3486, 1, 1024]
-    - [626, 9639.71]
+    - [804, 9639.71]
   - - [1024, 3479, 1, 4096]
-    - [636, 8420.37]
+    - [814, 8420.37]
   - - [1024, 3505, 1, 4096]
-    - [648, 8310.66]
+    - [826, 8310.66]
   - - [4096, 3381, 1, 1024]
-    - [629, 9357.75]
+    - [807, 9357.75]
   - - [4096, 3430, 1, 1024]
-    - [626, 9482.36]
+    - [804, 9482.36]
   - - [1024, 3554, 1, 4096]
-    - [648, 8592.38]
+    - [826, 8592.38]
   - - [4096, 3271, 1, 1024]
-    - [626, 9715.41]
+    - [804, 9715.41]
   - - [1024, 3063, 1, 4096]
-    - [630, 9388.56]
+    - [808, 9388.56]
   - - [1024, 3209, 1, 4096]
-    - [648, 8212.74]
+    - [826, 8212.74]
   - - [4096, 3503, 1, 1024]
-    - [628, 9680.59]
+    - [806, 9680.59]
   - - [4096, 3344, 1, 1024]
-    - [626, 9268.55]
+    - [804, 9268.55]
   - - [1024, 3147, 1, 4096]
-    - [649, 8037.2]
+    - [827, 8037.2]
   - - [1024, 3322, 1, 4096]
-    - [647, 8356.32]
+    - [825, 8356.32]
   - - [1024, 3341, 1, 4096]
-    - [648, 8316.33]
+    - [826, 8316.33]
   - - [1024, 3516, 1, 4096]
-    - [630, 8397.12]
+    - [808, 8397.12]
   - - [102, 101, 624, 64]
-    - [661, 4709.59]
+    - [839, 4709.59]
   - - [1024, 3454, 1, 4096]
-    - [647, 8425.6]
+    - [825, 8425.6]
   - - [4096, 3969, 1, 1024]
-    - [628, 9640.15]
+    - [806, 9640.15]
   - - [4096, 3466, 1, 1024]
-    - [628, 9576.83]
+    - [806, 9576.83]
   - - [1024, 3999, 1, 1024]
-    - [631, 9207.15]
+    - [809, 9207.15]
   - - [1024, 4032, 1, 1024]
-    - [632, 9294.56]
+    - [810, 9294.56]
   - - [1024, 3403, 1, 4096]
-    - [646, 8357.97]
+    - [824, 8357.97]
   - - [4096, 3361, 1, 1024]
-    - [628, 9308.78]
+    - [806, 9308.78]
   - - [1024, 3527, 1, 4096]
-    - [647, 8512.19]
+    - [825, 8512.19]
   - - [1024, 3822, 1, 4096]
-    - [631, 8991.13]
+    - [809, 8991.13]
   - - [4096, 3315, 1, 1024]
-    - [626, 9834.96]
+    - [804, 9834.96]
   - - [232, 232, 272, 64]
-    - [660, 6481.62]
+    - [838, 6481.62]
   - - [1024, 3336, 1, 4096]
-    - [649, 8295.61]
+    - [827, 8295.61]
   - - [228, 232, 272, 64]
-    - [661, 6327.85]
+    - [839, 6327.85]
   - - [4096, 3547, 1, 1024]
-    - [626, 9781.56]
+    - [804, 9781.56]
   - - [4096, 3340, 1, 1024]
-    - [628, 9269.72]
+    - [806, 9269.72]
   - - [1024, 3906, 1, 1024]
-    - [632, 9018.38]
+    - [810, 9018.38]
   - - [1024, 3295, 1, 4096]
-    - [646, 8194.83]
+    - [824, 8194.83]
   - - [4096, 3294, 1, 1024]
-    - [629, 9762.16]
+    - [807, 9762.16]
   - - [33708, 3968, 1, 1024]
-    - [629, 10147.8]
+    - [807, 10147.8]
   - - [1024, 3473, 1, 4096]
-    - [635, 8318.68]
+    - [813, 8318.68]
   - - [1024, 3072, 1, 4096]
-    - [632, 9370.13]
+    - [810, 9370.13]
   - - [4096, 3189, 1, 1024]
-    - [626, 9470.26]
+    - [804, 9470.26]
   - - [4096, 3494, 1, 1024]
-    - [626, 9661.32]
+    - [804, 9661.32]
   - - [1024, 3522, 1, 4096]
-    - [649, 8459.23]
+    - [827, 8459.23]
   - - [33708, 3944, 1, 1024]
-    - [629, 10060.2]
+    - [807, 10060.2]
   - - [135, 135, 480, 64]
-    - [674, 4257.03]
+    - [852, 4257.03]
   - - [4096, 3421, 1, 1024]
-    - [626, 9456.98]
+    - [804, 9456.98]
   - - [32, 32, 1984, 64]
-    - [671, 3436.24]
+    - [849, 3436.24]
   - - [4096, 3311, 1, 1024]
-    - [626, 9810.88]
+    - [804, 9810.88]
   - - [1024, 3990, 1, 1024]
-    - [633, 9197.74]
+    - [811, 9197.74]
   - - [1024, 3290, 1, 4096]
-    - [646, 8229.63]
+    - [824, 8229.63]
   - - [4096, 3565, 1, 1024]
-    - [627, 9824.48]
+    - [805, 9824.48]
   - - [1024, 3484, 1, 4096]
-    - [636, 8575.38]
+    - [814, 8575.38]
   - - [4096, 3384, 1, 1024]
-    - [626, 9366.54]
+    - [804, 9366.54]
   - - [1024, 3422, 1, 4096]
-    - [646, 8484.12]
+    - [824, 8484.12]
   - - [4096, 3681, 1, 1024]
-    - [627, 9520.16]
+    - [805, 9520.16]
   - - [1024, 3584, 1, 1024]
-    - [653, 8583.37]
+    - [831, 8583.37]
   - - [4096, 4050, 1, 1024]
-    - [628, 9807.35]
+    - [806, 9807.35]
   - - [1024, 3996, 1, 4096]
-    - [629, 9181.7]
+    - [807, 9181.7]
   - - [4096, 3169, 1, 1024]
-    - [627, 9411.4]
+    - [805, 9411.4]
   - - [4096, 3538, 1, 1024]
-    - [627, 9765.99]
+    - [805, 9765.99]
   - - [1024, 3495, 1, 4096]
-    - [633, 8295.95]
+    - [811, 8295.95]
   - - [4096, 3401, 1, 1024]
-    - [626, 9402.68]
+    - [804, 9402.68]
   - - [1024, 3560, 1, 4096]
-    - [647, 8513.45]
+    - [825, 8513.45]
   - - [133, 135, 480, 64]
-    - [674, 4199.08]
+    - [852, 4199.08]
   - - [1024, 3263, 1, 4096]
-    - [648, 8172.23]
+    - [826, 8172.23]
   - - [1024, 3870, 1, 4096]
-    - [628, 8996.27]
+    - [806, 8996.27]
   - - [4096, 3555, 1, 1024]
-    - [629, 9811.88]
+    - [807, 9811.88]
   - - [4096, 3412, 1, 1024]
-    - [626, 9432.09]
+    - [804, 9432.09]
   - - [101, 101, 624, 64]
-    - [660, 4667.69]
+    - [838, 4667.69]
   - - [1024, 3296, 1, 4096]
-    - [647, 8350.61]
+    - [825, 8350.61]
   - - [1024, 3379, 1, 4096]
-    - [649, 8432.94]
+    - [827, 8432.94]
   - - [4096, 3302, 1, 1024]
-    - [626, 9796.39]
+    - [804, 9796.39]
   - - [1024, 3490, 1, 4096]
-    - [646, 8538.44]
+    - [824, 8538.44]
   - - [1024, 3428, 1, 4096]
-    - [647, 8531.67]
+    - [825, 8531.67]
   - - [1024, 3976, 1, 4096]
-    - [628, 9327.87]
+    - [806, 9327.87]
   - - [4096, 3485, 1, 1024]
-    - [626, 9628.82]
+    - [804, 9628.82]
   - - [4096, 3534, 1, 1024]
-    - [626, 9755.97]
+    - [804, 9755.97]
   - - [1024, 3064, 1, 4096]
-    - [632, 9196.98]
+    - [810, 9196.98]
   - - [4096, 3216, 1, 1024]
-    - [628, 9563.44]
+    - [806, 9563.44]
   - - [1024, 3450, 1, 4096]
-    - [656, 8519.29]
+    - [834, 8519.29]
   - - [1024, 3533, 1, 4096]
-    - [647, 8495.77]
+    - [825, 8495.77]
   - - [1024, 4030, 1, 1024]
-    - [632, 9304.68]
+    - [810, 9304.68]
   - - [1024, 3311, 1, 4096]
-    - [647, 8278.6]
+    - [825, 8278.6]
   - - [1024, 3468, 1, 4096]
-    - [638, 8564.55]
+    - [816, 8564.55]
   - - [23, 23, 2720, 64]
-    - [662, 2311.55]
+    - [840, 2311.55]
   - - [4096, 3359, 1, 1024]
-    - [628, 9309.15]
+    - [806, 9309.15]
   - - [4096, 3392, 1, 1024]
-    - [628, 9388.19]
+    - [806, 9388.19]
   - - [1024, 3925, 1, 1024]
-    - [630, 9006.72]
+    - [808, 9006.72]
   - - [4096, 3233, 1, 1024]
-    - [626, 9603.64]
+    - [804, 9603.64]
   - - [4096, 3956, 1, 1024]
-    - [627, 9581.94]
+    - [805, 9581.94]
   - - [1024, 3463, 1, 4096]
-    - [648, 8293.97]
+    - [826, 8293.97]
   - - [1024, 3126, 1, 4096]
-    - [647, 7978.13]
+    - [825, 7978.13]
   - - [1024, 3363, 1, 4096]
-    - [640, 8267.47]
+    - [818, 8267.47]
   - - [4096, 3465, 1, 1024]
-    - [626, 9590.74]
+    - [804, 9590.74]
   - - [33708, 3996, 1, 1024]
-    - [627, 9899.99]
+    - [805, 9899.99]
   - - [1024, 3231, 1, 4096]
-    - [648, 8231.68]
+    - [826, 8231.68]
   - - [33708, 3978, 1, 1024]
-    - [627, 9853.64]
+    - [805, 9853.64]
   - - [4096, 3476, 1, 1024]
-    - [626, 9616.62]
+    - [804, 9616.62]
   - - [85, 85, 752, 64]
-    - [658, 4240.65]
+    - [836, 4240.65]
   - - [4096, 3339, 1, 1024]
-    - [628, 9249.81]
+    - [806, 9249.81]
   - - [4096, 3452, 1, 1024]
-    - [626, 9534.13]
+    - [804, 9534.13]
   - - [1024, 3396, 1, 4096]
-    - [647, 8451.23]
+    - [825, 8451.23]
   - - [4096, 3293, 1, 1024]
-    - [628, 9775.22]
+    - [806, 9775.22]
   - - [54, 54, 1184, 64]
-    - [660, 4153.54]
+    - [838, 4153.54]
   - - [1024, 3432, 1, 4096]
-    - [641, 8345.53]
+    - [819, 8345.53]
   - - [4096, 3493, 1, 1024]
-    - [629, 9649.9]
+    - [807, 9649.9]
   - - [4096, 3350, 1, 1024]
-    - [628, 9273.91]
+    - [806, 9273.91]
   - - [1024, 3079, 1, 4096]
-    - [656, 7775.66]
+    - [834, 7775.66]
   - - [1024, 3101, 1, 4096]
-    - [656, 7847.85]
+    - [834, 7847.85]
   - - [33708, 3939, 1, 1024]
-    - [629, 10054.4]
+    - [807, 10054.4]
   - - [4096, 3256, 1, 1024]
-    - [628, 9681.83]
+    - [806, 9681.83]
   - - [1024, 3439, 1, 4096]
-    - [647, 8531.11]
+    - [825, 8531.11]
   - - [1024, 3510, 1, 4096]
-    - [646, 8422.31]
+    - [824, 8422.31]
   - - [4096, 3900, 1, 1024]
-    - [627, 9468.61]
+    - [805, 9468.61]
   - - [1024, 3470, 1, 4096]
-    - [648, 8507.77]
+    - [826, 8507.77]
   - - [4096, 3456, 1, 1024]
-    - [628, 9577.46]
+    - [806, 9577.46]
   - - [4096, 3014, 1, 1024]
-    - [627, 9666.15]
+    - [805, 9666.15]
   - - [4096, 3367, 1, 1024]
-    - [629, 9328.36]
+    - [807, 9328.36]
   - - [4096, 3432, 1, 1024]
-    - [626, 9480.88]
+    - [804, 9480.88]
   - - [33708, 4026, 1, 1024]
-    - [629, 9972.83]
+    - [807, 9972.83]
   - - [4096, 3273, 1, 1024]
-    - [626, 9716.95]
+    - [804, 9716.95]
   - - [4096, 3130, 1, 1024]
-    - [626, 9311.4]
+    - [804, 9311.4]
   - - [1024, 3496, 1, 4096]
-    - [637, 8434.65]
+    - [815, 8434.65]
   - - [1024, 3995, 1, 4096]
-    - [622, 9157.73]
+    - [800, 9157.73]
   - - [1024, 3939, 1, 4096]
-    - [630, 9059.86]
+    - [808, 9059.86]
   - - [1024, 3121, 1, 4096]
-    - [654, 7963.43]
+    - [832, 7963.43]
   - - [1024, 3232, 1, 4096]
-    - [648, 8061.09]
+    - [826, 8061.09]
   - - [4096, 3147, 1, 1024]
-    - [628, 9364.63]
+    - [806, 9364.63]
   - - [4096, 3516, 1, 1024]
-    - [626, 9708.84]
+    - [804, 9708.84]
   - - [1024, 3969, 1, 1024]
-    - [632, 9168.68]
+    - [810, 9168.68]
   - - [1024, 3364, 1, 4096]
-    - [636, 8363.65]
+    - [814, 8363.65]
   - - [4096, 3411, 1, 1024]
-    - [629, 9442.77]
+    - [807, 9442.77]
   - - [147, 147, 432, 64]
-    - [673, 4843.21]
+    - [851, 4843.21]
   - - [4096, 3301, 1, 1024]
-    - [628, 9783.46]
+    - [806, 9783.46]
   - - [112, 111, 576, 64]
-    - [660, 5627.47]
+    - [838, 5627.47]
   - - [1024, 3513, 1, 4096]
-    - [647, 8725.41]
+    - [825, 8725.41]
   - - [1024, 3469, 1, 4096]
-    - [627, 8183.11]
+    - [805, 8183.11]
   - - [1024, 3095, 1, 4096]
-    - [648, 7887.87]
+    - [826, 7887.87]
   - - [4096, 3533, 1, 1024]
-    - [627, 9755.27]
+    - [805, 9755.27]
   - - [4096, 3390, 1, 1024]
-    - [626, 9377.21]
+    - [804, 9377.21]
   - - [4096, 3582, 1, 1024]
-    - [626, 9874.96]
+    - [804, 9874.96]
   - - [1024, 3956, 1, 1024]
-    - [632, 9058.82]
+    - [810, 9058.82]
   - - [4096, 3585, 1, 1024]
-    - [628, 9289.75]
+    - [806, 9289.75]
   - - [4096, 3231, 1, 1024]
-    - [627, 9597.15]
+    - [805, 9597.15]
   - - [1024, 3205, 1, 4096]
-    - [646, 8073.25]
+    - [824, 8073.25]
   - - [4096, 3496, 1, 1024]
-    - [627, 9668.38]
+    - [805, 9668.38]
   - - [1024, 3143, 1, 4096]
-    - [646, 8031.68]
+    - [824, 8031.68]
   - - [1024, 3318, 1, 4096]
-    - [643, 8261.43]
+    - [821, 8261.43]
   - - [1024, 3353, 1, 4096]
-    - [647, 8414.92]
+    - [825, 8414.92]
   - - [1024, 3464, 1, 4096]
-    - [646, 8310.03]
+    - [824, 8310.03]
   - - [4096, 2736, 1, 1024]
-    - [628, 9563.12]
+    - [806, 9563.12]
   - - [1024, 3402, 1, 4096]
-    - [643, 8413.84]
+    - [821, 8413.84]
   - - [4096, 3138, 1, 1024]
-    - [628, 9342.09]
+    - [806, 9342.09]
   - - [1024, 3860, 1, 4096]
-    - [631, 9008.57]
+    - [809, 9008.57]
   - - [148, 148, 432, 64]
-    - [673, 4915.7]
+    - [851, 4915.7]
   - - [1024, 3539, 1, 4096]
-    - [643, 8449.36]
+    - [821, 8449.36]
   - - [4096, 3211, 1, 1024]
-    - [628, 9551.28]
+    - [806, 9551.28]
   - - [1024, 3332, 1, 4096]
-    - [636, 8295.11]
+    - [814, 8295.11]
   - - [1024, 3466, 1, 4096]
-    - [647, 8339.25]
+    - [825, 8339.25]
   - - [4096, 3475, 1, 1024]
-    - [626, 9612.33]
+    - [804, 9612.33]
   - - [4096, 3524, 1, 1024]
-    - [629, 9722.74]
+    - [807, 9722.74]
   - - [4096, 2985, 1, 1024]
-    - [629, 9591.33]
+    - [807, 9591.33]
   - - [4096, 3222, 1, 1024]
-    - [626, 9577.48]
+    - [804, 9577.48]
   - - [4096, 3451, 1, 1024]
-    - [628, 9541.42]
+    - [806, 9541.42]
   - - [1024, 3181, 1, 4096]
-    - [646, 8118.89]
+    - [824, 8118.89]
   - - [1024, 3640, 1, 4096]
-    - [631, 8617.11]
+    - [809, 8617.11]
   - - [1024, 3375, 1, 4096]
-    - [635, 8419.75]
+    - [813, 8419.75]
   - - [1024, 3550, 1, 4096]
-    - [648, 8512.83]
+    - [826, 8512.83]
   - - [1024, 4020, 1, 1024]
-    - [632, 9266.9]
+    - [810, 9266.9]
   - - [1024, 3840, 1, 4096]
-    - [631, 8983.49]
+    - [809, 8983.49]
   - - [4096, 3349, 1, 1024]
-    - [626, 9279.96]
+    - [804, 9279.96]
   - - [4096, 3398, 1, 1024]
-    - [627, 9402.32]
+    - [805, 9402.32]
   - - [33708, 3976, 1, 1024]
-    - [628, 9849.54]
+    - [806, 9849.54]
   - - [1024, 2917, 1, 4096]
-    - [633, 8936.87]
+    - [811, 8936.87]
   - - [33708, 3910, 1, 1024]
-    - [626, 9983.35]
+    - [804, 9983.35]
   - - [4096, 3860, 1, 1024]
-    - [627, 9377.58]
+    - [805, 9377.58]
   - - [4096, 3304, 1, 1024]
-    - [629, 9798.44]
+    - [807, 9798.44]
   - - [1024, 3286, 1, 4096]
-    - [634, 8167.41]
+    - [812, 8167.41]
   - - [1024, 3460, 1, 4096]
-    - [644, 8539.56]
+    - [822, 8539.56]
   - - [1024, 4026, 1, 4096]
-    - [630, 9305.68]
+    - [808, 9305.68]
   - - [4096, 3471, 1, 1024]
-    - [628, 9596.71]
+    - [806, 9596.71]
   - - [193, 193, 320, 64]
-    - [676, 4758.46]
+    - [854, 4758.46]
   - - [1024, 3894, 1, 1024]
-    - [630, 8979.6]
+    - [808, 8979.6]
   - - [65, 65, 992, 64]
-    - [672, 2565.49]
+    - [850, 2565.49]
   - - [1024, 3506, 1, 4096]
-    - [644, 8593.22]
+    - [822, 8593.22]
   - - [35, 35, 1808, 64]
-    - [666, 2129.72]
+    - [844, 2129.72]
   - - [1024, 4000, 1, 1024]
-    - [630, 9204.6]
+    - [808, 9204.6]
   - - [1024, 3900, 1, 4096]
-    - [626, 9050.36]
+    - [804, 9050.36]
   - - [1024, 3445, 1, 4096]
-    - [649, 8551.65]
+    - [827, 8551.65]
   - - [4096, 3442, 1, 1024]
-    - [627, 9505.0]
+    - [805, 9505.0]
   - - [1024, 3358, 1, 4096]
-    - [648, 8437.16]
+    - [826, 8437.16]
   - - [13, 13, 4672, 64]
-    - [659, 860.665]
+    - [837, 860.665]
   - - [1024, 3211, 1, 4096]
-    - [652, 8085.25]
+    - [830, 8085.25]
   - - [4096, 3515, 1, 1024]
-    - [628, 9715.29]
+    - [806, 9715.29]
   - - [1024, 3564, 1, 4096]
-    - [634, 8760.37]
+    - [812, 8760.37]
   - - [4096, 3057, 1, 1024]
-    - [628, 9804.05]
+    - [806, 9804.05]
   - - [1024, 3343, 1, 4096]
-    - [646, 8363.8]
+    - [824, 8363.8]
   - - [4096, 3262, 1, 1024]
-    - [627, 9686.49]
+    - [805, 9686.49]
   - - [1024, 3518, 1, 4096]
-    - [646, 8455.05]
+    - [824, 8455.05]
   - - [77, 77, 816, 64]
-    - [665, 3505.94]
+    - [843, 3505.94]
   - - [33708, 3876, 1, 1024]
-    - [627, 9895.95]
+    - [805, 9895.95]
   - - [4096, 3462, 1, 1024]
-    - [628, 9570.31]
+    - [806, 9570.31]
   - - [1024, 3265, 1, 4096]
-    - [646, 8322.75]
+    - [824, 8322.75]
   - - [4096, 3389, 1, 1024]
-    - [627, 9382.86]
+    - [805, 9382.86]
   - - [4096, 3438, 1, 1024]
-    - [628, 9503.47]
+    - [806, 9503.47]
   - - [1024, 3955, 1, 1024]
-    - [630, 9064.45]
+    - [808, 9064.45]
   - - [1024, 3545, 1, 4096]
-    - [649, 8652.41]
+    - [827, 8652.41]
   - - [1024, 3144, 1, 4096]
-    - [649, 8060.55]
+    - [827, 8060.55]
   - - [1024, 3417, 1, 4096]
-    - [647, 8505.91]
+    - [825, 8505.91]
   - - [4096, 3543, 1, 1024]
-    - [626, 9775.67]
+    - [804, 9775.67]
   - - [4096, 3352, 1, 1024]
-    - [628, 9282.87]
+    - [806, 9282.87]
   - - [33708, 3975, 1, 1024]
-    - [629, 9849.49]
+    - [807, 9849.49]
   - - [148, 147, 432, 64]
-    - [673, 4876.15]
+    - [851, 4876.15]
   - - [4096, 3137, 1, 1024]
-    - [626, 9330.63]
+    - [804, 9330.63]
   - - [4096, 3506, 1, 1024]
-    - [629, 9682.76]
+    - [807, 9682.76]
   - - [1024, 3975, 1, 1024]
-    - [632, 9164.77]
+    - [810, 9164.77]
   - - [1024, 3859, 1, 4096]
-    - [630, 8983.84]
+    - [808, 8983.84]
   - - [4096, 3369, 1, 1024]
-    - [628, 9330.45]
+    - [806, 9330.45]
   - - [1024, 3434, 1, 4096]
-    - [646, 8486.98]
+    - [824, 8486.98]
   - - [1024, 3292, 1, 4096]
-    - [646, 8478.96]
+    - [824, 8478.96]
   - - [4096, 3523, 1, 1024]
-    - [626, 9734.83]
+    - [804, 9734.83]
   - - [4096, 3380, 1, 1024]
-    - [628, 9354.49]
+    - [806, 9354.49]
   - - [1024, 3408, 1, 4096]
-    - [649, 8441.03]
+    - [827, 8441.03]
   - - [4096, 3221, 1, 1024]
-    - [628, 9575.59]
+    - [806, 9575.59]
   - - [4096, 3270, 1, 1024]
-    - [628, 9717.95]
+    - [806, 9717.95]
   - - [143, 143, 432, 64]
-    - [674, 4643.45]
+    - [852, 4643.45]
   - - [111, 111, 576, 64]
-    - [666, 5475.04]
+    - [844, 5475.04]
   - - [1024, 3303, 1, 4096]
-    - [648, 8413.07]
+    - [826, 8413.07]
   - - [4096, 3502, 1, 1024]
-    - [628, 9679.87]
+    - [806, 9679.87]
   - - [1024, 3222, 1, 4096]
-    - [648, 8141.88]
+    - [826, 8141.88]
   - - [4096, 2505, 1, 1024]
-    - [626, 9594.95]
+    - [804, 9594.95]
   - - [4096, 3397, 1, 1024]
-    - [626, 9392.61]
+    - [804, 9392.61]
   - - [4096, 3562, 1, 1024]
-    - [626, 9827.58]
+    - [804, 9827.58]
   - - [4096, 3095, 1, 1024]
-    - [628, 9222.45]
+    - [806, 9222.45]
   - - [1024, 3226, 1, 4096]
-    - [644, 8027.03]
+    - [822, 8027.03]
   - - [177, 177, 352, 64]
-    - [661, 6406.96]
+    - [839, 6406.96]
   - - [4096, 3360, 1, 1024]
-    - [627, 9298.15]
+    - [805, 9298.15]
   - - [1024, 3942, 1, 1024]
-    - [632, 9061.59]
+    - [810, 9061.59]
   - - [1024, 3298, 1, 4096]
-    - [649, 8254.36]
+    - [827, 8254.36]
   - - [1024, 3381, 1, 4096]
-    - [648, 8508.81]
+    - [826, 8508.81]
   - - [4096, 3314, 1, 1024]
-    - [628, 9837.56]
+    - [806, 9837.56]
   - - [1024, 3492, 1, 4096]
-    - [636, 8583.39]
+    - [814, 8583.39]
   - - [1024, 3430, 1, 4096]
-    - [636, 8492.71]
+    - [814, 8492.71]
   - - [4096, 3977, 1, 1024]
-    - [628, 9656.45]
+    - [806, 9656.45]
   - - [4096, 3546, 1, 1024]
-    - [626, 9780.35]
+    - [804, 9780.35]
   - - [4096, 3640, 1, 1024]
-    - [626, 9415.51]
+    - [804, 9415.51]
   - - [4096, 3441, 1, 1024]
-    - [627, 9499.24]
+    - [805, 9499.24]
   - - [33708, 4059, 1, 1024]
-    - [629, 10051.9]
+    - [807, 10051.9]
   - - [1024, 3978, 1, 1024]
-    - [630, 9158.8]
+    - [808, 9158.8]
   - - [1024, 3376, 1, 4096]
-    - [648, 8415.44]
+    - [826, 8415.44]
   - - [1024, 3482, 1, 4096]
-    - [649, 8396.62]
+    - [827, 8396.62]
   - - [1024, 3563, 1, 4096]
-    - [632, 8424.18]
+    - [810, 8424.18]
   - - [4096, 4020, 1, 1024]
-    - [629, 9745.96]
+    - [807, 9745.96]
   - - [1024, 3271, 1, 4096]
-    - [647, 8289.68]
+    - [825, 8289.68]
   - - [1024, 3291, 1, 4096]
-    - [647, 8222.71]
+    - [825, 8222.71]
   - - [1024, 3431, 1, 4096]
-    - [642, 8464.4]
+    - [820, 8464.4]
   - - [1024, 3481, 1, 4096]
-    - [648, 8386.5]
+    - [826, 8386.5]
   - - [84, 85, 752, 64]
-    - [663, 4194.85]
+    - [841, 4194.85]
   - - [4096, 3461, 1, 1024]
-    - [626, 9579.67]
+    - [804, 9579.67]
   - - [1024, 3574, 1, 4096]
-    - [649, 8579.8]
+    - [827, 8579.8]
   - - [1024, 4059, 1, 1024]
-    - [630, 9330.54]
+    - [808, 9330.54]
   - - [84, 84, 752, 64]
-    - [670, 4141.46]
+    - [848, 4141.46]
   - - [1024, 3421, 1, 4096]
-    - [649, 8528.42]
+    - [827, 8528.42]
   - - [4096, 3224, 1, 1024]
-    - [628, 9589.95]
+    - [806, 9589.95]
   - - [4096, 3437, 1, 1024]
-    - [628, 9498.2]
+    - [806, 9498.2]
   - - [45, 45, 1424, 64]
-    - [660, 3314.58]
+    - [838, 3314.58]
   - - [4096, 3840, 1, 1024]
-    - [626, 9931.37]
+    - [804, 9931.37]
   - - [4096, 3168, 1, 1024]
-    - [628, 9412.16]
+    - [806, 9412.16]
   - - [33708, 3990, 1, 1024]
-    - [626, 9884.39]
+    - [804, 9884.39]
   - - [1024, 3349, 1, 4096]
-    - [648, 8421.4]
+    - [826, 8421.4]
   - - [4096, 3335, 1, 1024]
-    - [626, 9241.65]
+    - [804, 9241.65]
   - - [4096, 3400, 1, 1024]
-    - [628, 9407.35]
+    - [806, 9407.35]
   - - [160, 159, 400, 64]
-    - [675, 5708.94]
+    - [853, 5708.94]
   - - [1024, 3398, 1, 4096]
-    - [648, 8624.03]
+    - [826, 8624.03]
   - - [1024, 3780, 1, 4096]
-    - [628, 8756.78]
+    - [806, 8756.78]
   - - [29, 29, 2176, 64]
-    - [671, 2963.69]
+    - [849, 2963.69]
   - - [4096, 3098, 1, 1024]
-    - [626, 9229.82]
+    - [804, 9229.82]
   - - [1024, 4012, 1, 4096]
-    - [632, 9422.03]
+    - [810, 9422.03]
   - - [4096, 3505, 1, 1024]
-    - [628, 9687.65]
+    - [806, 9687.65]
   - - [4096, 3554, 1, 1024]
-    - [628, 9812.22]
+    - [806, 9812.22]
   - - [4096, 3063, 1, 1024]
-    - [628, 9825.1]
+    - [806, 9825.1]
   - - [1024, 3503, 1, 4096]
-    - [646, 8404.74]
+    - [824, 8404.74]
   - - [1024, 3166, 1, 4096]
-    - [649, 8084.93]
+    - [827, 8084.93]
   - - [1024, 3425, 1, 4096]
-    - [649, 8537.58]
+    - [827, 8537.58]
   - - [1024, 3344, 1, 4096]
-    - [640, 8351.16]
+    - [818, 8351.16]
   - - [4096, 3484, 1, 1024]
-    - [628, 9635.7]
+    - [806, 9635.7]
   - - [1024, 3681, 1, 1024]
-    - [631, 8457.18]
+    - [809, 8457.18]
   - - [1024, 4050, 1, 1024]
-    - [632, 9326.21]
+    - [810, 9326.21]
   - - [4096, 3379, 1, 1024]
-    - [626, 9356.16]
+    - [804, 9356.16]
   - - [4096, 3428, 1, 1024]
-    - [627, 9472.33]
+    - [805, 9472.33]
   - - [12, 12, 5040, 64]
-    - [665, 741.617]
+    - [843, 741.617]
   - - [27, 27, 2336, 64]
-    - [671, 2757.9]
+    - [849, 2757.9]
   - - [1024, 3304, 1, 4096]
-    - [649, 8317.82]
+    - [827, 8317.82]
   - - [1024, 3387, 1, 4096]
-    - [647, 8460.15]
+    - [825, 8460.15]
   - - [4096, 3126, 1, 1024]
-    - [629, 9308.48]
+    - [807, 9308.48]
   - - [1024, 3498, 1, 4096]
-    - [646, 8485.55]
+    - [824, 8485.55]
   - - [1024, 3436, 1, 4096]
-    - [648, 8397.71]
+    - [826, 8397.71]
   - - [4096, 3501, 1, 1024]
-    - [626, 9681.19]
+    - [804, 9681.19]
   - - [4096, 3358, 1, 1024]
-    - [628, 9304.9]
+    - [806, 9304.9]
   - - [4096, 3232, 1, 1024]
-    - [626, 9607.2]
+    - [804, 9607.2]
   - - [1024, 3585, 1, 4096]
-    - [630, 8510.74]
+    - [808, 8510.74]
   - - [4096, 3143, 1, 1024]
-    - [629, 9355.91]
+    - [807, 9355.91]
   - - [4096, 3464, 1, 1024]
-    - [628, 9585.95]
+    - [806, 9585.95]
   - - [1024, 3366, 1, 4096]
-    - [636, 8275.23]
+    - [814, 8275.23]
   - - [4096, 3375, 1, 1024]
-    - [626, 9342.13]
+    - [804, 9342.13]
   - - [4096, 2917, 1, 1024]
-    - [626, 9372.84]
+    - [804, 9372.84]
   - - [4096, 4026, 1, 1024]
-    - [628, 9759.15]
+    - [806, 9759.15]
   - - [49, 49, 1296, 64]
-    - [667, 3710.02]
+    - [845, 3710.02]
   - - [1024, 3277, 1, 4096]
-    - [647, 8217.1]
+    - [825, 8217.1]
   - - [1024, 3103, 1, 4096]
-    - [648, 7872.67]
+    - [826, 7872.67]
   - - [33708, 3995, 1, 1024]
-    - [628, 9893.08]
+    - [806, 9893.08]
   - - [1024, 3297, 1, 4096]
-    - [647, 8185.82]
+    - [825, 8185.82]
   - - [4096, 3545, 1, 1024]
-    - [628, 9789.43]
+    - [806, 9789.43]
   - - [1024, 3399, 1, 4096]
-    - [647, 8377.18]
+    - [825, 8377.18]
   - - [33708, 3796, 1, 1024]
-    - [627, 10008.0]
+    - [805, 10008.0]
   - - [4096, 3292, 1, 1024]
-    - [628, 9767.28]
+    - [806, 9767.28]
   - - [71, 71, 896, 64]
-    - [662, 3006.25]
+    - [840, 3006.25]
   - - [33708, 3859, 1, 1024]
-    - [629, 9860.37]
+    - [807, 9860.37]
   - - [4096, 3566, 1, 1024]
-    - [628, 9834.47]
+    - [806, 9834.47]
   - - [4096, 3894, 1, 1024]
-    - [626, 9456.67]
+    - [804, 9456.67]
   - - [4096, 3492, 1, 1024]
-    - [626, 9653.24]
+    - [804, 9653.24]
   - - [1024, 3977, 1, 1024]
-    - [632, 9161.33]
+    - [810, 9161.33]
   - - [1024, 3272, 1, 4096]
-    - [649, 8257.09]
+    - [827, 8257.09]
   - - [135, 134, 480, 64]
-    - [673, 4238.39]
+    - [851, 4238.39]
   - - [1024, 3355, 1, 4096]
-    - [647, 8374.64]
+    - [825, 8374.64]
   - - [4096, 3419, 1, 1024]
-    - [629, 9455.44]
+    - [807, 9455.44]
   - - [1024, 3404, 1, 4096]
-    - [648, 8580.28]
+    - [826, 8580.28]
   - - [4096, 3999, 1, 1024]
-    - [628, 9701.78]
+    - [806, 9701.78]
   - - [4096, 3166, 1, 1024]
-    - [626, 9410.48]
+    - [804, 9410.48]
   - - [33708, 3840, 1, 1024]
-    - [629, 10132.9]
+    - [807, 10132.9]
   - - [4096, 4032, 1, 1024]
-    - [629, 9762.86]
+    - [807, 9762.86]
   - - [1024, 3573, 1, 4096]
-    - [647, 8603.4]
+    - [825, 8603.4]
   - - [4096, 3366, 1, 1024]
-    - [629, 9322.63]
+    - [807, 9322.63]
   - - [1024, 3541, 1, 4096]
-    - [649, 8405.9]
+    - [827, 8405.9]
   - - [4096, 3207, 1, 1024]
-    - [626, 9544.25]
+    - [804, 9544.25]
   - - [4096, 3272, 1, 1024]
-    - [628, 9716.73]
+    - [806, 9716.73]
   - - [1024, 3334, 1, 4096]
-    - [646, 8241.39]
+    - [824, 8241.39]
   - - [228, 228, 272, 64]
-    - [661, 6232.45]
+    - [839, 6232.45]
   - - [4096, 3183, 1, 1024]
-    - [628, 9452.44]
+    - [806, 9452.44]
   - - [4096, 3536, 1, 1024]
-    - [627, 9759.44]
+    - [805, 9759.44]
   - - [1024, 4005, 1, 1024]
-    - [631, 9225.83]
+    - [809, 9225.83]
   - - [1024, 3245, 1, 4096]
-    - [648, 8074.31]
+    - [826, 8074.31]
   - - [4096, 3447, 1, 1024]
-    - [627, 9525.84]
+    - [805, 9525.84]
   - - [1024, 3183, 1, 4096]
-    - [647, 8121.62]
+    - [825, 8121.62]
   - - [1024, 3361, 1, 4096]
-    - [649, 8285.86]
+    - [827, 8285.86]
   - - [33708, 3870, 1, 1024]
-    - [627, 9879.35]
+    - [805, 9879.35]
   - - [1024, 3321, 1, 4096]
-    - [648, 8408.67]
+    - [826, 8408.67]
   - - [1024, 3968, 1, 1024]
-    - [630, 9202.05]
+    - [808, 9202.05]
   - - [1024, 3486, 1, 4096]
-    - [644, 8258.89]
+    - [822, 8258.89]
   - - [4096, 4005, 1, 1024]
-    - [628, 9723.98]
+    - [806, 9723.98]
   - - [4096, 3410, 1, 1024]
-    - [629, 9440.5]
+    - [807, 9440.5]
   - - [1024, 3944, 1, 1024]
-    - [632, 9040.82]
+    - [810, 9040.82]
   - - [4096, 3300, 1, 1024]
-    - [627, 9789.9]
+    - [805, 9789.9]
   - - [4096, 3579, 1, 1024]
-    - [629, 9859.44]
+    - [807, 9859.44]
   - - [4096, 3483, 1, 1024]
-    - [629, 9624.31]
+    - [807, 9624.31]
   - - [4096, 3532, 1, 1024]
-    - [628, 9742.76]
+    - [806, 9742.76]
   - - [1024, 3140, 1, 4096]
-    - [648, 7899.65]
+    - [826, 7899.65]
   - - [1024, 3372, 1, 4096]
-    - [646, 8237.07]
+    - [824, 8237.07]
   - - [1024, 3224, 1, 4096]
-    - [649, 8159.13]
+    - [827, 8159.13]
   - - [4096, 3230, 1, 1024]
-    - [628, 9601.25]
+    - [806, 9601.25]
   - - [4096, 3427, 1, 1024]
-    - [628, 9466.57]
+    - [806, 9466.57]
   - - [1024, 3796, 1, 1024]
-    - [632, 8739.78]
+    - [810, 8739.78]
   - - [143, 148, 432, 64]
-    - [673, 4762.0]
+    - [851, 4762.0]
   - - [1024, 3616, 1, 4096]
-    - [631, 8445.89]
+    - [809, 8445.89]
   - - [1024, 3315, 1, 4096]
-    - [648, 8403.21]
+    - [826, 8403.21]
   - - [1024, 3476, 1, 4096]
-    - [646, 8523.68]
+    - [824, 8523.68]
   - - [1024, 3509, 1, 4096]
-    - [646, 8345.05]
+    - [824, 8345.05]
   - - [4096, 3357, 1, 1024]
-    - [628, 9300.16]
+    - [806, 9300.16]
   - - [4096, 3406, 1, 1024]
-    - [628, 9427.44]
+    - [806, 9427.44]
   - - [1024, 3558, 1, 4096]
-    - [647, 8525.78]
+    - [825, 8525.78]
   - - [4096, 3593, 1, 1024]
-    - [628, 9302.2]
+    - [806, 9302.2]
   - - [4096, 3247, 1, 1024]
-    - [628, 9648.5]
+    - [806, 9648.5]
   - - [4096, 3088, 1, 1024]
-    - [628, 9204.21]
+    - [806, 9204.21]
   - - [1024, 3213, 1, 4096]
-    - [646, 8054.31]
+    - [824, 8054.31]
   - - [4096, 3511, 1, 1024]
-    - [626, 9702.7]
+    - [804, 9702.7]
   - - [122, 122, 528, 64]
-    - [667, 6293.39]
+    - [845, 6293.39]
   - - [1024, 3365, 1, 4096]
-    - [643, 8413.62]
+    - [821, 8413.62]
   - - [1024, 3504, 1, 4096]
-    - [645, 8414.46]
+    - [823, 8414.46]
   - - [1024, 3442, 1, 4096]
-    - [648, 8684.0]
+    - [826, 8684.0]
   - - [4096, 3474, 1, 1024]
-    - [626, 9611.6]
+    - [804, 9611.6]
   - - [4096, 2984, 1, 1024]
-    - [627, 9592.82]
+    - [805, 9592.82]
   - - [1024, 3876, 1, 4096]
-    - [630, 9085.95]
+    - [808, 9085.95]
   - - [4096, 3337, 1, 1024]
-    - [628, 9246.22]
+    - [806, 9246.22]
   - - [4096, 3450, 1, 1024]
-    - [628, 9534.63]
+    - [806, 9534.63]
   - - [1024, 3547, 1, 4096]
-    - [648, 8386.73]
+    - [826, 8386.73]
   - - [4096, 3291, 1, 1024]
-    - [627, 9759.34]
+    - [805, 9759.34]
   - - [1024, 3340, 1, 4096]
-    - [647, 8237.97]
+    - [825, 8237.97]
   - - [4096, 3491, 1, 1024]
-    - [628, 9656.59]
+    - [806, 9656.59]
   - - [4096, 3348, 1, 1024]
-    - [628, 9279.15]
+    - [806, 9279.15]
   - - [78, 78, 816, 64]
-    - [668, 3591.09]
+    - [846, 3591.09]
   - - [4096, 3968, 1, 1024]
-    - [629, 9642.19]
+    - [807, 9642.19]
   - - [4096, 3906, 1, 1024]
-    - [629, 9485.37]
+    - [807, 9485.37]
   - - [1024, 3477, 1, 4096]
-    - [636, 8389.2]
+    - [814, 8389.2]
   - - [1024, 3397, 1, 4096]
-    - [646, 8556.88]
+    - [824, 8556.88]
   - - [4096, 3165, 1, 1024]
-    - [627, 9415.52]
+    - [805, 9415.52]
   - - [4096, 3470, 1, 1024]
-    - [626, 9598.5]
+    - [804, 9598.5]
   - - [1024, 3526, 1, 4096]
-    - [646, 8442.15]
+    - [824, 8442.15]
   - - [112, 112, 576, 64]
-    - [661, 5672.6]
+    - [839, 5672.6]
   - - [4096, 3365, 1, 1024]
-    - [626, 9321.83]
+    - [804, 9321.83]
   - - [4096, 3319, 1, 1024]
-    - [626, 9838.48]
+    - [804, 9838.48]
   - - [1024, 3401, 1, 4096]
-    - [648, 8460.86]
+    - [826, 8460.86]
   - - [1024, 3294, 1, 4096]
-    - [647, 8324.63]
+    - [825, 8324.63]
   - - [159, 159, 400, 64]
-    - [663, 5488.51]
+    - [841, 5488.51]
   - - [1024, 3472, 1, 4096]
-    - [641, 8289.77]
+    - [819, 8289.77]
   - - [4096, 3328, 1, 1024]
-    - [627, 9904.35]
+    - [805, 9904.35]
   - - [1024, 3861, 1, 1024]
-    - [632, 8917.63]
+    - [810, 8917.63]
   - - [1024, 3910, 1, 1024]
-    - [630, 9010.16]
+    - [808, 9010.16]
   - - [1024, 3410, 1, 4096]
-    - [648, 8519.63]
+    - [826, 8519.63]
   - - [1024, 3395, 1, 4096]
-    - [646, 8424.35]
+    - [824, 8424.35]
   - - [4096, 3282, 1, 1024]
-    - [626, 9743.67]
+    - [804, 9743.67]
   - - [1024, 3751, 1, 1024]
-    - [633, 8680.39]
+    - [811, 8680.39]
   - - [4096, 3145, 1, 1024]
-    - [628, 9353.37]
+    - [806, 9353.37]
   - - [4096, 3514, 1, 1024]
-    - [628, 9713.04]
+    - [806, 9713.04]
   - - [4096, 3944, 1, 1024]
-    - [628, 9563.92]
+    - [806, 9563.92]
   - - [1024, 3515, 1, 4096]
-    - [647, 8428.13]
+    - [825, 8428.13]
   - - [4096, 3409, 1, 1024]
-    - [627, 9428.77]
+    - [805, 9428.77]
   - - [4096, 3564, 1, 1024]
-    - [626, 9823.79]
+    - [804, 9823.79]
   - - [4096, 3299, 1, 1024]
-    - [628, 9793.03]
+    - [806, 9793.03]
   - - [1024, 3057, 1, 4096]
-    - [624, 9237.85]
+    - [802, 9237.85]
   - - [4096, 3531, 1, 1024]
-    - [626, 9745.64]
+    - [804, 9745.64]
   - - [4096, 3388, 1, 1024]
-    - [628, 9374.65]
+    - [806, 9374.65]
   - - [1024, 3189, 1, 4096]
-    - [648, 8084.6]
+    - [826, 8084.6]
   - - [1024, 3300, 1, 4096]
-    - [648, 8185.13]
+    - [826, 8185.13]
   - - [1024, 3720, 1, 4096]
-    - [627, 8755.11]
+    - [805, 8755.11]
   - - [1024, 3383, 1, 4096]
-    - [641, 8463.47]
+    - [819, 8463.47]
   - - [1024, 3494, 1, 4096]
-    - [648, 8676.57]
+    - [826, 8676.57]
   - - [77, 78, 816, 64]
-    - [664, 3548.26]
+    - [842, 3548.26]
   - - [1024, 3448, 1, 4096]
-    - [646, 8665.78]
+    - [824, 8665.78]
   - - [4096, 3542, 1, 1024]
-    - [626, 9771.88]
+    - [804, 9771.88]
   - - [1024, 3488, 1, 4096]
-    - [646, 8488.39]
+    - [824, 8488.39]
   - - [4096, 3405, 1, 1024]
-    - [628, 9426.16]
+    - [806, 9426.16]
   - - [1024, 3262, 1, 4096]
-    - [648, 8206.97]
+    - [826, 8206.97]
   - - [33708, 4005, 1, 1024]
-    - [629, 9928.16]
+    - [807, 9928.16]
   - - [1024, 3594, 1, 4096]
-    - [633, 8458.57]
+    - [811, 8458.57]
   - - [4096, 3103, 1, 1024]
-    - [629, 9243.14]
+    - [807, 9243.14]
   - - [4096, 3136, 1, 1024]
-    - [628, 9340.9]
+    - [806, 9340.9]
   - - [1024, 3378, 1, 4096]
-    - [649, 8432.45]
+    - [827, 8432.45]
   - - [10, 10, 5952, 64]
-    - [669, 523.353]
+    - [847, 523.353]
   - - [7, 7, 8192, 64]
-    - [669, 260.543]
+    - [847, 260.543]
   - - [4096, 3559, 1, 1024]
-    - [628, 9813.1]
+    - [806, 9813.1]
   - - [4096, 3368, 1, 1024]
-    - [629, 9328.66]
+    - [807, 9328.66]
   - - [4096, 3209, 1, 1024]
-    - [626, 9538.83]
+    - [804, 9538.83]
   - - [4096, 3322, 1, 1024]
-    - [628, 9839.58]
+    - [806, 9839.58]
   - - [1024, 3483, 1, 4096]
-    - [634, 8348.35]
+    - [812, 8348.35]
   - - [4096, 3473, 1, 1024]
-    - [627, 9605.79]
+    - [805, 9605.79]
   - - [4096, 3522, 1, 1024]
-    - [629, 9730.02]
+    - [807, 9730.02]
   - - [1024, 3532, 1, 4096]
-    - [647, 8474.32]
+    - [825, 8474.32]
   - - [4096, 3449, 1, 1024]
-    - [628, 9528.35]
+    - [806, 9528.35]
   - - [1024, 3351, 1, 4096]
-    - [649, 8311.23]
+    - [827, 8311.23]
   - - [1024, 3462, 1, 4096]
-    - [646, 8297.64]
+    - [824, 8297.64]
   - - [4096, 3396, 1, 1024]
-    - [628, 9400.25]
+    - [806, 9400.25]
   - - [132, 132, 480, 64]
-    - [674, 4089.84]
+    - [852, 4089.84]
   - - [111, 112, 576, 64]
-    - [660, 5529.7]
+    - [838, 5529.7]
   - - [1024, 3416, 1, 4096]
-    - [647, 8556.64]
+    - [825, 8556.64]
   - - [4096, 3469, 1, 1024]
-    - [629, 9598.77]
+    - [807, 9598.77]
   - - [1024, 3582, 1, 4096]
-    - [630, 8461.47]
+    - [808, 8461.47]
   - - [1024, 3230, 1, 4096]
-    - [647, 8188.94]
+    - [825, 8188.94]
   - - [1024, 3489, 1, 4096]
-    - [648, 8457.85]
+    - [826, 8457.85]
   - - [1024, 3427, 1, 4096]
-    - [648, 8566.59]
+    - [826, 8566.59]
   - - [1024, 3346, 1, 4096]
-    - [647, 8352.17]
+    - [825, 8352.17]
   - - [33708, 3977, 1, 1024]
-    - [629, 9868.5]
+    - [807, 9868.5]
   - - [4096, 3796, 1, 1024]
-    - [628, 9797.76]
+    - [806, 9797.76]
   - - [4096, 3176, 1, 1024]
-    - [628, 9435.39]
+    - [806, 9435.39]
   - - [4096, 3990, 1, 1024]
-    - [626, 9672.33]
+    - [804, 9672.33]
   - - [1024, 3257, 1, 4096]
-    - [649, 8225.17]
+    - [827, 8225.17]
   - - [4096, 3343, 1, 1024]
-    - [650, 9273.62]
+    - [828, 9273.62]
   - - [4096, 3440, 1, 1024]
-    - [626, 9501.48]
+    - [804, 9501.48]
   - - [33708, 4030, 1, 1024]
-    - [627, 9983.36]
+    - [805, 9983.36]
   - - [1024, 3190, 1, 4096]
-    - [648, 8192.11]
+    - [826, 8192.11]
   - - [1024, 3389, 1, 4096]
-    - [649, 8439.42]
+    - [827, 8439.42]
   - - [1024, 3500, 1, 4096]
-    - [647, 8556.12]
+    - [825, 8556.12]
   - - [1024, 3471, 1, 4096]
-    - [636, 8491.17]
+    - [814, 8491.17]
   - - [1024, 3438, 1, 4096]
-    - [649, 8567.95]
+    - [827, 8567.95]
   - - [4096, 3513, 1, 1024]
-    - [626, 9710.27]
+    - [804, 9710.27]
   - - [1024, 3562, 1, 4096]
-    - [641, 8608.94]
+    - [819, 8608.94]
   - - [4096, 3616, 1, 1024]
-    - [628, 9357.59]
+    - [806, 9357.59]
   - - [4096, 3955, 1, 1024]
-    - [627, 9589.71]
+    - [805, 9589.71]
   - - [1024, 3441, 1, 4096]
-    - [637, 8359.27]
+    - [815, 8359.27]
   - - [1024, 3236, 1, 4096]
-    - [651, 8022.6]
+    - [829, 8022.6]
   - - [1024, 3524, 1, 4096]
-    - [646, 8477.24]
+    - [824, 8477.24]
   - - [4096, 3460, 1, 1024]
-    - [626, 9581.96]
+    - [804, 9581.96]
   - - [16, 16, 3840, 64]
-    - [658, 1270.59]
+    - [836, 1270.59]
   - - [92, 93, 688, 64]
-    - [662, 4962.4]
+    - [840, 4962.4]
   - - [1024, 3384, 1, 4096]
-    - [637, 8409.39]
+    - [815, 8409.39]
   - - [4096, 3387, 1, 1024]
-    - [628, 9379.8]
+    - [806, 9379.8]
   - - [4096, 3436, 1, 1024]
-    - [626, 9491.93]
+    - [804, 9491.93]
   - - [4096, 3277, 1, 1024]
-    - [626, 9717.27]
+    - [804, 9717.27]
   - - [1024, 3457, 1, 4096]
-    - [646, 8279.22]
+    - [824, 8279.22]
   - - [1024, 3999, 1, 4096]
-    - [621, 9231.47]
+    - [799, 9231.47]
   - - [1024, 4032, 1, 4096]
-    - [630, 9443.62]
+    - [808, 9443.62]
   - - [4096, 3541, 1, 1024]
-    - [626, 9773.24]
+    - [804, 9773.24]
   - - [4096, 3334, 1, 1024]
-    - [626, 9242.79]
+    - [804, 9242.79]
   - - [1024, 3393, 1, 4096]
-    - [648, 8376.17]
+    - [826, 8376.17]
   - - [17, 17, 3632, 64]
-    - [670, 1425.77]
+    - [848, 1425.77]
   - - [1024, 3411, 1, 4096]
-    - [636, 8490.97]
+    - [814, 8490.97]
   - - [1024, 3822, 1, 1024]
-    - [633, 8773.44]
+    - [811, 8773.44]
   - - [1024, 3593, 1, 4096]
-    - [633, 8571.25]
+    - [811, 8571.25]
   - - [33708, 3822, 1, 1024]
-    - [627, 10056.8]
+    - [805, 10056.8]
   - - [4096, 3504, 1, 1024]
-    - [629, 9680.29]
+    - [807, 9680.29]
   - - [1024, 3163, 1, 4096]
-    - [648, 8014.43]
+    - [826, 8014.43]
   - - [1024, 3357, 1, 4096]
-    - [649, 8376.04]
+    - [827, 8376.04]
   - - [1024, 3906, 1, 4096]
-    - [630, 9108.22]
+    - [808, 9108.22]
   - - [4096, 3415, 1, 1024]
-    - [626, 9443.87]
+    - [804, 9443.87]
   - - [1024, 3406, 1, 4096]
-    - [649, 8451.64]
+    - [827, 8451.64]
   - - [4096, 3321, 1, 1024]
-    - [628, 9836.62]
+    - [806, 9836.62]
   - - [4096, 3584, 1, 1024]
-    - [629, 9915.93]
+    - [807, 9915.93]
   - - [1024, 2736, 1, 4096]
-    - [632, 8532.93]
+    - [810, 8532.93]
   - - [1024, 3110, 1, 4096]
-    - [649, 7889.29]
+    - [827, 7889.29]
   - - [33708, 3999, 1, 1024]
-    - [629, 9903.33]
+    - [807, 9903.33]
   - - [1024, 3093, 1, 4096]
-    - [647, 7919.35]
+    - [825, 7919.35]
   - - [4096, 3378, 1, 1024]
-    - [629, 9362.3]
+    - [807, 9362.3]
   - - [1024, 3543, 1, 4096]
-    - [643, 8438.16]
+    - [821, 8438.16]
   - - [33708, 3925, 1, 1024]
-    - [628, 10021.6]
+    - [806, 10021.6]
   - - [1024, 3352, 1, 4096]
-    - [649, 8333.82]
+    - [827, 8333.82]
   - - [4096, 3780, 1, 1024]
-    - [626, 9755.02]
+    - [804, 9755.02]
   - - [1024, 3990, 1, 4096]
-    - [623, 9251.02]
+    - [801, 9251.02]
   - - [4096, 3500, 1, 1024]
-    - [626, 9673.83]
+    - [804, 9673.83]
   - - [4096, 3996, 1, 1024]
-    - [627, 9694.5]
+    - [805, 9694.5]
   - - [1024, 3247, 1, 4096]
-    - [652, 8171.58]
+    - [830, 8171.58]
   - - [4096, 3395, 1, 1024]
-    - [628, 9392.04]
+    - [806, 9392.04]
   - - [1024, 3169, 1, 4096]
-    - [647, 7990.24]
+    - [825, 7990.24]
   - - [1024, 3088, 1, 4096]
-    - [647, 7890.36]
+    - [825, 7890.36]
   - - [1024, 3584, 1, 4096]
-    - [649, 8604.2]
+    - [827, 8604.2]
   - - [4096, 3093, 1, 1024]
-    - [628, 9224.88]
+    - [806, 9224.88]
   - - [1024, 3538, 1, 4096]
-    - [630, 8395.74]
+    - [808, 8395.74]
   - - [1024, 3996, 1, 1024]
-    - [631, 9208.33]
+    - [809, 9208.33]
   - - [1024, 3581, 1, 4096]
-    - [643, 8523.24]
+    - [821, 8523.24]
   - - [4096, 3374, 1, 1024]
-    - [628, 9342.81]
+    - [806, 9342.81]
   - - [33708, 3751, 1, 1024]
-    - [628, 9881.99]
+    - [806, 9881.99]
   - - [59, 59, 1088, 64]
-    - [666, 4515.54]
+    - [844, 4515.54]
   - - [4096, 3215, 1, 1024]
-    - [628, 9557.75]
+    - [806, 9557.75]
   - - [4096, 3312, 1, 1024]
-    - [626, 9834.4]
+    - [804, 9834.4]
   - - [4096, 3581, 1, 1024]
-    - [628, 9856.66]
+    - [806, 9856.66]
   - - [4096, 3479, 1, 1024]
-    - [628, 9620.35]
+    - [806, 9620.35]
   - - [4096, 3544, 1, 1024]
-    - [626, 9778.94]
+    - [804, 9778.94]
   - - [1024, 3870, 1, 1024]
-    - [631, 8935.26]
+    - [809, 8935.26]
   - - [1024, 3374, 1, 4096]
-    - [648, 8412.85]
+    - [826, 8412.85]
   - - [1024, 2967, 1, 4096]
-    - [631, 8982.97]
+    - [809, 8982.97]
   - - [41, 41, 1552, 64]
-    - [660, 2805.38]
+    - [838, 2805.38]
   - - [4096, 3455, 1, 1024]
-    - [626, 9538.89]
+    - [804, 9538.89]
   - - [4096, 3942, 1, 1024]
-    - [627, 9554.65]
+    - [805, 9554.65]
   - - [1024, 3528, 1, 4096]
-    - [646, 8438.47]
+    - [824, 8438.47]
   - - [4096, 3186, 1, 1024]
-    - [627, 9468.32]
+    - [805, 9468.32]
   - - [1024, 3976, 1, 1024]
-    - [631, 9167.08]
+    - [809, 9167.08]
   - - [1024, 3511, 1, 4096]
-    - [633, 8335.06]
+    - [811, 8335.06]
   - - [4096, 3573, 1, 1024]
-    - [626, 9855.33]
+    - [804, 9855.33]
   - - [4096, 3561, 1, 1024]
-    - [626, 9831.03]
+    - [804, 9831.03]
   - - [4096, 3418, 1, 1024]
-    - [627, 9450.68]
+    - [805, 9450.68]
   - - [33708, 3906, 1, 1024]
-    - [629, 9973.67]
+    - [807, 9973.67]
   - - [4096, 3259, 1, 1024]
-    - [626, 9685.26]
+    - [804, 9685.26]
   - - [4096, 3308, 1, 1024]
-    - [628, 9792.03]
+    - [806, 9792.03]
   - - [1024, 3419, 1, 4096]
-    - [648, 8514.53]
+    - [826, 8514.53]
   - - [1024, 3215, 1, 4096]
-    - [647, 8137.53]
+    - [825, 8137.53]
   - - [1024, 4030, 1, 4096]
-    - [629, 9290.76]
+    - [807, 9290.76]
   - - [4096, 3459, 1, 1024]
-    - [626, 9567.57]
+    - [804, 9567.57]
   - - [1024, 3572, 1, 4096]
-    - [646, 8501.43]
+    - [824, 8501.43]
   - - [1024, 3137, 1, 4096]
-    - [648, 7930.15]
+    - [826, 7930.15]
   - - [1024, 3312, 1, 4096]
-    - [649, 8378.6]
+    - [827, 8378.6]
   - - [1024, 3925, 1, 4096]
-    - [631, 9255.86]
+    - [809, 9255.86]
   - - [1024, 3453, 1, 4096]
-    - [648, 8630.76]
+    - [826, 8630.76]
   - - [4096, 3435, 1, 1024]
-    - [627, 9495.18]
+    - [805, 9495.18]
   - - [1024, 3176, 1, 4096]
-    - [648, 8087.23]
+    - [826, 8087.23]
   - - [1024, 3444, 1, 4096]
-    - [640, 8528.58]
+    - [818, 8528.58]
   - - [4096, 3975, 1, 1024]
-    - [629, 9645.34]
+    - [807, 9645.34]
   - - [4096, 3182, 1, 1024]
-    - [628, 9448.4]
+    - [806, 9448.4]
   - - [1024, 3475, 1, 4096]
-    - [647, 8404.87]
+    - [825, 8404.87]
   - - [9, 9, 6544, 64]
-    - [662, 425.854]
+    - [840, 425.854]
   - - [33708, 3955, 1, 1024]
-    - [629, 10088.4]
+    - [807, 10088.4]
   - - [4096, 3446, 1, 1024]
-    - [628, 9520.06]
+    - [806, 9520.06]
   - - [1024, 3138, 1, 4096]
-    - [647, 8053.44]
+    - [825, 8053.44]
   - - [1024, 3549, 1, 4096]
-    - [633, 8426.42]
+    - [811, 8426.42]
   - - [4096, 3287, 1, 1024]
-    - [629, 9751.34]
+    - [807, 9751.34]
   - - [1024, 3342, 1, 4096]
-    - [646, 8320.01]
+    - [824, 8320.01]
   - - [102, 102, 624, 64]
-    - [661, 4747.52]
+    - [839, 4747.52]
   - - [4096, 3519, 1, 1024]
-    - [628, 9716.1]
+    - [806, 9716.1]
   - - [4096, 3552, 1, 1024]
-    - [626, 9806.69]
+    - [804, 9806.69]
   - - [4096, 3859, 1, 1024]
-    - [626, 9369.94]
+    - [804, 9369.94]
   - - [33708, 3969, 1, 1024]
-    - [626, 9830.39]
+    - [804, 9830.39]
   - - [1024, 3369, 1, 4096]
-    - [647, 8379.26]
+    - [825, 8379.26]
   - - [4096, 3482, 1, 1024]
-    - [626, 9631.7]
+    - [804, 9631.7]
   - - [1024, 3306, 1, 4096]
-    - [649, 8320.06]
+    - [827, 8320.06]
   - - [1024, 3474, 1, 4096]
-    - [648, 8498.9]
+    - [826, 8498.9]
   - - [99, 99, 624, 64]
-    - [660, 4492.9]
+    - [838, 4492.9]
   - - [4096, 3377, 1, 1024]
-    - [626, 9369.92]
+    - [804, 9369.92]
   - - [4096, 3426, 1, 1024]
-    - [626, 9467.3]
+    - [804, 9467.3]
   - - [4096, 2935, 1, 1024]
-    - [627, 9423.74]
+    - [805, 9423.74]
   - - [4096, 3267, 1, 1024]
-    - [626, 9698.04]
+    - [804, 9698.04]
   - - [1024, 3299, 1, 4096]
-    - [647, 8264.76]
+    - [825, 8264.76]
   - - [1024, 3456, 1, 4096]
-    - [646, 8678.39]
+    - [824, 8678.39]
   - - [1024, 3280, 1, 4096]
-    - [647, 8220.69]
+    - [825, 8220.69]
   - - [1024, 3555, 1, 4096]
-    - [646, 8656.27]
+    - [824, 8656.27]
   - - [4096, 3499, 1, 1024]
-    - [628, 9663.93]
+    - [806, 9663.93]
   - - [4096, 3356, 1, 1024]
-    - [628, 9296.9]
+    - [806, 9296.9]
   - - [100, 102, 624, 64]
-    - [661, 4671.51]
+    - [839, 4671.51]
   - - [1024, 3412, 1, 4096]
-    - [649, 8538.05]
+    - [827, 8538.05]
   - - [1024, 2984, 1, 4096]
-    - [632, 9193.17]
+    - [810, 9193.17]
   - - [4096, 3141, 1, 1024]
-    - [628, 9349.43]
+    - [806, 9349.43]
   - - [4096, 3510, 1, 1024]
-    - [626, 9701.98]
+    - [804, 9701.98]
   - - [1024, 3995, 1, 1024]
-    - [630, 9243.4]
+    - [808, 9243.4]
   - - [1024, 3517, 1, 4096]
-    - [648, 8569.31]
+    - [826, 8569.31]
   - - [1024, 3455, 1, 4096]
-    - [648, 8560.67]
+    - [826, 8560.67]
   - - [1024, 3939, 1, 1024]
-    - [631, 9030.94]
+    - [809, 9030.94]
   - - [38, 38, 1680, 64]
-    - [660, 2459.84]
+    - [838, 2459.84]
   - - [1024, 3447, 1, 4096]
-    - [646, 8610.02]
+    - [824, 8610.02]
   - - [1024, 3969, 1, 4096]
-    - [633, 9097.33]
+    - [811, 9097.33]
   - - [4096, 3527, 1, 1024]
-    - [628, 9743.83]
+    - [806, 9743.83]
   - - [4096, 3336, 1, 1024]
-    - [628, 9248.33]
+    - [806, 9248.33]
   - - [1024, 3191, 1, 4096]
-    - [646, 8104.96]
+    - [824, 8104.96]
   - - [1024, 3302, 1, 4096]
-    - [647, 8245.09]
+    - [825, 8245.09]
   - - [1024, 3337, 1, 4096]
-    - [649, 8254.25]
+    - [827, 8254.25]
   - - [4096, 3290, 1, 1024]
-    - [628, 9759.13]
+    - [806, 9759.13]
   - - [1024, 3512, 1, 4096]
-    - [637, 8641.06]
+    - [815, 8641.06]
   - - [1024, 3433, 1, 4096]
-    - [647, 8444.7]
+    - [825, 8444.7]
   - - [4096, 3876, 1, 1024]
-    - [627, 9420.38]
+    - [805, 9420.38]
   - - [4096, 3490, 1, 1024]
-    - [628, 9641.11]
+    - [806, 9641.11]
   - - [4096, 3064, 1, 1024]
-    - [628, 9820.49]
+    - [806, 9820.49]
   - - [1024, 3508, 1, 4096]
-    - [643, 8442.24]
+    - [821, 8442.24]
   - - [1024, 3956, 1, 4096]
-    - [628, 9128.19]
+    - [806, 9128.19]
   - - [4096, 3417, 1, 1024]
-    - [628, 9448.41]
+    - [806, 9448.41]
   - - [1024, 3248, 1, 4096]
-    - [647, 8006.16]
+    - [825, 8006.16]
   - - [1024, 2499, 1, 4096]
-    - [647, 8155.19]
+    - [825, 8155.19]
   - - [1024, 3186, 1, 4096]
-    - [647, 8093.04]
+    - [825, 8093.04]
   - - [1024, 3180, 1, 4096]
-    - [649, 8097.02]
+    - [827, 8097.02]
   - - [4096, 3364, 1, 1024]
-    - [628, 9318.08]
+    - [806, 9318.08]
   - - [4096, 3976, 1, 1024]
-    - [628, 9654.47]
+    - [806, 9654.47]
   - - [4096, 3205, 1, 1024]
-    - [629, 9538.84]
+    - [807, 9538.84]
   - - [4096, 3318, 1, 1024]
-    - [626, 9838.29]
+    - [804, 9838.29]
   - - [1024, 3377, 1, 4096]
-    - [649, 8445.64]
+    - [827, 8445.64]
   - - [1024, 3485, 1, 4096]
-    - [646, 8368.83]
+    - [824, 8368.83]
   - - [4096, 3181, 1, 1024]
-    - [629, 9458.29]
+    - [807, 9458.29]
   - - [4096, 3550, 1, 1024]
-    - [626, 9783.14]
+    - [804, 9783.14]
   - - [1024, 3534, 1, 4096]
-    - [635, 8684.99]
+    - [813, 8684.99]
   - - [1024, 3860, 1, 1024]
-    - [630, 8923.18]
+    - [808, 8923.18]
   - - [160, 160, 400, 64]
-    - [673, 5797.69]
+    - [851, 5797.69]
   - - [4096, 3445, 1, 1024]
-    - [628, 9511.28]
+    - [806, 9511.28]
   - - [1024, 3391, 1, 4096]
-    - [649, 8541.77]
+    - [827, 8541.77]
   - - [1024, 3221, 1, 4096]
-    - [647, 8055.5]
+    - [825, 8055.5]
   - - [4096, 3079, 1, 1024]
-    - [626, 9181.04]
+    - [804, 9181.04]
   - - [4096, 3144, 1, 1024]
-    - [628, 9351.45]
+    - [806, 9351.45]
   - - [1024, 3270, 1, 4096]
-    - [648, 8367.63]
+    - [826, 8367.63]
   - - [1024, 3561, 1, 4096]
-    - [648, 8426.29]
+    - [826, 8426.29]
   - - [1024, 3480, 1, 4096]
-    - [635, 8465.0]
+    - [813, 8465.0]
   - - [4096, 3408, 1, 1024]
-    - [628, 9420.04]
+    - [806, 9420.04]
   - - [1024, 3418, 1, 4096]
-    - [649, 8481.02]
+    - [827, 8481.02]
   - - [4096, 3298, 1, 1024]
-    - [629, 9788.4]
+    - [807, 9788.4]
   - - [1024, 3640, 1, 1024]
-    - [632, 8435.44]
+    - [810, 8435.44]
   - - [1024, 3449, 1, 4096]
-    - [647, 8590.87]
+    - [825, 8590.87]
   - - [1024, 4020, 1, 4096]
-    - [625, 9168.13]
+    - [803, 9168.13]
   - - [4096, 3481, 1, 1024]
-    - [626, 9627.91]
+    - [804, 9627.91]
   - - [4096, 3530, 1, 1024]
-    - [628, 9734.68]
+    - [806, 9734.68]
   - - [1024, 3216, 1, 4096]
-    - [649, 8014.32]
+    - [827, 8014.32]
   - - [1024, 3840, 1, 1024]
-    - [632, 8908.37]
+    - [810, 8908.37]
   - - [1024, 3491, 1, 4096]
-    - [635, 8410.59]
+    - [813, 8410.59]
   - - [1024, 3154, 1, 4096]
-    - [648, 8095.69]
+    - [826, 8095.69]
   - - [4096, 3425, 1, 1024]
-    - [628, 9474.53]
+    - [806, 9474.53]
   - - [1024, 3348, 1, 4096]
-    - [646, 8202.9]
+    - [824, 8202.9]
   - - [1024, 3415, 1, 4096]
-    - [647, 8597.68]
+    - [825, 8597.68]
   - - [1024, 4026, 1, 1024]
-    - [630, 9279.09]
+    - [808, 9279.09]
   - - [1024, 3367, 1, 4096]
-    - [649, 8335.54]
+    - [827, 8335.54]
   - - [1024, 3259, 1, 4096]
-    - [649, 8285.3]
+    - [827, 8285.3]
   - - [1024, 3894, 1, 4096]
-    - [632, 9040.44]
+    - [810, 9040.44]
   - - [4096, 3355, 1, 1024]
-    - [627, 9291.67]
+    - [805, 9291.67]
   - - [4096, 3404, 1, 1024]
-    - [628, 9410.47]
+    - [806, 9410.47]
   - - [1024, 3308, 1, 4096]
-    - [649, 8336.3]
+    - [827, 8336.3]
   - - [4096, 3245, 1, 1024]
-    - [627, 9641.47]
+    - [805, 9641.47]
   - - [1024, 3502, 1, 4096]
-    - [648, 8375.9]
+    - [826, 8375.9]
   - - [33708, 4032, 1, 1024]
-    - [627, 9988.2]
+    - [805, 9988.2]
   - - [8, 8, 7280, 64]
-    - [664, 339.878]
+    - [842, 339.878]
   - - [1024, 3424, 1, 4096]
-    - [635, 8489.48]
+    - [813, 8489.48]
   - - [4096, 3509, 1, 1024]
-    - [627, 9702.29]
+    - [805, 9702.29]
   - - [4096, 3558, 1, 1024]
-    - [628, 9815.51]
+    - [806, 9815.51]
   - - [1024, 3900, 1, 1024]
-    - [631, 9014.05]
+    - [809, 9014.05]
   - - [1024, 2505, 1, 4096]
-    - [645, 8263.75]
+    - [823, 8263.75]
   - - [4096, 3472, 1, 1024]
-    - [626, 9609.61]
+    - [804, 9609.61]
   - - [1024, 3386, 1, 4096]
-    - [646, 8417.55]
+    - [824, 8417.55]
   - - [4096, 3383, 1, 1024]
-    - [628, 9364.77]
+    - [806, 9364.77]
   - - [4096, 3448, 1, 1024]
-    - [629, 9521.07]
+    - [807, 9521.07]
   - - [4096, 4030, 1, 1024]
-    - [629, 9771.56]
+    - [807, 9771.56]
   - - [4096, 3289, 1, 1024]
-    - [626, 9757.27]
+    - [804, 9757.27]
   - - [1024, 3459, 1, 4096]
-    - [648, 8422.12]
+    - [826, 8422.12]
   - - [1024, 2918, 1, 4096]
-    - [633, 9022.71]
+    - [811, 9022.71]
   - - [4096, 3489, 1, 1024]
-    - [626, 9641.9]
+    - [804, 9641.9]
   - - [4096, 3346, 1, 1024]
-    - [628, 9271.65]
+    - [806, 9271.65]
   - - [4096, 3572, 1, 1024]
-    - [628, 9829.82]
+    - [806, 9829.82]
   - - [1024, 3955, 1, 4096]
-    - [629, 9221.66]
+    - [807, 9221.66]
   - - [4096, 3236, 1, 1024]
-    - [626, 9620.72]
+    - [804, 9620.72]
   - - [4096, 3163, 1, 1024]
-    - [626, 9397.3]
+    - [804, 9397.3]
   - - [4096, 3468, 1, 1024]
-    - [626, 9601.58]
+    - [804, 9601.58]
   - - [1024, 3165, 1, 4096]
-    - [648, 7941.58]
+    - [826, 7941.58]
   - - [1024, 3276, 1, 4096]
-    - [648, 8244.96]
+    - [826, 8244.96]
   - - [1024, 3359, 1, 4096]
-    - [646, 8273.93]
+    - [824, 8273.93]
   - - [4096, 3363, 1, 1024]
-    - [628, 9315.8]
+    - [806, 9315.8]
   - - [1024, 3385, 1, 4096]
-    - [640, 8286.2]
+    - [818, 8286.2]
   - - [1024, 3207, 1, 4096]
-    - [649, 8144.02]
+    - [827, 8144.02]
   - - [1024, 3458, 1, 4096]
-    - [648, 8472.41]
+    - [826, 8472.41]
   - - [21, 21, 2976, 64]
-    - [664, 2083.3]
+    - [842, 2083.3]
   - - [4096, 3110, 1, 1024]
-    - [626, 9260.3]
+    - [804, 9260.3]
   - - [4096, 3925, 1, 1024]
-    - [629, 9526.66]
+    - [807, 9526.66]
   - - [1024, 3975, 1, 4096]
-    - [624, 9133.84]
+    - [802, 9133.84]
   - - [4096, 3549, 1, 1024]
-    - [628, 9793.77]
+    - [806, 9793.77]
   - - [4096, 3342, 1, 1024]
-    - [627, 9264.48]
+    - [805, 9264.48]
   - - [1024, 3859, 1, 1024]
-    - [630, 8933.47]
+    - [808, 8933.47]
   - - [1024, 3497, 1, 4096]
-    - [647, 8526.13]
+    - [825, 8526.13]
   - - [4096, 3280, 1, 1024]
-    - [628, 9733.32]
+    - [806, 9733.32]
   - - [1024, 3435, 1, 4096]
-    - [647, 8489.85]
+    - [825, 8489.85]
   - - [1024, 3354, 1, 4096]
-    - [647, 8248.83]
+    - [825, 8248.83]
   - - [4096, 3191, 1, 1024]
-    - [627, 9475.12]
+    - [805, 9475.12]
   - - [4096, 3512, 1, 1024]
-    - [626, 9701.37]
+    - [804, 9701.37]
   - - [1024, 3055, 1, 4096]
-    - [633, 9264.91]
+    - [811, 9264.91]
   - - [4096, 2499, 1, 1024]
-    - [628, 9574.06]
+    - [806, 9574.06]
   - - [1024, 3233, 1, 4096]
-    - [646, 8101.74]
+    - [824, 8101.74]
   - - [4096, 3423, 1, 1024]
-    - [629, 9463.5]
+    - [807, 9463.5]
   - - [1024, 3319, 1, 4096]
-    - [649, 8413.76]
+    - [827, 8413.76]
   - - [4096, 3297, 1, 1024]
-    - [626, 9782.66]
+    - [804, 9782.66]
   - - [4096, 3154, 1, 1024]
-    - [628, 9381.2]
+    - [806, 9381.2]
   - - [1024, 3540, 1, 4096]
-    - [649, 8507.53]
+    - [827, 8507.53]
   - - [1024, 3289, 1, 4096]
-    - [649, 8233.8]
+    - [827, 8233.8]
   - - [4096, 3529, 1, 1024]
-    - [628, 9741.15]
+    - [806, 9741.15]
   - - [4096, 3386, 1, 1024]
-    - [628, 9372.57]
+    - [806, 9372.57]
   - - [4096, 3276, 1, 1024]
-    - [626, 9713.76]
+    - [804, 9713.76]
   - - [1024, 3244, 1, 4096]
-    - [649, 8146.83]
+    - [827, 8146.83]
   - - [1024, 3182, 1, 4096]
-    - [646, 8115.12]
+    - [824, 8115.12]
   - - [4096, 3540, 1, 1024]
-    - [626, 9768.42]
+    - [804, 9768.42]
   - - [1024, 3360, 1, 4096]
-    - [648, 8353.31]
+    - [826, 8353.31]
   - - [1024, 3942, 1, 4096]
-    - [627, 9143.78]
+    - [805, 9143.78]
   - - [4096, 3403, 1, 1024]
-    - [629, 9412.18]
+    - [807, 9412.18]
   - - [4096, 3101, 1, 1024]
-    - [629, 9239.28]
+    - [807, 9239.28]
   - - [4096, 2918, 1, 1024]
-    - [628, 9373.75]
+    - [806, 9373.75]
   - - [1024, 3465, 1, 4096]
-    - [649, 8288.16]
+    - [827, 8288.16]
   - - [33708, 3780, 1, 1024]
-    - [628, 9971.91]
+    - [806, 9971.91]
   - - [4096, 3557, 1, 1024]
-    - [626, 9814.82]
+    - [804, 9814.82]
   - - [4096, 3414, 1, 1024]
-    - [626, 9436.63]
+    - [804, 9436.63]
   - - [1024, 3948, 1, 1024]
-    - [630, 9073.8]
+    - [808, 9073.8]
   - - [4096, 3320, 1, 1024]
-    - [628, 9834.77]
+    - [806, 9834.77]
   - - [4096, 2765, 1, 1024]
-    - [628, 9667.06]
+    - [806, 9667.06]
   - - [1024, 3978, 1, 4096]
-    - [623, 9109.6]
+    - [801, 9109.6]
   - - [4096, 3487, 1, 1024]
-    - [626, 9644.0]
+    - [804, 9644.0]
   - - [4096, 3520, 1, 1024]
-    - [628, 9728.08]
+    - [806, 9728.08]
   - - [1024, 3139, 1, 4096]
-    - [648, 7940.19]
+    - [826, 7940.19]
   - - [1024, 3314, 1, 4096]
-    - [646, 8294.01]
+    - [824, 8294.01]
   - - [4096, 3431, 1, 1024]
-    - [628, 9482.12]
+    - [806, 9482.12]
   - - [123, 122, 528, 64]
-    - [661, 6325.98]
+    - [839, 6325.98]
   - - [1024, 3446, 1, 4096]
-    - [642, 8468.34]
+    - [820, 8468.34]
   - - [1024, 4059, 1, 4096]
-    - [629, 9370.8]
+    - [807, 9370.8]
   - - [99, 102, 624, 64]
-    - [661, 4624.8]
+    - [839, 4624.8]
   - - [4096, 3345, 1, 1024]
-    - [626, 9271.32]
+    - [804, 9271.32]
   - - [4096, 3394, 1, 1024]
-    - [626, 9398.19]
+    - [804, 9398.19]
   - - [1024, 3927, 1, 1024]
-    - [631, 9041.38]
+    - [809, 9041.38]
   - - [4096, 3235, 1, 1024]
-    - [626, 9619.93]
+    - [804, 9619.93]
   - - [1024, 3328, 1, 4096]
-    - [647, 8406.09]
+    - [825, 8406.09]
   - - [33708, 3956, 1, 1024]
-    - [627, 10100.4]
+    - [805, 10100.4]
   - - [4096, 3467, 1, 1024]
-    - [628, 9586.66]
+    - [806, 9586.66]
   - - [1024, 3287, 1, 4096]
-    - [648, 8273.83]
+    - [826, 8273.83]
   - - [4096, 3214, 1, 1024]
-    - [629, 9557.49]
+    - [807, 9557.49]
   - - [4096, 3910, 1, 1024]
-    - [626, 9490.25]
+    - [804, 9490.25]
   - - [1024, 3780, 1, 1024]
-    - [633, 8706.0]
+    - [811, 8706.0]
   - - [1024, 3371, 1, 4096]
-    - [649, 8248.46]
+    - [827, 8248.46]
   - - [4096, 3478, 1, 1024]
-    - [629, 9619.62]
+    - [807, 9619.62]
   - - [1024, 3546, 1, 4096]
-    - [647, 8456.83]
+    - [825, 8456.83]
   - - [1024, 4012, 1, 1024]
-    - [630, 9253.34]
+    - [808, 9253.34]
   - - [4096, 3341, 1, 1024]
-    - [628, 9260.24]
+    - [806, 9260.24]
   - - [4096, 3454, 1, 1024]
-    - [626, 9533.62]
+    - [804, 9533.62]
   - - [4096, 3295, 1, 1024]
-    - [629, 9772.86]
+    - [807, 9772.86]
   - - [4096, 3072, 1, 1024]
-    - [626, 9887.23]
+    - [804, 9887.23]
   - - [1024, 3282, 1, 4096]
-    - [634, 8112.85]
+    - [812, 8112.85]
   - - [33708, 3720, 1, 1024]
-    - [629, 9818.85]
+    - [807, 9818.85]
   - - [1024, 3681, 1, 4096]
-    - [631, 8639.28]
+    - [809, 8639.28]
   - - [1024, 4050, 1, 4096]
-    - [629, 9291.93]
+    - [807, 9291.93]
   - - [4096, 3495, 1, 1024]
-    - [628, 9660.52]
+    - [806, 9660.52]
   - - [4096, 3560, 1, 1024]
-    - [627, 9813.8]
+    - [805, 9813.8]
   - - [4096, 3751, 1, 1024]
-    - [626, 9684.95]
+    - [804, 9684.95]
   - - [1024, 3414, 1, 4096]
-    - [647, 8555.72]
+    - [825, 8555.72]
   - - [33708, 3860, 1, 1024]
-    - [626, 9856.68]
+    - [804, 9856.68]
   - - [1024, 3325, 1, 4096]
-    - [636, 8261.21]
+    - [814, 8261.21]
   - - [4096, 3458, 1, 1024]
-    - [626, 9570.86]
+    - [804, 9570.86]
   - - [4096, 2967, 1, 1024]
-    - [626, 9544.61]
+    - [804, 9544.61]
   - - [1024, 3519, 1, 4096]
-    - [649, 8413.1]
+    - [827, 8413.1]
   - - [4096, 3385, 1, 1024]
-    - [628, 9367.34]
+    - [806, 9367.34]
   - - [4096, 3434, 1, 1024]
-    - [626, 9488.41]
+    - [804, 9488.41]
   - - [1024, 3552, 1, 4096]
-    - [647, 8456.13]
+    - [825, 8456.13]
   - - [4096, 3822, 1, 1024]
-    - [627, 9849.84]
+    - [805, 9849.84]
   - - [1024, 3544, 1, 4096]
-    - [646, 8494.56]
+    - [824, 8494.56]
   - - [4096, 3539, 1, 1024]
-    - [628, 9763.09]
+    - [806, 9763.09]
   - - [4096, 3332, 1, 1024]
-    - [626, 9232.36]
+    - [804, 9232.36]
   - - [1024, 3145, 1, 4096]
-    - [646, 8098.36]
+    - [824, 8098.36]
   - - [1024, 3535, 1, 4096]
-    - [634, 8592.8]
+    - [812, 8592.8]
   - - [1024, 3320, 1, 4096]
-    - [647, 8419.55]
+    - [825, 8419.55]
   - - [33708, 4012, 1, 1024]
-    - [629, 9940.2]
+    - [807, 9940.2]
   - - [4096, 3286, 1, 1024]
-    - [628, 9747.82]
+    - [806, 9747.82]
   - - [1024, 3514, 1, 4096]
-    - [647, 8653.69]
+    - [825, 8653.69]
   - - [93, 93, 688, 64]
-    - [668, 5005.79]
+    - [846, 5005.79]
   - - [1024, 2765, 1, 4096]
-    - [633, 8636.72]
+    - [811, 8636.72]
   - - [1024, 3452, 1, 4096]
-    - [646, 8445.87]
+    - [824, 8445.87]
   - - [4096, 3518, 1, 1024]
-    - [626, 9722.56]
+    - [804, 9722.56]
   - - [1024, 3529, 1, 4096]
-    - [646, 8444.32]
+    - [824, 8444.32]
   - - [4096, 3413, 1, 1024]
-    - [626, 9436.35]
+    - [804, 9436.35]
   - - [33708, 4050, 1, 1024]
-    - [628, 10026.7]
+    - [806, 10026.7]
   - - [1024, 3525, 1, 4096]
-    - [639, 8488.99]
+    - [817, 8488.99]
   - - [4096, 3303, 1, 1024]
-    - [626, 9791.05]
+    - [804, 9791.05]
   - - [1024, 3382, 1, 4096]
-    - [647, 8483.63]
+    - [825, 8483.63]
   - - [1024, 3390, 1, 4096]
-    - [646, 8552.81]
+    - [824, 8552.81]
   - - [1024, 3977, 1, 4096]
-    - [628, 9053.53]
+    - [806, 9053.53]
   - - [1024, 3184, 1, 4096]
-    - [646, 8008.81]
+    - [824, 8008.81]
   - - [4096, 3535, 1, 1024]
-    - [628, 9760.79]
+    - [806, 9760.79]
   - - [4096, 3376, 1, 1024]
-    - [629, 9341.93]
+    - [807, 9341.93]
   - - [4096, 3978, 1, 1024]
-    - [629, 9642.8]
+    - [807, 9642.8]
   - - [1024, 3136, 1, 4096]
-    - [648, 8085.12]
+    - [826, 8085.12]
   - - [1024, 3293, 1, 4096]
-    - [646, 8300.49]
+    - [824, 8300.49]
   - - [4096, 3266, 1, 1024]
-    - [627, 9691.78]
+    - [805, 9691.78]
   - - [1024, 3487, 1, 4096]
-    - [646, 8383.62]
+    - [824, 8383.62]
   - - [1024, 3409, 1, 4096]
-    - [648, 8493.25]
+    - [826, 8493.25]
   - - [4096, 3498, 1, 1024]
-    - [627, 9672.38]
+    - [805, 9672.38]
   - - [1024, 3520, 1, 4096]
-    - [649, 8488.26]
+    - [827, 8488.26]
   - - [1024, 3530, 1, 4096]
-    - [630, 8409.87]
+    - [808, 8409.87]
   - - [4096, 3393, 1, 1024]
-    - [628, 9395.43]
+    - [806, 9395.43]
   - - [4096, 3140, 1, 1024]
-    - [628, 9338.5]
+    - [806, 9338.5]
   - - [1024, 3536, 1, 4096]
-    - [649, 8642.11]
+    - [827, 8642.11]
   - - [1024, 3288, 1, 4096]
-    - [649, 8229.34]
+    - [827, 8229.34]
   - - [1024, 4005, 1, 4096]
-    - [631, 9271.04]
+    - [809, 9271.04]
   - - [1024, 3579, 1, 4096]
-    - [635, 8844.5]
+    - [813, 8844.5]
   - - [4096, 3372, 1, 1024]
-    - [626, 9339.25]
+    - [804, 9339.25]
   - - [1024, 3440, 1, 4096]
-    - [646, 8466.69]
+    - [824, 8466.69]
   - - [4096, 3213, 1, 1024]
-    - [629, 9558.85]
+    - [807, 9558.85]
   - - [123, 123, 528, 64]
-    - [661, 6333.59]
+    - [839, 6333.59]
   - - [100, 100, 624, 64]
-    - [660, 4584.12]
+    - [838, 4584.12]
   - - [1024, 3968, 1, 4096]
-    - [627, 9237.6]
+    - [805, 9237.6]
   - - [4096, 3477, 1, 1024]
-    - [627, 9618.88]
+    - [805, 9618.88]
   - - [4096, 3526, 1, 1024]
-    - [626, 9735.94]
+    - [804, 9735.94]
   - - [1024, 3493, 1, 4096]
-    - [647, 8355.13]
+    - [825, 8355.13]
   - - [1024, 3944, 1, 4096]
-    - [622, 9065.39]
+    - [800, 9065.39]
   - - [4096, 3453, 1, 1024]
-    - [627, 9533.37]
+    - [805, 9533.37]
   - - [1024, 3350, 1, 4096]
-    - [649, 8448.64]
+    - [827, 8448.64]
   - - [4096, 3184, 1, 1024]
-    - [628, 9447.38]
+    - [806, 9447.38]
   - - [1024, 3423, 1, 4096]
-    - [647, 8465.38]
+    - [825, 8465.38]
   - - [4096, 3351, 1, 1024]
-    - [626, 9282.06]
+    - [804, 9282.06]
   - - [4096, 3416, 1, 1024]
-    - [626, 9446.64]
+    - [804, 9446.64]
   - - [1024, 3796, 1, 4096]
-    - [628, 8820.34]
+    - [806, 8820.34]
   - - [4096, 3257, 1, 1024]
-    - [626, 9671.64]
+    - [804, 9671.64]
   - - [4096, 3306, 1, 1024]
-    - [628, 9795.51]
+    - [806, 9795.51]
   - - [33708, 4020, 1, 1024]
-    - [628, 9961.85]
+    - [806, 9961.85]
   - - [19, 19, 3264, 64]
-    - [658, 1736.09]
+    - [836, 1736.09]
   - - [1024, 3426, 1, 4096]
-    - [646, 8518.61]
+    - [824, 8518.61]
   - - [4096, 3457, 1, 1024]
-    - [626, 9564.56]
+    - [804, 9564.56]
   - - [1024, 2935, 1, 4096]
-    - [631, 9067.79]
+    - [809, 9067.79]
   - - [1024, 3046, 1, 4096]
-    - [631, 9242.97]
+    - [809, 9242.97]
   - - [4096, 3433, 1, 1024]
-    - [628, 9495.65]
+    - [806, 9495.65]
   - - [1024, 3256, 1, 4096]
-    - [649, 8224.23]
+    - [827, 8224.23]
   - - [1024, 3531, 1, 4096]
-    - [646, 8524.19]
+    - [824, 8524.19]
   - - [4096, 3180, 1, 1024]
-    - [626, 9443.53]
+    - [804, 9443.53]
   - - [1024, 3388, 1, 4096]
-    - [648, 8352.82]
+    - [826, 8352.82]
   - - [4096, 3444, 1, 1024]
-    - [629, 9511.03]
+    - [807, 9511.03]
   - - [1024, 3501, 1, 4096]
-    - [636, 8461.12]
+    - [814, 8461.12]
   - - [1024, 3266, 1, 4096]
-    - [634, 8147.44]
+    - [812, 8147.44]
   - - [1024, 3267, 1, 4096]
-    - [649, 8391.49]
+    - [827, 8391.49]
   - - [1024, 3461, 1, 4096]
-    - [633, 8270.29]
+    - [811, 8270.29]
   - - [4096, 3870, 1, 1024]
-    - [628, 9399.69]
+    - [806, 9399.69]
   - - [4096, 3517, 1, 1024]
-    - [626, 9725.43]
+    - [804, 9725.43]
   - - [1024, 3566, 1, 4096]
-    - [649, 8669.76]
+    - [827, 8669.76]
   - - [4096, 3574, 1, 1024]
-    - [626, 9844.63]
+    - [804, 9844.63]
   - - [1024, 3876, 1, 1024]
-    - [631, 8961.74]
+    - [809, 8961.74]
   - - [25, 25, 2512, 64]
-    - [657, 2472.54]
+    - [835, 2472.54]
   - - [4096, 3720, 1, 1024]
-    - [626, 9612.49]
+    - [804, 9612.49]
   - - [4096, 3248, 1, 1024]
-    - [628, 9644.92]
+    - [806, 9644.92]
   - - [4096, 4059, 1, 1024]
-    - [626, 9826.42]
+    - [804, 9826.42]
   - - [1024, 3380, 1, 4096]
-    - [647, 8677.91]
+    - [825, 8677.91]
   - - [4096, 3480, 1, 1024]
-    - [628, 9626.16]
+    - [806, 9626.16]
   - - [1024, 3335, 1, 4096]
-    - [648, 8302.18]
+    - [826, 8302.18]
   - - [1024, 3345, 1, 4096]
-    - [648, 8323.13]
+    - [826, 8323.13]
   - - [4096, 3391, 1, 1024]
-    - [626, 9379.48]
+    - [804, 9379.48]
   - - [4096, 3424, 1, 1024]
-    - [628, 9466.77]
+    - [806, 9466.77]
   - - [1024, 3394, 1, 4096]
-    - [634, 8373.91]
+    - [812, 8373.91]
   - - [4096, 3265, 1, 1024]
-    - [628, 9700.89]
+    - [806, 9700.89]
   - - [1024, 3014, 1, 4096]
-    - [631, 9303.09]
+    - [809, 9303.09]
   - - [4096, 3497, 1, 1024]
-    - [626, 9668.6]
+    - [804, 9668.6]
   - - [4096, 3354, 1, 1024]
-    - [628, 9294.31]
+    - [806, 9294.31]
   - - [4096, 3055, 1, 1024]
-    - [627, 9780.88]
+    - [805, 9780.88]
   - - [1024, 3499, 1, 4096]
-    - [640, 8527.04]
+    - [818, 8527.04]
   - - [1024, 3162, 1, 4096]
-    - [648, 8059.02]
+    - [826, 8059.02]
   - - [4096, 3244, 1, 1024]
-    - [628, 9636.86]
+    - [806, 9636.86]
   - - [1024, 3437, 1, 4096]
-    - [647, 8583.41]
+    - [825, 8583.41]
   - - [1024, 3356, 1, 4096]
-    - [649, 8296.95]
+    - [827, 8296.95]
   - - [4096, 3139, 1, 1024]
-    - [628, 9338.7]
+    - [806, 9338.7]
   - - [4096, 3508, 1, 1024]
-    - [628, 9700.54]
+    - [806, 9700.54]
   - - [1024, 3235, 1, 4096]
-    - [646, 8314.59]
+    - [824, 8314.59]
   - - [1024, 3910, 1, 4096]
-    - [633, 9200.21]
+    - [811, 9200.21]
   - - [4096, 3371, 1, 1024]
-    - [626, 9336.97]
+    - [804, 9336.97]
   - - [1024, 3751, 1, 4096]
-    - [633, 8827.67]
+    - [811, 8827.67]
   - - [4096, 3325, 1, 1024]
-    - [626, 9845.68]
+    - [804, 9845.68]
   - - [1024, 3413, 1, 4096]
-    - [634, 8345.78]
+    - [812, 8345.78]
   - - [1024, 3542, 1, 4096]
-    - [646, 8521.71]
+    - [824, 8521.71]
   - - [18, 18, 3440, 64]
-    - [662, 1578.24]
+    - [840, 1578.24]
   - - [101, 102, 624, 64]
-    - [660, 4705.28]
+    - [838, 4705.28]
   - - [33708, 3900, 1, 1024]
-    - [626, 9951.05]
+    - [804, 9951.05]
   - - [4096, 3525, 1, 1024]
-    - [627, 9744.47]
+    - [805, 9744.47]
   - - [4096, 3382, 1, 1024]
-    - [627, 9359.03]
+    - [805, 9359.03]
   - - [102, 100, 624, 64]
-    - [661, 4671.51]
+    - [839, 4671.51]
   - - [15, 15, 4096, 64]
-    - [665, 1129.17]
+    - [843, 1129.17]
   - - [1024, 3339, 1, 4096]
-    - [635, 8326.37]
+    - [813, 8326.37]
   - - [4096, 3288, 1, 1024]
-    - [628, 9761.48]
+    - [806, 9761.48]
   - - [92, 92, 688, 64]
-    - [668, 4903.87]
+    - [846, 4903.87]
   - - [1024, 3141, 1, 4096]
-    - [646, 7975.64]
+    - [824, 7975.64]
   - - [1024, 3168, 1, 4096]
-    - [646, 8083.74]
+    - [824, 8083.74]
   - - [4096, 3488, 1, 1024]
-    - [628, 9646.77]
+    - [806, 9646.77]
   - - [4096, 3046, 1, 1024]
-    - [627, 9767.58]
+    - [805, 9767.58]
   - - [1024, 3362, 1, 4096]
-    - [649, 8458.15]
+    - [827, 8458.15]
   - - [33708, 3942, 1, 1024]
-    - [627, 10060.4]
+    - [805, 10060.4]
   - - [4096, 3399, 1, 1024]
-    - [628, 9406.57]
+    - [806, 9406.57]
   - - [1024, 3720, 1, 1024]
-    - [630, 8639.16]
+    - [808, 8639.16]
   - - [4096, 3563, 1, 1024]
-    - [626, 9836.55]
+    - [804, 9836.55]
   - - [1024, 3273, 1, 4096]
-    - [649, 8221.62]
+    - [827, 8221.62]
   - - [4096, 3162, 1, 1024]
-    - [628, 9400.19]
+    - [806, 9400.19]
   - - [1024, 3467, 1, 4096]
-    - [647, 8342.42]
+    - [825, 8342.42]
   - - [1024, 3130, 1, 4096]
-    - [648, 7933.88]
+    - [826, 7933.88]
   - - [1024, 3405, 1, 4096]
-    - [655, 8406.59]
+    - [833, 8406.59]
   - - [4096, 3362, 1, 1024]
-    - [626, 9312.04]
+    - [804, 9312.04]
   - - [1024, 3960, 1, 1024]
-    - [630, 9082.26]
+    - [808, 9082.26]
   - - [2048, 128, 1, 4096]
-    - [680, 5986.62]
+    - [858, 5986.62]
   - - [1024, 3712, 1, 36548]
-    - [678, 9456.25]
+    - [856, 9456.25]
   - - [1024, 128, 1, 1024]
-    - [681, 3631.53]
+    - [859, 3631.53]
   - - [3072, 128, 1, 4096]
-    - [677, 6145.6]
+    - [855, 6145.6]
   - - [1024, 3712, 1, 1024]
-    - [679, 8933.98]
+    - [857, 8933.98]
+  - - [256, 256, 192, 64]
+    - [862, 8264.74]
+  - - [768, 4096, 1, 768]
+    - [875, 9642.18]
+  - - [768, 64, 1, 768]
+    - [872, 1850.53]
+  - - [768, 1280, 1, 768]
+    - [875, 8738.23]
+  - - [30522, 320, 1, 768]
+    - [876, 9733.69]
+  - - [128, 128, 96, 64]
+    - [865, 5470.93]
+  - - [2, 16, 1, 768]
+    - [868, 2.57742]
+  - - [30522, 1280, 1, 768]
+    - [874, 10128.0]
+  - - [30522, 640, 1, 768]
+    - [875, 9987.71]
+  - - [2, 8, 1, 768]
+    - [867, 1.06]
+  - - [768, 4096, 1, 3072]
+    - [877, 9479.51]
+  - - [768, 32, 1, 768]
+    - [871, 880.434]
+  - - [2, 64, 1, 768]
+    - [868, 10.09024]
+  - - [256, 256, 96, 64]
+    - [862, 7614.57]
+  - - [64, 64, 768, 64]
+    - [864, 5354.53]
+  - - [30522, 160, 1, 768]
+    - [873, 7740.21]
+  - - [768, 320, 1, 768]
+    - [866, 5423.77]
+  - - [128, 128, 384, 64]
+    - [863, 7180.08]
+  - - [768, 16, 1, 768]
+    - [869, 706.476]
+  - - [3072, 4096, 1, 768]
+    - [878, 9961.84]
+  - - [2048, 512, 1, 100]
+    - [880, 5180.81]
+  - - [1024, 200, 1, 560]
+    - [881, 4061.29]
+  - - [256, 1280, 1, 1024]
+    - [888, 4337.54]
+  - - [256, 44505, 1, 1024]
+    - [924, 8597.79]
+  - - [10240, 8976, 1, 256]
+    - [927, 9471.53]
+  - - [256, 7168, 1, 1024]
+    - [918, 6718.66]
+  - - [8448, 8976, 1, 256]
+    - [910, 9601.41]
+  - - [18944, 8976, 1, 256]
+    - [919, 9666.36]
+  - - [256, 19200, 1, 1024]
+    - [895, 7489.04]
+  - - [5632, 8976, 1, 256]
+    - [907, 9358.49]
+  - - [256, 23552, 1, 1024]
+    - [922, 7980.99]
+  - - [256, 6656, 1, 1024]
+    - [922, 6287.32]
+  - - [256, 14336, 1, 1024]
+    - [917, 7049.36]
+  - - [256, 12544, 1, 1024]
+    - [895, 6728.57]
+  - - [2048, 684, 1, 768]
+    - [912, 8479.28]
+  - - [5376, 8976, 1, 256]
+    - [907, 9519.61]
+  - - [256, 5888, 1, 1024]
+    - [927, 6012.5]
+  - - [19968, 8976, 1, 256]
+    - [919, 9684.77]
+  - - [3840, 8976, 1, 256]
+    - [904, 9461.99]
+  - - [4608, 8976, 1, 256]
+    - [904, 9305.92]
+  - - [256, 684, 1, 1024]
+    - [930, 3513.16]
+  - - [256, 22016, 1, 1024]
+    - [895, 7643.89]
+  - - [256, 23296, 1, 1024]
+    - [924, 8048.22]
+  - - [4864, 8976, 1, 256]
+    - [902, 9545.72]
+  - - [256, 7424, 1, 1024]
+    - [920, 6770.75]
+  - - [18176, 8976, 1, 256]
+    - [927, 9729.57]
+  - - [256, 15104, 1, 1024]
+    - [916, 7289.18]
+  - - [8192, 8976, 1, 256]
+    - [919, 9395.59]
+  - - [256, 16128, 1, 1024]
+    - [919, 7461.38]
+  - - [13312, 8976, 1, 256]
+    - [927, 9551.07]
+  - - [256, 21504, 1, 1024]
+    - [924, 7636.03]
+  - - [6400, 8976, 1, 256]
+    - [911, 9561.06]
+  - - [256, 8960, 1, 1024]
+    - [886, 6292.46]
+  - - [1792, 8976, 1, 256]
+    - [901, 9372.28]
+  - - [13824, 8976, 1, 256]
+    - [919, 9585.37]
+  - - [11776, 8976, 1, 256]
+    - [919, 9560.44]
+  - - [256, 20992, 1, 1024]
+    - [917, 7490.75]
+  - - [20480, 8976, 1, 256]
+    - [927, 9610.8]
+  - - [5888, 8976, 1, 256]
+    - [898, 9565.3]
+  - - [256, 10496, 1, 1024]
+    - [889, 6632.06]
+  - - [21248, 8976, 1, 256]
+    - [919, 9755.87]
+  - - [5120, 8976, 1, 256]
+    - [927, 9244.69]
+  - - [7168, 8976, 1, 256]
+    - [919, 9388.52]
+  - - [2048, 1536, 1, 768]
+    - [908, 9446.14]
+  - - [256, 8192, 1, 1024]
+    - [913, 6948.99]
+  - - [4096, 8976, 1, 256]
+    - [918, 9116.04]
+  - - [3328, 8976, 1, 256]
+    - [911, 9434.65]
+  - - [1280, 8976, 1, 256]
+    - [909, 9129.9]
+  - - [2560, 8976, 1, 256]
+    - [906, 9199.58]
+  - - [3072, 8976, 1, 256]
+    - [921, 8963.7]
+  - - [256, 11776, 1, 1024]
+    - [899, 6869.9]
+  - - [18688, 8976, 1, 256]
+    - [927, 9726.31]
+  - - [15104, 8976, 1, 256]
+    - [927, 9715.81]
+  - - [23552, 8976, 1, 256]
+    - [919, 9648.52]
+  - - [6144, 8976, 1, 256]
+    - [927, 9339.9]
+  - - [12544, 8976, 1, 256]
+    - [927, 9654.55]
+  - - [256, 11264, 1, 1024]
+    - [900, 6815.08]
+  - - [2048, 114, 1, 512]
+    - [931, 4583.6]
+  - - [4352, 8976, 1, 256]
+    - [911, 9471.5]
+  - - [15360, 8976, 1, 256]
+    - [927, 9583.87]
+  - - [256, 31488, 1, 1024]
+    - [926, 8438.11]
+  - - [28672, 8976, 1, 256]
+    - [919, 9688.95]
+  - - [256, 18176, 1, 1024]
+    - [895, 7405.19]
+  - - [9728, 8976, 1, 256]
+    - [927, 9524.25]
+  - - [256, 2816, 1, 1024]
+    - [891, 5405.76]
+  - - [256, 18944, 1, 1024]
+    - [895, 7503.51]
+  - - [256, 3584, 1, 1024]
+    - [894, 6107.25]
+  - - [7936, 8976, 1, 256]
+    - [907, 9608.41]
+  - - [19712, 8976, 1, 256]
+    - [927, 9736.35]
+  - - [256, 14848, 1, 1024]
+    - [900, 7163.52]
+  - - [256, 8448, 1, 1024]
+    - [900, 6372.66]
+  - - [256, 6400, 1, 1024]
+    - [914, 6395.81]
+  - - [256, 6144, 1, 1024]
+    - [925, 6490.32]
+  - - [9472, 8976, 1, 256]
+    - [904, 9610.02]
+  - - [256, 9984, 1, 1024]
+    - [887, 6484.85]
+  - - [684, 8976, 1, 256]
+    - [896, 8128.63]
+  - - [20992, 8976, 1, 256]
+    - [919, 9689.75]
+  - - [2048, 684, 1, 512]
+    - [903, 7241.88]
+  - - [2048, 114, 1, 768]
+    - [929, 4872.56]
+  - - [8960, 8976, 1, 256]
+    - [902, 9603.45]
+  - - [2048, 1536, 1, 512]
+    - [905, 8830.21]
+  - - [256, 3328, 1, 1024]
+    - [893, 5612.65]
+  - - [33536, 8976, 1, 256]
+    - [919, 9797.81]
+  - - [2048, 8976, 1, 256]
+    - [919, 8975.56]
+  - - [10496, 8976, 1, 256]
+    - [910, 9654.53]
+  - - [256, 5376, 1, 1024]
+    - [928, 5626.44]
+  - - [256, 21248, 1, 1024]
+    - [897, 7525.55]
+  - - [256, 13312, 1, 1024]
+    - [895, 6767.21]
+  - - [16128, 8976, 1, 256]
+    - [919, 9715.67]
+  - - [2304, 8976, 1, 256]
+    - [892, 9433.93]
+  - - [256, 4864, 1, 1024]
+    - [882, 5743.65]
+  - - [17152, 8976, 1, 256]
+    - [927, 9709.04]
+  - - [15872, 8976, 1, 256]
+    - [927, 9657.67]
+  - - [9984, 8976, 1, 256]
+    - [904, 9639.84]
+  - - [256, 14592, 1, 1024]
+    - [916, 7224.02]
+  - - [256, 33536, 1, 1024]
+    - [923, 8147.41]
+  - - [11264, 8976, 1, 256]
+    - [919, 9510.06]
+  - - [31488, 8976, 1, 256]
+    - [927, 9799.41]
+  - - [256, 20480, 1, 1024]
+    - [900, 7498.3]
+  - - [44505, 8976, 1, 256]
+    - [911, 9804.88]
+  - - [13568, 8976, 1, 256]
+    - [919, 9680.34]
+  - - [256, 11520, 1, 1024]
+    - [899, 6805.36]
+  - - [256, 7936, 1, 1024]
+    - [915, 6971.87]
+  - - [2048, 256, 1, 768]
+    - [885, 7129.23]
+  - - [256, 4608, 1, 1024]
+    - [883, 5463.01]
+  - - [256, 2304, 1, 1024]
+    - [890, 4842.79]
+  - - [256, 2560, 1, 1024]
+    - [891, 5309.35]
+  - - [2816, 8976, 1, 256]
+    - [902, 9409.66]
+  - - [1728, 320, 1, 64]
+    - [938, 3205.67]
+  - - [1152, 128, 1, 784]
+    - [985, 3499.06]
+  - - [576, 96, 1, 5329]
+    - [971, 3948.02]
+  - - [864, 96, 1, 1225]
+    - [992, 3009.77]
+  - - [256, 128, 1, 784]
+    - [982, 1536.59]
+  - - [1440, 320, 1, 196]
+    - [935, 4824.72]
+  - - [192, 48, 1, 1225]
+    - [1013, 820.565]
+  - - [2592, 384, 1, 289]
+    - [953, 7353.11]
+  - - [192, 80, 36, 10368]
+    - [1003, 5360.14]
+  - - [896, 192, 1, 289]
+    - [970, 3076.66]
+  - - [768, 128, 1, 289]
+    - [995, 2351.91]
+  - - [64, 256, 1, 3136]
+    - [1021, 1809.26]
+  - - [1280, 384, 1, 64]
+    - [935, 3171.2]
+  - - [512, 144, 1, 196]
+    - [993, 1445.17]
+  - - [1344, 192, 1, 289]
+    - [976, 4376.62]
+  - - [288, 64, 1, 21609]
+    - [987, 3396.22]
+  - - [400, 32, 1, 784]
+    - [1014, 922.453]
+  - - [288, 32, 1, 21609]
+    - [1025, 2816.11]
+  - - [1280, 448, 1, 64]
+    - [938, 3253.66]
+  - - [3456, 256, 1, 169]
+    - [950, 5822.54]
+  - - [2304, 256, 1, 196]
+    - [948, 4932.08]
+  - - [384, 192, 1, 1225]
+    - [996, 2720.49]
+  - - [832, 48, 1, 49]
+    - [991, 344.618]
+  - - [832, 192, 1, 49]
+    - [973, 1099.46]
+  - - [1280, 192, 1, 64]
+    - [974, 2069.66]
+  - - [192, 32, 1, 784]
+    - [1013, 459.727]
+  - - [288, 48, 1, 1225]
+    - [1020, 1176.1]
+  - - [512, 112, 1, 196]
+    - [988, 1277.31]
+  - - [224, 192, 36, 2592]
+    - [1005, 7369.66]
+  - - [528, 32, 1, 196]
+    - [979, 440.474]
+  - - [192, 128, 36, 1568]
+    - [1004, 8245.86]
+  - - [4032, 384, 1, 64]
+    - [949, 5898.34]
+  - - [576, 64, 1, 3136]
+    - [994, 2671.21]
+  - - [2048, 32, 1, 1001]
+    - [996, 2323.1]
+  - - [480, 64, 1, 196]
+    - [981, 752.74]
+  - - [512, 256, 1, 196]
+    - [983, 2528.65]
+  - - [864, 96, 1, 289]
+    - [993, 1958.5]
+  - - [896, 128, 1, 289]
+    - [996, 2725.83]
+  - - [192, 64, 1, 784]
+    - [1011, 898.775]
+  - - [1200, 64, 1, 1225]
+    - [995, 2780.24]
+  - - [1296, 288, 1, 196]
+    - [934, 3826.28]
+  - - [576, 96, 1, 5041]
+    - [975, 3795.68]
+  - - [1024, 256, 1, 289]
+    - [964, 4488.23]
+  - - [1024, 2048, 1, 49]
+    - [954, 5077.2]
+  - - [192, 64, 36, 6272]
+    - [998, 7515.08]
+  - - [4096, 512, 1, 4096]
+    - [960, 10276.1]
+  - - [192, 32, 1, 1225]
+    - [1014, 556.786]
+  - - [1024, 256, 1, 196]
+    - [974, 3892.54]
+  - - [1120, 192, 1, 289]
+    - [963, 3752.91]
+  - - [400, 48, 1, 196]
+    - [988, 480.1]
+  - - [1728, 224, 1, 1225]
+    - [941, 5575.87]
+  - - [800, 96, 1, 784]
+    - [995, 2669.04]
+  - - [1152, 384, 1, 64]
+    - [945, 3077.44]
+  - - [4608, 512, 1, 49]
+    - [952, 4676.7]
+  - - [1792, 256, 1, 289]
+    - [945, 5346.04]
+  - - [864, 128, 1, 784]
+    - [995, 3816.3]
+  - - [1728, 384, 1, 169]
+    - [947, 5191.78]
+  - - [480, 16, 1, 196]
+    - [1016, 241.331]
+  - - [1568, 256, 1, 289]
+    - [935, 4723.51]
+  - - [1152, 448, 1, 64]
+    - [941, 3356.82]
+  - - [512, 64, 1, 196]
+    - [980, 802.916]
+  - - [1344, 224, 1, 289]
+    - [935, 3519.73]
+  - - [9216, 512, 1, 4096]
+    - [958, 9146.12]
+  - - [27, 32, 1, 22201]
+    - [1026, 264.456]
+  - - [1152, 192, 1, 784]
+    - [965, 4904.18]
+  - - [1536, 256, 1, 64]
+    - [933, 2578.57]
+  - - [800, 128, 1, 196]
+    - [995, 1991.21]
+  - - [800, 64, 1, 196]
+    - [990, 1150.93]
+  - - [864, 208, 1, 196]
+    - [967, 2684.82]
+  - - [1440, 320, 1, 49]
+    - [936, 2313.54]
+  - - [512, 128, 1, 784]
+    - [986, 2780.42]
+  - - [720, 192, 1, 5041]
+    - [961, 5410.56]
+  - - [256, 64, 1, 784]
+    - [1018, 1163.6]
+  - - [256, 48, 1, 1225]
+    - [1013, 1075.3]
+  - - [576, 192, 1, 3136]
+    - [961, 4833.11]
+  - - [160, 64, 1, 5329]
+    - [1015, 1753.6]
+  - - [3456, 384, 1, 289]
+    - [955, 7341.85]
+  - - [32, 32, 36, 43808]
+    - [1009, 1378.13]
+  - - [1344, 512, 1, 64]
+    - [934, 3823.03]
+  - - [192, 16, 1, 784]
+    - [1014, 228.173]
+  - - [3456, 384, 1, 169]
+    - [951, 6675.12]
+  - - [1152, 256, 1, 196]
+    - [944, 3211.36]
+  - - [1728, 192, 1, 1225]
+    - [945, 4852.36]
+  - - [2048, 512, 1, 49]
+    - [957, 3471.74]
+  - - [576, 96, 1, 1225]
+    - [988, 2176.76]
+  - - [512, 2048, 1, 49]
+    - [939, 3845.93]
+  - - [1728, 192, 1, 64]
+    - [934, 2369.93]
+  - - [832, 256, 1, 49]
+    - [964, 1433.7]
+  - - [512, 128, 1, 196]
+    - [989, 1459.77]
+  - - [1200, 128, 1, 49]
+    - [984, 1069.19]
+  - - [528, 256, 1, 196]
+    - [972, 2069.86]
+  - - [256, 512, 1, 784]
+    - [995, 4538.99]
+  - - [480, 192, 1, 196]
+    - [995, 1792.1]
+  - - [96, 64, 36, 2592]
+    - [1002, 4845.51]
+  - - [96, 96, 36, 2592]
+    - [1007, 5111.63]
+  - - [1024, 192, 1, 289]
+    - [969, 3431.24]
+  - - [1536, 384, 1, 64]
+    - [940, 3166.94]
+  - - [192, 96, 1, 784]
+    - [980, 881.24]
+  - - [2048, 192, 1, 64]
+    - [937, 2330.27]
+  - - [192, 64, 1, 1225]
+    - [1019, 1100.45]
+  - - [512, 32, 1, 196]
+    - [1010, 477.967]
+  - - [128, 96, 36, 1568]
+    - [1006, 6649.19]
+  - - [528, 128, 1, 196]
+    - [992, 1403.33]
+  - - [128, 512, 1, 784]
+    - [982, 2237.91]
+  - - [128, 128, 36, 3136]
+    - [999, 6538.87]
+  - - [528, 160, 1, 196]
+    - [996, 1642.77]
+  - - [448, 64, 1, 5329]
+    - [971, 3264.91]
+  - - [1280, 320, 1, 64]
+    - [935, 2777.05]
+  - - [1792, 320, 1, 289]
+    - [947, 5205.0]
+  - - [2880, 320, 1, 64]
+    - [943, 4337.04]
+  - - [147, 64, 1, 12544]
+    - [1024, 2430.37]
+  - - [4096, 512, 1, 1001]
+    - [959, 9619.09]
+  - - [1536, 32, 1, 1001]
+    - [996, 1757.28]
+  - - [512, 160, 1, 196]
+    - [992, 1592.99]
+  - - [768, 160, 1, 289]
+    - [993, 2757.27]
+  - - [1728, 384, 1, 49]
+    - [945, 3102.59]
+  - - [64, 32, 36, 43808]
+    - [1000, 2626.53]
+  - - [64, 64, 1, 3136]
+    - [1012, 610.606]
+  - - [256, 32, 1, 784]
+    - [1013, 612.937]
+  - - [480, 96, 1, 196]
+    - [988, 1055.2]
+  - - [1024, 32, 1, 1001]
+    - [978, 1188.53]
+  - - [832, 160, 1, 49]
+    - [993, 959.347]
+  - - [512, 1024, 1, 196]
+    - [936, 4978.8]
+  - - [96, 64, 36, 10368]
+    - [1030, 5001.05]
+  - - [384, 448, 36, 512]
+    - [1035, 8903.1]
+  - - [2048, 64, 1, 1001]
+    - [1028, 4385.23]
+  - - [224, 192, 36, 5184]
+    - [1034, 7487.91]
+  - - [2048, 128, 1, 1001]
+    - [1027, 5764.73]
+  - - [96, 96, 36, 10368]
+    - [1036, 5275.31]
+  - - [192, 80, 36, 20736]
+    - [1032, 5409.5]
+  - - [96, 64, 36, 5184]
+    - [1030, 4911.93]
+  - - [1536, 64, 1, 1001]
+    - [1029, 3162.13]
+  - - [96, 64, 36, 20736]
+    - [1031, 5034.43]
+  - - [384, 448, 36, 256]
+    - [1033, 8815.97]
+  - - [96, 96, 36, 5184]
+    - [1037, 5236.12]
 - null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Ailk_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Ailk_BjlkC_CB.yaml
new file mode 100644
index 000000000..a18db1e4e
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Ailk_BjlkC_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 95.3262]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 95.4262]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Ailk_BjlkC_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Ailk_BjlkC_ZB.yaml
new file mode 100644
index 000000000..e0bd43b74
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Ailk_BjlkC_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 74.2624]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 74.3624]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Ailk_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Ailk_Bjlk_CB.yaml
new file mode 100644
index 000000000..45ba1e705
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Ailk_Bjlk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 98.1813]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 98.28129999999999]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Ailk_Bjlk_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Ailk_Bjlk_ZB.yaml
new file mode 100644
index 000000000..3e8e40558
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Ailk_Bjlk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 55.1309]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 55.2309]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Ailk_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Ailk_Bljk_CB.yaml
new file mode 100644
index 000000000..fea9d7cb1
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Ailk_Bljk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 86.661]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 86.761]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Ailk_Bljk_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Ailk_Bljk_ZB.yaml
new file mode 100644
index 000000000..ca8209d1c
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Ailk_Bljk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 73.8434]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 73.9434]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_AlikC_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_AlikC_BjlkC_CB.yaml
new file mode 100644
index 000000000..2a713ef20
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_AlikC_BjlkC_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 98.5504]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 98.65039999999999]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_AlikC_BjlkC_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_AlikC_BjlkC_ZB.yaml
new file mode 100644
index 000000000..fd7d3c6b5
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_AlikC_BjlkC_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: true
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 63.1677]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 63.267700000000005]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_AlikC_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_AlikC_Bjlk_CB.yaml
new file mode 100644
index 000000000..8076baf2b
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_AlikC_Bjlk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 87.091]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 87.19099999999999]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_AlikC_Bjlk_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_AlikC_Bjlk_ZB.yaml
new file mode 100644
index 000000000..eaa83de6f
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_AlikC_Bjlk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 67.477]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 67.577]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_AlikC_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_AlikC_Bljk_CB.yaml
new file mode 100644
index 000000000..edfeff8e1
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_AlikC_Bljk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 100.055]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 100.155]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_AlikC_Bljk_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_AlikC_Bljk_ZB.yaml
new file mode 100644
index 000000000..c7193004b
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_AlikC_Bljk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 54.614]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 54.714]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Alik_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Alik_BjlkC_CB.yaml
new file mode 100644
index 000000000..58f790973
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Alik_BjlkC_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 95.3251]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 95.4251]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Alik_BjlkC_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Alik_BjlkC_ZB.yaml
new file mode 100644
index 000000000..c3cc687af
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Alik_BjlkC_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 68.8053]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 68.9053]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Alik_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Alik_Bjlk_CB.yaml
new file mode 100644
index 000000000..021645d68
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Alik_Bjlk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 95.4998]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 95.59979999999999]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Alik_Bjlk_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Alik_Bjlk_ZB.yaml
new file mode 100644
index 000000000..3d4595e89
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Alik_Bjlk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 54.1627]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 54.2627]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Alik_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Alik_Bljk_CB.yaml
new file mode 100644
index 000000000..beeaa8416
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Alik_Bljk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 83.8878]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 83.9878]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Alik_Bljk_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Alik_Bljk_ZB.yaml
new file mode 100644
index 000000000..d532fa4ad
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/hip_Cijk_Alik_Bljk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 72.1173]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 72.2173]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bjlk_DB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bjlk_DB.yaml
index f86d065a6..5db250b38 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bjlk_DB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bjlk_DB.yaml
@@ -2,7 +2,7 @@
 - vega10
 - gfx900
 - [Device 6863, Device 6862, Device 687f, Device 6860, Device 6861, 'Vega 10 XTX [Radeon
-    Vega Frontier Edition]', 'Vega [Radeon RX Vega]']
+    Vega Frontier Edition]', 'Vega [Radeon RX Vega]','Vega 10 XT [Radeon RX Vega 64]']
 - AssignedDerivedParameters: true
   Batched: true
   ComplexConjugateA: false
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bjlk_HB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bjlk_HB.yaml
index 8a00257e5..83717d930 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bjlk_HB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bjlk_HB.yaml
@@ -2,7 +2,7 @@
 - vega10
 - gfx900
 - [Device 6863, Device 6862, Device 687f, Device 6860, Device 6861, 'Vega 10 XTX [Radeon
-    Vega Frontier Edition]', 'Vega [Radeon RX Vega]']
+    Vega Frontier Edition]', 'Vega [Radeon RX Vega]','Vega 10 XT [Radeon RX Vega 64]']
 - AssignedDerivedParameters: true
   Batched: true
   ComplexConjugateA: false
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bjlk_HBH.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bjlk_HBH.yaml
index 7acfc13c6..31d4b16cd 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bjlk_HBH.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bjlk_HBH.yaml
@@ -2,7 +2,7 @@
 - vega10
 - gfx900
 - [Device 6863, Device 6862, Device 687f, Device 6860, Device 6861, 'Vega 10 XTX [Radeon
-    Vega Frontier Edition]', 'Vega [Radeon RX Vega]']
+    Vega Frontier Edition]', 'Vega [Radeon RX Vega]','Vega 10 XT [Radeon RX Vega 64]']
 - AssignedDerivedParameters: true
   Batched: true
   ComplexConjugateA: false
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bjlk_SB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bjlk_SB.yaml
index c46f8f895..c239ee313 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bjlk_SB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bjlk_SB.yaml
@@ -2,7 +2,7 @@
 - vega10
 - gfx900
 - [Device 6863, Device 6862, Device 687f, Device 6860, Device 6861, 'Vega 10 XTX [Radeon
-    Vega Frontier Edition]', 'Vega [Radeon RX Vega]']
+    Vega Frontier Edition]', 'Vega [Radeon RX Vega]','Vega 10 XT [Radeon RX Vega 64]']
 - AssignedDerivedParameters: true
   Batched: true
   ComplexConjugateA: false
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bljk_DB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bljk_DB.yaml
index 14a60663f..73cf76f4c 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bljk_DB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bljk_DB.yaml
@@ -2,7 +2,7 @@
 - vega10
 - gfx900
 - [Device 6863, Device 6862, Device 687f, Device 6860, Device 6861, 'Vega 10 XTX [Radeon
-    Vega Frontier Edition]', 'Vega [Radeon RX Vega]']
+    Vega Frontier Edition]', 'Vega [Radeon RX Vega]','Vega 10 XT [Radeon RX Vega 64]']
 - AssignedDerivedParameters: true
   Batched: true
   ComplexConjugateA: false
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bljk_HB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bljk_HB.yaml
index 4b895f3df..2efc153ce 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bljk_HB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bljk_HB.yaml
@@ -2,7 +2,7 @@
 - vega10
 - gfx900
 - [Device 6863, Device 6862, Device 687f, Device 6860, Device 6861, 'Vega 10 XTX [Radeon
-    Vega Frontier Edition]', 'Vega [Radeon RX Vega]']
+    Vega Frontier Edition]', 'Vega [Radeon RX Vega]','Vega 10 XT [Radeon RX Vega 64]']
 - AssignedDerivedParameters: true
   Batched: true
   ComplexConjugateA: false
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bljk_HBH.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bljk_HBH.yaml
index 6121b12a5..555b71f3a 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bljk_HBH.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bljk_HBH.yaml
@@ -2,7 +2,7 @@
 - vega10
 - gfx900
 - [Device 6863, Device 6862, Device 687f, Device 6860, Device 6861, 'Vega 10 XTX [Radeon
-    Vega Frontier Edition]', 'Vega [Radeon RX Vega]']
+    Vega Frontier Edition]', 'Vega [Radeon RX Vega]','Vega 10 XT [Radeon RX Vega 64]']
 - AssignedDerivedParameters: true
   Batched: true
   ComplexConjugateA: false
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bljk_SB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bljk_SB.yaml
index 0d1afde25..172371940 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bljk_SB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Ailk_Bljk_SB.yaml
@@ -2,7 +2,7 @@
 - vega10
 - gfx900
 - [Device 6863, Device 6862, Device 687f, Device 6860, Device 6861, 'Vega 10 XTX [Radeon
-    Vega Frontier Edition]', 'Vega [Radeon RX Vega]']
+    Vega Frontier Edition]', 'Vega [Radeon RX Vega]','Vega 10 XT [Radeon RX Vega 64]']
 - AssignedDerivedParameters: true
   Batched: true
   ComplexConjugateA: false
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bjlk_DB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bjlk_DB.yaml
index 08f42a312..907e420ec 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bjlk_DB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bjlk_DB.yaml
@@ -2,7 +2,7 @@
 - vega10
 - gfx900
 - [Device 6863, Device 6862, Device 687f, Device 6860, Device 6861, 'Vega 10 XTX [Radeon
-    Vega Frontier Edition]', 'Vega [Radeon RX Vega]']
+    Vega Frontier Edition]', 'Vega [Radeon RX Vega]','Vega 10 XT [Radeon RX Vega 64]']
 - AssignedDerivedParameters: true
   Batched: true
   ComplexConjugateA: false
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bjlk_HB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bjlk_HB.yaml
index fc4bc4a45..3687403aa 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bjlk_HB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bjlk_HB.yaml
@@ -2,7 +2,7 @@
 - vega10
 - gfx900
 - [Device 6863, Device 6862, Device 687f, Device 6860, Device 6861, 'Vega 10 XTX [Radeon
-    Vega Frontier Edition]', 'Vega [Radeon RX Vega]']
+    Vega Frontier Edition]', 'Vega [Radeon RX Vega]','Vega 10 XT [Radeon RX Vega 64]']
 - AssignedDerivedParameters: true
   Batched: true
   ComplexConjugateA: false
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bjlk_HBH.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bjlk_HBH.yaml
index 9c737c6f6..4c764cc74 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bjlk_HBH.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bjlk_HBH.yaml
@@ -2,7 +2,7 @@
 - vega10
 - gfx900
 - [Device 6863, Device 6862, Device 687f, Device 6860, Device 6861, 'Vega 10 XTX [Radeon
-    Vega Frontier Edition]', 'Vega [Radeon RX Vega]']
+    Vega Frontier Edition]', 'Vega [Radeon RX Vega]','Vega 10 XT [Radeon RX Vega 64]']
 - AssignedDerivedParameters: true
   Batched: true
   ComplexConjugateA: false
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bjlk_SB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bjlk_SB.yaml
index de9f7be42..6fd579879 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bjlk_SB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bjlk_SB.yaml
@@ -2,7 +2,7 @@
 - vega10
 - gfx900
 - [Device 6863, Device 6862, Device 687f, Device 6860, Device 6861, 'Vega 10 XTX [Radeon
-    Vega Frontier Edition]', 'Vega [Radeon RX Vega]']
+    Vega Frontier Edition]', 'Vega [Radeon RX Vega]','Vega 10 XT [Radeon RX Vega 64]']
 - AssignedDerivedParameters: true
   Batched: true
   ComplexConjugateA: false
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bljk_DB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bljk_DB.yaml
index 1e1f78cf7..f9de9845f 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bljk_DB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bljk_DB.yaml
@@ -2,7 +2,7 @@
 - vega10
 - gfx900
 - [Device 6863, Device 6862, Device 687f, Device 6860, Device 6861, 'Vega 10 XTX [Radeon
-    Vega Frontier Edition]', 'Vega [Radeon RX Vega]']
+    Vega Frontier Edition]', 'Vega [Radeon RX Vega]','Vega 10 XT [Radeon RX Vega 64]']
 - AssignedDerivedParameters: true
   Batched: true
   ComplexConjugateA: false
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bljk_HB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bljk_HB.yaml
index 265a85210..6f403aedc 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bljk_HB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bljk_HB.yaml
@@ -2,7 +2,7 @@
 - vega10
 - gfx900
 - [Device 6863, Device 6862, Device 687f, Device 6860, Device 6861, 'Vega 10 XTX [Radeon
-    Vega Frontier Edition]', 'Vega [Radeon RX Vega]']
+    Vega Frontier Edition]', 'Vega [Radeon RX Vega]','Vega 10 XT [Radeon RX Vega 64]']
 - AssignedDerivedParameters: true
   Batched: true
   ComplexConjugateA: false
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bljk_HBH.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bljk_HBH.yaml
index 0940f9ca0..a54f129d0 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bljk_HBH.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bljk_HBH.yaml
@@ -2,7 +2,7 @@
 - vega10
 - gfx900
 - [Device 6863, Device 6862, Device 687f, Device 6860, Device 6861, 'Vega 10 XTX [Radeon
-    Vega Frontier Edition]', 'Vega [Radeon RX Vega]']
+    Vega Frontier Edition]', 'Vega [Radeon RX Vega]','Vega 10 XT [Radeon RX Vega 64]']
 - AssignedDerivedParameters: true
   Batched: true
   ComplexConjugateA: false
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bljk_SB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bljk_SB.yaml
index e49158315..6d1ba88f1 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bljk_SB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega10_Cijk_Alik_Bljk_SB.yaml
@@ -2,7 +2,7 @@
 - vega10
 - gfx900
 - [Device 6863, Device 6862, Device 687f, Device 6860, Device 6861, 'Vega 10 XTX [Radeon
-    Vega Frontier Edition]', 'Vega [Radeon RX Vega]']
+    Vega Frontier Edition]', 'Vega [Radeon RX Vega]','Vega 10 XT [Radeon RX Vega 64]']
 - AssignedDerivedParameters: true
   Batched: true
   ComplexConjugateA: false
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Ailk_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Ailk_BjlkC_CB.yaml
new file mode 100644
index 000000000..5f6cc9c50
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Ailk_BjlkC_CB.yaml
@@ -0,0 +1,493 @@
+- MinimumRequiredVersion: 4.10.0
+- vega20
+- gfx906
+- - Device 66a0
+  - Device 66a1
+  - Device 66a7
+  - Vega 20
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA:
+  - 0
+  - 3
+  - 2
+  IndexAssignmentsB:
+  - 1
+  - 3
+  - 2
+  IndexAssignmentsLD:
+  - 4
+  - 5
+  - 6
+  - 7
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch:
+  - 2
+  IndicesFree:
+  - 0
+  - 1
+  IndicesSummation:
+  - 3
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 0
+      - 3
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_BjlkC_CB_MT64x64x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 0
+      - 3
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_BjlkC_CB_MT64x64x4_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+- - 2
+  - 3
+  - 0
+  - 1
+- - - - 64
+      - 64
+      - 1
+      - 256
+      - 64
+      - 64
+      - 64
+      - 64
+    - - 0
+      - 101.902
+  - - - 1
+      - 1
+      - 1
+      - 256
+      - 1
+      - 1
+      - 1
+      - 1
+    - - 1
+      - 0.0264736
+  - - - 1
+      - 64
+      - 1
+      - 256
+      - 1
+      - 1
+      - 1
+      - 64
+    - - 1
+      - 1.83883
+  - - - 64
+      - 1
+      - 1
+      - 256
+      - 64
+      - 64
+      - 64
+      - 1
+    - - 1
+      - 1.69782
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Ailk_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Ailk_Bjlk_CB.yaml
new file mode 100644
index 000000000..1daf7c48e
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Ailk_Bjlk_CB.yaml
@@ -0,0 +1,493 @@
+- MinimumRequiredVersion: 4.10.0
+- vega20
+- gfx906
+- - Device 66a0
+  - Device 66a1
+  - Device 66a7
+  - Vega 20
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA:
+  - 0
+  - 3
+  - 2
+  IndexAssignmentsB:
+  - 1
+  - 3
+  - 2
+  IndexAssignmentsLD:
+  - 4
+  - 5
+  - 6
+  - 7
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch:
+  - 2
+  IndicesFree:
+  - 0
+  - 1
+  IndicesSummation:
+  - 3
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 0
+      - 3
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bjlk_CB_MT64x64x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 0
+      - 3
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bjlk_CB_MT64x64x4_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+- - 2
+  - 3
+  - 0
+  - 1
+- - - - 64
+      - 64
+      - 1
+      - 256
+      - 64
+      - 64
+      - 64
+      - 64
+    - - 0
+      - 118.888
+  - - - 1
+      - 1
+      - 1
+      - 256
+      - 1
+      - 1
+      - 1
+      - 1
+    - - 1
+      - 0.0263646
+  - - - 1
+      - 64
+      - 1
+      - 256
+      - 1
+      - 1
+      - 1
+      - 64
+    - - 1
+      - 1.8576
+  - - - 64
+      - 1
+      - 1
+      - 256
+      - 64
+      - 64
+      - 64
+      - 1
+    - - 1
+      - 1.83678
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Ailk_Bjlk_SB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Ailk_Bjlk_SB.yaml
index 520f17834..e04f05ccb 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Ailk_Bjlk_SB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Ailk_Bjlk_SB.yaml
@@ -172,7 +172,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: &id001 [2, 2]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -183,7 +183,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id007 [16, 4, 1]
+    WorkGroup: [16, 4, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -320,7 +320,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -331,7 +331,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id002 [8, 8, 1]
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -468,7 +468,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id003 [4, 2]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -479,7 +479,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -616,7 +616,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id005 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -627,7 +627,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -764,7 +764,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -775,7 +775,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id004 [16, 8, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -912,7 +912,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -923,7 +923,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1060,7 +1060,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -1071,7 +1071,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1208,7 +1208,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -1219,7 +1219,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1356,7 +1356,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -1367,7 +1367,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1504,7 +1504,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -1515,7 +1515,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1652,7 +1652,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -1663,7 +1663,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1800,7 +1800,7 @@
     SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -1811,7 +1811,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id006 [32, 4, 1]
+    WorkGroup: [32, 4, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1948,7 +1948,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -1959,7 +1959,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2096,7 +2096,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -2107,7 +2107,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2244,7 +2244,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -2255,7 +2255,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2392,7 +2392,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -2403,7 +2403,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2540,7 +2540,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -2551,7 +2551,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id004
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2688,7 +2688,7 @@
     SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -2699,7 +2699,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006
+    WorkGroup: [32, 4, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2836,7 +2836,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -2847,7 +2847,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id007
+    WorkGroup: [16, 4, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2984,7 +2984,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -2995,7 +2995,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3132,7 +3132,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -3143,7 +3143,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3280,7 +3280,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id009 [2, 2]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -3291,7 +3291,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id008 [8, 8, 2]
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3428,7 +3428,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id010 [4, 2]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -3439,7 +3439,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3576,7 +3576,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -3587,7 +3587,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3724,7 +3724,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -3735,7 +3735,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3872,7 +3872,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -3883,7 +3883,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4020,7 +4020,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -4031,7 +4031,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4168,7 +4168,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id013 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -4179,7 +4179,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4316,7 +4316,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id015 [8, 4]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -4327,7 +4327,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4464,7 +4464,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -4475,7 +4475,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id011 [8, 8, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4612,7 +4612,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -4623,7 +4623,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4760,7 +4760,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -4771,7 +4771,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id012 [16, 8, 2]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4908,7 +4908,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -4919,7 +4919,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id012
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5056,7 +5056,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -5067,7 +5067,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id014 [16, 4, 4]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5204,7 +5204,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -5215,7 +5215,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5352,7 +5352,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -5363,7 +5363,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5500,7 +5500,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -5511,7 +5511,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5648,7 +5648,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -5659,7 +5659,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5796,7 +5796,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -5807,7 +5807,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5944,7 +5944,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -5955,7 +5955,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id012
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6092,7 +6092,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -6103,7 +6103,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6240,7 +6240,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -6251,7 +6251,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6388,7 +6388,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -6399,7 +6399,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6536,7 +6536,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -6547,7 +6547,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6684,7 +6684,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -6695,7 +6695,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6832,7 +6832,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -6843,7 +6843,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6980,7 +6980,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -6991,7 +6991,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7128,7 +7128,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -7139,7 +7139,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7276,7 +7276,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -7287,7 +7287,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7424,7 +7424,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -7435,7 +7435,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7572,7 +7572,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -7583,7 +7583,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id012
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7731,7 +7731,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7868,7 +7868,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -7879,7 +7879,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8016,7 +8016,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -8027,7 +8027,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id008
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8164,7 +8164,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -8175,7 +8175,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8312,7 +8312,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -8323,7 +8323,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8460,7 +8460,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -8471,7 +8471,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8608,7 +8608,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -8619,7 +8619,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8756,7 +8756,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -8767,7 +8767,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8904,7 +8904,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -8915,7 +8915,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9052,7 +9052,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -9063,7 +9063,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9200,7 +9200,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -9211,7 +9211,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9348,7 +9348,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -9359,7 +9359,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9496,7 +9496,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -9507,7 +9507,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9644,7 +9644,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -9655,7 +9655,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9803,7 +9803,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id016 [16, 16, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9940,7 +9940,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id017 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -9951,7 +9951,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10088,7 +10088,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id018 [4, 8]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -10099,7 +10099,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10236,7 +10236,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id019 [8, 4]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -10247,7 +10247,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10384,7 +10384,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id017
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -10395,7 +10395,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10532,7 +10532,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -10543,7 +10543,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10680,7 +10680,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -10691,7 +10691,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10828,7 +10828,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: &id020 [8, 8]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -10839,7 +10839,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id021 [16, 16, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10976,7 +10976,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id020
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -10987,7 +10987,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11124,7 +11124,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: &id022 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -11135,7 +11135,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11272,7 +11272,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: &id023 [4, 8]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -11283,7 +11283,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11420,7 +11420,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: &id024 [6, 8]
+    ThreadTile: [6, 8]
     ThreadTile0: 6
     ThreadTile1: 8
     ThreadTileA: 6
@@ -11431,7 +11431,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11568,7 +11568,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: &id025 [8, 4]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -11579,7 +11579,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11716,7 +11716,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: &id026 [8, 6]
+    ThreadTile: [8, 6]
     ThreadTile0: 8
     ThreadTile1: 6
     ThreadTileA: 8
@@ -11727,7 +11727,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11864,7 +11864,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id020
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -11875,7 +11875,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12012,7 +12012,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id022
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -12023,7 +12023,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12160,7 +12160,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id023
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -12171,7 +12171,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12308,7 +12308,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id024
+    ThreadTile: [6, 8]
     ThreadTile0: 6
     ThreadTile1: 8
     ThreadTileA: 6
@@ -12319,7 +12319,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12456,7 +12456,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id025
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -12467,7 +12467,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12604,7 +12604,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id026
+    ThreadTile: [8, 6]
     ThreadTile0: 8
     ThreadTile1: 6
     ThreadTileA: 8
@@ -12615,7 +12615,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12752,7 +12752,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id020
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -12763,7 +12763,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12911,7 +12911,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id027 [8, 8, 1]
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13059,7 +13059,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id027
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13196,7 +13196,7 @@
     SubGroupA: 4
     SubGroupB: 4
     SuppresssNoLoadLoop: true
-    ThreadTile: &id028 [2, 2]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -13207,7 +13207,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id029 [4, 4, 4]
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13344,7 +13344,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: true
-    ThreadTile: *id028
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -13355,7 +13355,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id031 [8, 8, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13492,7 +13492,7 @@
     SubGroupA: 4
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id028
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -13503,7 +13503,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id029
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13640,7 +13640,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id028
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -13651,7 +13651,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id030 [8, 8, 1]
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13788,7 +13788,7 @@
     SubGroupA: 4
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id028
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -13799,7 +13799,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id029
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13936,7 +13936,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id028
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -13947,7 +13947,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id030
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14084,7 +14084,7 @@
     SubGroupA: 4
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id028
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -14095,7 +14095,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id029
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14232,7 +14232,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id028
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -14380,7 +14380,7 @@
     SubGroupA: 4
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id028
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -14391,7 +14391,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id029
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14528,7 +14528,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id028
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -14539,7 +14539,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id031
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: false
@@ -14671,7 +14671,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: &id032 [4, 8]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -14682,7 +14682,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id035 [16, 16, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -14816,7 +14816,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    ThreadTile: *id032
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -14827,7 +14827,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id034 [16, 8, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -14957,7 +14957,7 @@
     SubGroup1: 32
     SubGroupA: 8
     SubGroupB: 32
-    ThreadTile: *id032
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -14968,7 +14968,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id033 [8, 32, 1]
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -15098,7 +15098,7 @@
     SubGroup1: 32
     SubGroupA: 8
     SubGroupB: 32
-    ThreadTile: *id032
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -15109,7 +15109,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -15239,7 +15239,7 @@
     SubGroup1: 32
     SubGroupA: 8
     SubGroupB: 32
-    ThreadTile: *id032
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -15250,7 +15250,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -15380,7 +15380,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    ThreadTile: *id032
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -15391,7 +15391,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -15525,7 +15525,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: &id036 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -15536,7 +15536,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -15670,7 +15670,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    ThreadTile: *id032
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -15681,7 +15681,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -15815,7 +15815,7 @@
     SubGroup1: 32
     SubGroupA: 8
     SubGroupB: 32
-    ThreadTile: *id036
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -15826,7 +15826,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -15967,7 +15967,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -16101,7 +16101,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id036
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -16112,7 +16112,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -16242,7 +16242,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id032
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -16253,7 +16253,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -16387,7 +16387,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id036
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -16398,7 +16398,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -16528,7 +16528,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id032
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -16539,7 +16539,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -64202,11 +64202,11 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -64216,10 +64216,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -64232,25 +64232,27 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 8
-    LSPA: 4
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
     LSPB: 8
-    LVCA: 16
-    LVCB: 8
-    LVPA: 2
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 832
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 64
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -64264,30 +64266,41 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -64295,6 +64308,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -64304,6 +64318,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -64313,49 +64328,62 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 395
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT4_4_USFGRO0_VW2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id007 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -64365,8 +64393,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -64382,24 +64410,26 @@
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 96
+    LSCB: 64
+    LSPA: 5
     LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
     LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdcEqualsLdd: true
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -64413,30 +64443,39 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -64444,6 +64483,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -64453,6 +64493,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -64462,49 +64503,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 396
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT6_4_USFGRO0_VW2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -64514,8 +64570,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -64531,24 +64587,26 @@
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 16
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
     LSPA: 4
     LSPB: 8
-    LVCA: 16
-    LVCB: 8
+    LVCA: 64
+    LVCB: 32
     LVPA: 2
     LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -64562,30 +64620,41 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -64593,6 +64662,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -64602,6 +64672,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -64611,49 +64682,62 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 397
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id003 
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -64663,41 +64747,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
     LSPB: 8
-    LVCA: 8
-    LVCB: 8
+    LVCA: 64
+    LVCB: 32
     LVPA: 2
-    LVPB: 2
-    LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -64711,37 +64797,47 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -64751,6 +64847,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -64760,93 +64857,110 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 398
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005 
-    ThreadTile0: 4
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_NLCA1_NLCB1_PGR1_PLR0_TT8_4_USFGRO0_VW2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id002
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 16
-    LSPA: 8
-    LSPB: 8
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
     LVCB: 16
     LVPA: 4
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LVPB: 4
+    LdcEqualsLdd: 1
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -64859,31 +64973,39 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -64891,6 +65013,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -64900,6 +65023,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -64909,49 +65033,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 399
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id004 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -64961,10 +65100,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -64976,26 +65115,28 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 96
+    LSCB: 64
+    LSPA: 5
     LSPB: 8
-    LVCA: 32
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
+    LVPB: 4
+    LdcEqualsLdd: 1
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -65009,30 +65150,38 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -65040,6 +65189,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -65049,6 +65199,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -65058,49 +65209,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 400
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_AMAS3_DTL0_EPS1_GRVW2_GSU1_NLCA1_NLCB1_PBD1_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id003
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -65110,41 +65276,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
     LSPA: 8
     LSPB: 8
-    LVCA: 8
-    LVCB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -65158,30 +65326,38 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -65189,6 +65365,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -65198,6 +65375,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -65207,49 +65385,64 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 401
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id002
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -65259,41 +65452,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 16
-    LSPA: 4
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
     LSPB: 8
-    LVCA: 16
-    LVCB: 8
-    LVPA: 2
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -65307,25 +65502,4782 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 402
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD1_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 403
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 404
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD1_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 405
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: 1
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 406
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: 1
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 407
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: 1
+    LdsNumElements: 2048
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 408
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_DTL0_EPS0_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 409
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS1_DTL0_EPS1_GRVW1_GSU1_NLCA1_NLCB1_PBD1_PGR1_PLR0_TT4_8_USFGRO0_VW1_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: 1
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 2
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 410
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_AMAS1_DTL0_EPS1_GRVW1_GSU1_NLCA1_NLCB3_PBD1_PGR1_PLR1_TT4_6_USFGRO0_VW1_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: true
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 1
+    LSPB: 4
+    LVCA: 128
+    LVCB: 32
+    LVPA: 1
+    LVPB: 4
+    LdcEqualsLdd: 1
+    LdsNumElements: 1280
+    LdsOffsetA: 0
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: true
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 411
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x8_SE_AMAS3_DTL1_EPS0_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: true
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 64
+    LSPA: 1
+    LSPB: 2
+    LVCA: 128
+    LVCB: 64
+    LVPA: 1
+    LVPB: 2
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: true
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 64
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 412
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS1_DTL1_EPS1_GRVW1_GSU1_NLCA1_NLCB1_PBD1_PGR1_PLR0_TT8_8_USFGRO0_VW1_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 832
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 413
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 414
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 415
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 416
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 417
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 418
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 419
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 420
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 421
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 422
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 423
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 424
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [32, 4, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 425
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 426
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 2
+    LVPB: 2
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 427
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 428
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 429
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 430
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [32, 4, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 431
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -65370,17 +70322,17 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 402
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SolutionIndex: 432
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 0
@@ -65388,7 +70340,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -65402,7 +70354,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -65410,39 +70362,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Source
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 8
     LSPB: 8
     LVCA: 8
     LVCB: 8
-    LVPA: 2
-    LVPB: 2
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 384
+    LdsNumElementsAlignedB: 384
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 384
+    LdsOffsetB_Blk: 1408
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -65455,11 +70407,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 24
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -65467,14 +70419,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 3
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 3
     NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -65519,35 +70471,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 403
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SolutionIndex: 433
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x24_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id002
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -65557,9 +70509,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -65568,46 +70520,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 16
     LSCB: 16
     LSPA: 8
     LSPB: 8
     LVCA: 16
     LVCB: 16
-    LVPA: 4
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
     LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -65616,8 +70568,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -65668,35 +70620,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 404
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 434
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -65706,8 +70658,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -65717,46 +70669,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 32
     LSCB: 16
-    LSPA: 4
+    LSPA: 8
     LSPB: 8
-    LVCA: 32
+    LVCA: 16
     LVCB: 16
-    LVPA: 2
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -65765,13 +70717,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -65817,47 +70769,47 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 405
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 435
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -65866,47 +70818,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 8
-    LSPA: 4
-    LSPB: 16
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 16
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3200
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
     LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -65914,13 +70866,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -65966,48 +70918,48 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 406
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
+    SolutionIndex: 436
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006 
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -66015,43 +70967,43 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 8
     LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 16
     MacroTile1: 16
     MacroTileA: 16
@@ -66063,15 +71015,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -66115,35 +71067,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 407
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SolutionIndex: 437
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -66153,8 +71105,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -66164,46 +71116,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 16
     LSCB: 16
-    LSPA: 4
-    LSPB: 8
-    LVCA: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
     LVCB: 8
-    LVPA: 2
-    LVPB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -66212,15 +71164,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -66264,35 +71216,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 408
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SolutionIndex: 438
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -66302,37 +71254,37 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
+    LSCB: 16
     LSPA: 8
-    LSPB: 8
-    LVCA: 8
+    LSPB: 16
+    LVCA: 16
     LVCB: 8
-    LVPA: 2
-    LVPB: 2
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -66342,18 +71294,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -66361,15 +71313,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -66413,35 +71365,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 409
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SolutionIndex: 439
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id002
+    VectorWidth: 2
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -66451,58 +71403,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -66511,12 +71463,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -66562,35 +71514,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 410
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 440
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id004
+    VectorWidth: 4
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -66600,8 +71552,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -66611,14 +71563,14 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
     LSPA: 8
@@ -66628,7 +71580,7 @@
     LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
@@ -66640,14 +71592,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -66711,35 +71663,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 411
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 441
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x16_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id004
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -66749,9 +71701,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -66760,47 +71712,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 8
-    LSPA: 4
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3200
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -66808,15 +71760,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -66860,35 +71812,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 412
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
+    SolutionIndex: 442
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -66898,10 +71850,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -66909,26 +71861,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 8
-    LSPA: 4
+    LSCB: 16
+    LSPA: 16
     LSPB: 16
     LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1664
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -66938,18 +71890,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 8
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 8
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -66957,15 +71909,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -67009,35 +71961,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 413
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 443
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id007
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -67047,10 +71999,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -67058,46 +72010,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
+    KernelLanguage: Assembly
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -67106,15 +72058,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -67158,48 +72110,48 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 414
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 444
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -67207,46 +72159,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
+    KernelLanguage: Assembly
+    LSCA: 64
     LSCB: 16
     LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
     LVPA: 4
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 384
-    LdsNumElementsAlignedB: 384
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 384
-    LdsOffsetB_Blk: 1408
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -67257,13 +72209,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 3
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -67307,26 +72259,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 415
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x24_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 445
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -67339,7 +72291,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -67347,7 +72299,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -67355,37 +72307,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -67393,9 +72345,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 16
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -67404,7 +72356,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -67412,7 +72364,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -67456,26 +72408,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 416
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 446
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id008 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -67488,7 +72440,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -67497,7 +72449,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -67510,21 +72462,21 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 1024
     LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 512
     LdsOffsetB: 256
@@ -67541,10 +72493,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -67553,8 +72505,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -67605,17 +72557,17 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 417
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x08_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SolutionIndex: 447
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010 
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -67623,8 +72575,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -67637,7 +72589,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -67645,8 +72597,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -67654,30 +72606,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 16
     LSPA: 8
-    LSPB: 8
+    LSPB: 16
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LVCB: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -67690,10 +72642,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -67702,13 +72654,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -67754,26 +72706,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 418
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_02
+    SolutionIndex: 448
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -67786,7 +72738,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -67794,39 +72746,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -67839,11 +72791,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -67851,8 +72803,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -67903,26 +72855,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 419
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_02
+    SolutionIndex: 449
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -67943,8 +72895,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -67955,19 +72907,19 @@
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 16
     LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 1024
     LdsNumElementsAlignedA: 256
@@ -67981,14 +72933,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 16
     MacroTile1: 16
     MacroTileA: 16
@@ -68000,7 +72952,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -68008,7 +72960,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -68052,26 +73004,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 420
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_02
+    SolutionIndex: 450
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -68093,7 +73045,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -68106,19 +73058,19 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
@@ -68130,14 +73082,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -68149,15 +73101,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -68201,14 +73153,14 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 421
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SolutionIndex: 451
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -68219,8 +73171,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -68241,35 +73193,35 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
     LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -68288,9 +73240,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -68298,164 +73250,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
-    PerformanceSyncLocation: -1
-    PerformanceWaitCount: -1
-    PerformanceWaitLocation: -1
-    PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
-    ProblemType:
-      AssignedDerivedParameters: true
-      Batched: true
-      ComplexConjugateA: false
-      ComplexConjugateB: false
-      DataType: 0
-      DestDataType: 0
-      HighPrecisionAccumulate: false
-      Index0: 0
-      Index01A: 0
-      Index01B: 1
-      Index1: 1
-      IndexAssignmentsA: [0, 3, 2]
-      IndexAssignmentsB: [1, 3, 2]
-      IndexUnroll: 3
-      IndexUnrollA: 1
-      IndexUnrollB: 1
-      IndicesBatch: [2]
-      IndicesFree: [0, 1]
-      IndicesSummation: [3]
-      NumIndicesBatch: 1
-      NumIndicesC: 3
-      NumIndicesFree: 2
-      NumIndicesSummation: 1
-      OperationType: GEMM
-      SilentHighPrecisionAccumulate: false
-      TLUA: true
-      TLUB: true
-      Tensor0: 0
-      Tensor1: 1
-      TileA: 0
-      TileB: 1
-      TotalIndices: 4
-      TransposeA: false
-      TransposeB: true
-      UseBeta: true
-      UseInitialStrides: false
-    SolutionIndex: 422
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id013 
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
-    UnrollMemFence: false
-    UseSgprForGRO: false
-    Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id008
-    WorkGroupMapping: 1
-    WorkGroupMappingType: B
-  - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
-    AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
-    AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
-    AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
-    BufferStore: true
-    CheckDimOverflow: 0
-    CheckTensorDimAsserts: false
-    DepthU: 16
-    DirectToLds: false
-    DirectToLdsA: false
-    DirectToLdsB: false
-    DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
-    GlobalRead2A: true
-    GlobalRead2B: true
-    GlobalReadCoalesceGroupA: true
-    GlobalReadCoalesceGroupB: true
-    GlobalReadCoalesceVectorA: true
-    GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
-    GlobalSplitUSummationAssignmentRoundRobin: true
-    GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
-    InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 16
-    LVCB: 8
-    LVPA: 2
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
-    LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
-    LocalDotLayout: 1
-    LocalRead2A: true
-    LocalRead2B: true
-    LocalSplitU: 2
-    LocalWrite2A: true
-    LocalWrite2B: true
-    LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
-    MacroTileShapeMax: 64
-    MacroTileShapeMin: 1
-    MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
-    NonTemporalA: 0
-    NonTemporalB: 0
-    NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -68499,26 +73302,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 423
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x16_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_02
-    SubGroup0: 8
+    SolutionIndex: 452
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015 
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -68548,7 +73351,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -68648,14 +73451,14 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 424
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    SolutionIndex: 453
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -68666,7 +73469,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011 
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -68688,35 +73491,35 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
     LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -68726,18 +73529,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -68745,15 +73548,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -68797,26 +73600,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 425
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SolutionIndex: 454
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -68837,7 +73640,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -68846,46 +73649,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 16
     LSPA: 16
     LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -68894,7 +73697,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -68946,26 +73749,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 426
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 455
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id012 
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -68986,7 +73789,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -68995,46 +73798,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
+    LVCA: 16
     LVCB: 16
-    LVPA: 4
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -69043,13 +73846,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -69095,25 +73898,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 427
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 456
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id012
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -69127,7 +73930,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -69135,7 +73938,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -69143,25 +73946,25 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 32
+    LSCB: 8
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
@@ -69180,11 +73983,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -69192,13 +73995,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -69244,26 +74047,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 428
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x016x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG16_04_04
+    SolutionIndex: 457
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x32_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_04_04
     SubGroup0: 16
     SubGroup1: 4
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id014 
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -69276,7 +74079,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -69301,22 +74104,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
-    LVPA: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -69329,10 +74132,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -69341,14 +74144,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -69393,17 +74196,17 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 429
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_02
+    SolutionIndex: 458
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -69411,8 +74214,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -69425,7 +74228,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -69445,23 +74248,23 @@
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -69471,7 +74274,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -69479,9 +74282,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -69490,15 +74293,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -69542,17 +74345,17 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 430
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SolutionIndex: 459
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -69560,8 +74363,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -69574,7 +74377,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -69582,45 +74385,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 16
-    LVCA: 8
+    LSPB: 32
+    LVCA: 16
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -69629,9 +74432,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -69639,15 +74442,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -69691,26 +74494,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 431
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    SolutionIndex: 460
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -69723,7 +74526,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -69731,39 +74534,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -69776,11 +74579,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -69788,7 +74591,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -69840,26 +74643,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 432
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    SolutionIndex: 461
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -69872,7 +74675,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -69880,39 +74683,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -69925,11 +74728,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -69937,13 +74740,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -69989,26 +74792,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 433
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SolutionIndex: 462
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -70021,7 +74824,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -70029,39 +74832,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -70074,11 +74877,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70086,13 +74889,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -70138,26 +74941,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 434
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
+    SolutionIndex: 463
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG16_08_02
     SubGroup0: 16
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id012
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -70170,7 +74973,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -70178,39 +74981,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -70223,11 +75026,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70235,13 +75038,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -70287,26 +75090,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 435
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 464
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x032x32_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -70319,7 +75122,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -70327,39 +75130,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
-    LSPA: 16
+    LSCB: 16
+    LSPA: 8
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -70372,11 +75175,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70384,14 +75187,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -70436,25 +75239,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 436
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_02
+    SolutionIndex: 465
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id008
+    VectorWidth: 2
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -70468,7 +75271,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -70476,56 +75279,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
     LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70533,15 +75336,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -70585,25 +75388,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 437
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
+    SolutionIndex: 466
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
+    VectorWidth: 4
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -70617,7 +75420,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -70625,8 +75428,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -70634,30 +75437,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -70670,7 +75473,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 16
     MacroTile1: 16
     MacroTileA: 16
@@ -70734,26 +75537,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 438
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
+    SolutionIndex: 467
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -70775,7 +75578,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -70786,23 +75589,23 @@
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 8
+    LSCB: 16
     LSPA: 16
     LSPB: 32
     LVCA: 16
     LVCB: 8
     LVPA: 8
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -70821,9 +75624,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 8
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 8
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70831,7 +75634,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 2
     NumLoadsB: 1
@@ -70883,17 +75686,17 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 439
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x32_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_04_04
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 468
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -70901,8 +75704,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -70923,35 +75726,35 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -70961,18 +75764,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -70981,14 +75784,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -71032,26 +75835,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 440
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SolutionIndex: 469
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -71072,39 +75875,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
     LSPB: 32
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -71118,10 +75921,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -71129,13 +75932,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -71181,26 +75984,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 441
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    SolutionIndex: 470
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -71222,7 +76025,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -71230,30 +76033,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 16
+    LVCA: 32
     LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -71267,10 +76070,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -71280,11 +76083,11 @@
     NonTemporalC: 0
     NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -71330,14 +76133,14 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 442
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 471
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x008x32_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -71348,7 +76151,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -71370,39 +76173,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -71416,10 +76219,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -71427,7 +76230,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -71479,25 +76282,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 443
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
+    SolutionIndex: 472
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id011
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -71519,39 +76322,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 32
+    LSCB: 16
     LSPA: 16
     LSPB: 32
     LVCA: 16
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -71565,10 +76368,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -71576,8 +76379,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -71628,25 +76431,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 444
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
+    SolutionIndex: 473
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id011
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -71677,7 +76480,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -71685,38 +76488,38 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 32
-    LVCA: 16
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -71725,13 +76528,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -71777,14 +76580,14 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 445
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 474
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -71795,7 +76598,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id012
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -71826,7 +76629,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -71834,22 +76637,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 32
     LSCB: 32
-    LSPA: 8
+    LSPA: 32
     LSPB: 32
-    LVCA: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 2
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -71863,9 +76666,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -71874,13 +76677,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -71926,25 +76729,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 446
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x032x32_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG16_04_04
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 475
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -71967,7 +76770,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -71975,26 +76778,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
-    LSPA: 8
-    LSPB: 16
+    LSCB: 8
+    LSPA: 16
+    LSPB: 32
     LVCA: 16
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -72004,18 +76807,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 8
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72023,15 +76826,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -72075,17 +76878,17 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 447
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 476
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x32_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -72093,8 +76896,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -72115,56 +76918,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72172,15 +76975,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -72224,85 +77027,85 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 448
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    SolutionIndex: 477
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    KernelLanguage: Source
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -72310,10 +77113,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72321,8 +77124,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -72373,75 +77176,75 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 449
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 478
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x08_GRVW04_GSU01_SNLL0_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 64
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -72451,18 +77254,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72470,13 +77273,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -72522,46 +77325,46 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 450
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 479
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -72571,47 +77374,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72619,14 +77422,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -72671,46 +77474,46 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 451
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 480
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id013
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -72720,24 +77523,24 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    KernelLanguage: Source
+    LSCA: 128
+    LSCB: 64
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
@@ -72749,18 +77552,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72768,8 +77571,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -72820,96 +77623,96 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 452
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 481
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 32
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -72917,13 +77720,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -72969,96 +77772,96 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 453
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x008x32_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG16_04_04
+    SolutionIndex: 482
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id014
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -73066,14 +77869,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -73118,96 +77921,96 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 454
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 483
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    KernelLanguage: Source
+    LSCA: 128
+    LSCB: 64
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -73215,8 +78018,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -73267,26 +78070,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 455
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x016x32_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 484
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -73299,7 +78102,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -73316,7 +78119,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -73324,14 +78127,14 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
@@ -73345,7 +78148,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -73353,10 +78156,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -73364,8 +78167,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -73416,25 +78219,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 456
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id013
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SolutionIndex: 485
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -73448,7 +78251,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -73465,7 +78268,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -73473,14 +78276,14 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
@@ -73494,7 +78297,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -73502,10 +78305,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -73513,8 +78316,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -73565,25 +78368,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 457
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id013
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SolutionIndex: 486
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id011
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -73597,7 +78400,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -73605,35 +78408,35 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
+    LSCA: 64
+    LSCB: 64
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -73643,18 +78446,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -73662,13 +78465,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -73714,25 +78517,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 458
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x008x32_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG16_04_04
+    SolutionIndex: 487
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id014
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -73746,7 +78549,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -73754,56 +78557,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -73811,14 +78614,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -73863,79 +78666,79 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 459
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x32_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 488
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 128
+    KernelLanguage: Assembly
+    LSCA: 32
     LSCB: 128
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 2
+    LSPA: 16
+    LSPB: 4
+    LVCA: 16
+    LVCB: 64
+    LVPA: 8
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -73948,10 +78751,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 96
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 96
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -73960,14 +78763,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -74012,35 +78815,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 460
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x08_GRVW04_GSU01_SNLL0_TT08_08_VW04_WG16_16_01
+    SolutionIndex: 489
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [6, 8]
+    ThreadTile0: 6
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 6
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id016 
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -74050,8 +78853,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -74068,23 +78871,23 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 128
     LSCB: 64
-    LSPA: 16
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
+    LVCA: 32
     LVCB: 16
-    LVPA: 4
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -74098,9 +78901,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -74109,13 +78912,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -74161,35 +78964,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 461
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SolutionIndex: 490
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id017 
-    ThreadTile0: 4
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -74199,41 +79002,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 4
-    LVPB: 2
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -74247,10 +79050,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 96
+    MacroTileA: 128
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -74258,14 +79061,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -74310,35 +79113,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 462
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
+    SolutionIndex: 491
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018 
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 6]
+    ThreadTile0: 8
+    ThreadTile1: 6
+    ThreadTileA: 8
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id016
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -74348,8 +79151,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -74366,19 +79169,19 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 16
+    LSPB: 8
     LVCA: 32
-    LVCB: 16
+    LVCB: 32
     LVPA: 2
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -74397,9 +79200,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -74407,14 +79210,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -74459,35 +79262,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 463
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
+    SolutionIndex: 492
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019 
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -74497,8 +79300,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -74515,7 +79318,7 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
     LSPA: 16
@@ -74608,35 +79411,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 464
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SolutionIndex: 493
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id017
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -74646,8 +79449,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -74664,7 +79467,7 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
     LSCB: 128
     LSPA: 16
@@ -74757,35 +79560,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 465
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
+    SolutionIndex: 494
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id016
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -74795,41 +79598,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 128
-    LSCB: 64
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 2
-    LVPB: 4
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 128
+    LSPA: 16
+    LSPB: 4
+    LVCA: 16
+    LVCB: 64
+    LVPA: 8
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -74843,10 +79646,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -74854,14 +79657,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -74906,25 +79709,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 466
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
+    SolutionIndex: 495
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppresssNoLoadLoop: true
+    ThreadTile: [6, 8]
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id016
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -74938,7 +79741,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -74964,21 +79767,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 128
+    LSCB: 64
     LSPA: 8
-    LSPB: 8
+    LSPB: 16
     LVCA: 32
-    LVCB: 32
+    LVCB: 16
     LVPA: 2
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -74991,11 +79794,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75003,13 +79806,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -75055,26 +79858,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 467
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SolutionIndex: 496
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id020 
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -75087,7 +79890,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -75095,39 +79898,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 128
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSCB: 32
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
     LVPA: 2
-    LVPB: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -75140,11 +79943,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 96
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75152,13 +79955,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -75204,25 +80007,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 468
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SolutionIndex: 497
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id020
+    ThreadTile: [8, 6]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 6
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -75261,22 +80064,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -75290,10 +80093,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75301,14 +80104,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -75353,79 +80156,79 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 469
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    SolutionIndex: 498
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id022 
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 4
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 16
-    LSPB: 8
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 4
+    LSPB: 4
     LVCA: 16
-    LVCB: 32
+    LVCB: 16
     LVPA: 4
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -75438,11 +80241,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75450,15 +80253,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -75502,79 +80305,79 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 470
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id023 
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SolutionIndex: 499
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x04_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 2
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 32
-    LSCB: 128
-    LSPA: 16
-    LSPB: 4
-    LVCA: 16
-    LVCB: 64
-    LVPA: 8
+    LSCB: 32
+    LSPA: 2
+    LSPB: 2
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -75587,11 +80390,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75599,15 +80402,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -75651,25 +80454,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 471
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id024 
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    SolutionIndex: 500
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x02_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id021
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -75683,7 +80486,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -75691,56 +80494,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
+    LSCA: 8
+    LSCB: 8
     LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 2
-    LVPB: 4
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75748,15 +80551,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -75800,25 +80603,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 472
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 501
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU01_SNLL1_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: true
-    ThreadTile: *id025 
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
+    VectorWidth: 2
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -75840,8 +80643,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -75852,44 +80655,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 4
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
     LSPB: 16
-    LVCA: 64
+    LVCA: 16
     LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 96
-    MacroTileA: 128
-    MacroTileB: 96
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -75897,13 +80700,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 4
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -75949,25 +80752,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 473
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 502
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU01_SNLL1_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: true
-    ThreadTile: *id026 
-    ThreadTile0: 8
-    ThreadTile1: 6
-    ThreadTileA: 8
-    ThreadTileB: 6
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id021
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -75981,7 +80784,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -75989,56 +80792,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
+    LSCA: 8
+    LSCB: 8
     LSPA: 8
     LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 2
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -76046,15 +80849,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -76098,25 +80901,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 474
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id020
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SolutionIndex: 503
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
+    VectorWidth: 2
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -76130,7 +80933,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 4
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -76138,39 +80941,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 4
+    LSPB: 4
     LVCA: 16
     LVCB: 16
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -76183,11 +80986,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -76195,15 +80998,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -76247,26 +81050,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 475
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id022
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SolutionIndex: 504
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x04_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -76279,7 +81082,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -76287,56 +81090,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
     LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 4
-    LVPB: 2
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -76344,15 +81147,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -76396,26 +81199,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 476
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id023
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SolutionIndex: 505
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -76428,7 +81231,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 4
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -76436,8 +81239,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -76445,30 +81248,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 128
-    LSPA: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 4
     LSPB: 4
     LVCA: 16
-    LVCB: 64
-    LVPA: 8
-    LVPB: 2
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -76481,11 +81284,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -76493,15 +81296,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -76545,26 +81348,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 477
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id024
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    SolutionIndex: 506
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x04_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -76577,7 +81380,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -76585,56 +81388,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
+    LSCA: 8
+    LSCB: 8
     LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 2
-    LVPB: 4
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -76642,15 +81445,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -76694,26 +81497,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 478
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SolutionIndex: 507
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -76726,7 +81529,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -76734,8 +81537,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -76743,47 +81546,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 2
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 96
-    MacroTileA: 128
-    MacroTileB: 96
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -76791,15 +81594,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 4
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -76843,26 +81646,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 479
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id026
-    ThreadTile0: 8
-    ThreadTile1: 6
-    ThreadTileA: 8
-    ThreadTileB: 6
+    SolutionIndex: 508
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -76875,7 +81678,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -76883,56 +81686,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
+    LSCA: 8
+    LSCB: 8
     LSPA: 8
     LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 2
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -76940,15 +81743,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -76992,46 +81795,46 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 480
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id020
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SolutionIndex: 509
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -77041,36 +81844,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 4
-    LSPB: 4
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -77089,15 +81892,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -77141,8 +81944,8 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 481
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x04_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SolutionIndex: 510
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
@@ -77154,33 +81957,31 @@
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id027 
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 2
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -77189,31 +81990,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 32
-    LSPA: 2
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
     LSPB: 2
-    LVCA: 32
-    LVCB: 32
-    LVPA: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -77226,11 +82027,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -77238,15 +82039,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -77290,31 +82089,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 482
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x032x02_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SolutionIndex: 511
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x08_DTL0_GRVW01_GSU01_PGR1_PLR1_TT04_08_USFGRO01_VW02_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id027
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -77328,8 +82127,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -77338,48 +82136,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 2
+    LSPB: 2
+    LVCA: 64
+    LVCB: 64
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -77387,15 +82185,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -77439,31 +82235,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 483
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU01_SNLL1_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id028 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 512
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x08_DTL0_GRVW01_GSU01_PGR1_PLR1_TT04_08_USFGRO01_VW04_WG16_08_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id029 
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -77471,14 +82267,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
-    DirectToLds: false
+    DepthU: 8
+    DirectToLds: true
     DirectToLdsA: false
-    DirectToLdsB: false
+    DirectToLdsB: true
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -77487,48 +82282,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 256
+    LSPA: 8
+    LSPB: 1
+    LVCA: 32
+    LVCB: 256
+    LVPA: 8
+    LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2304
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
     LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
+    LocalWriteUseSgprB: true
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 256
+    MacroTileA: 32
+    MacroTileB: 256
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -77536,20 +82327,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 8
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -77588,31 +82377,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 484
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU01_SNLL1_TT02_02_VW02_WG08_08_04
+    SolutionIndex: 513
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x256x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG08_32_01_WGM01
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 32
     SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 32
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id031 
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -77621,13 +82410,12 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
+    DirectToLds: true
     DirectToLdsA: false
-    DirectToLdsB: false
+    DirectToLdsB: true
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -77636,48 +82424,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 32
+    LSCB: 256
     LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
+    LSPB: 1
+    LVCA: 32
+    LVCB: 256
     LVPA: 8
-    LVPB: 8
+    LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2304
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
+    LocalWriteUseSgprB: true
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 256
+    MacroTileA: 32
+    MacroTileB: 256
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -77685,20 +82469,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularB: 8
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -77737,31 +82519,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 485
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 514
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x256x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG08_32_01_WGM08
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id029
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -77769,14 +82551,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
-    DirectToLds: false
+    DepthU: 8
+    DirectToLds: true
     DirectToLdsA: false
-    DirectToLdsB: false
+    DirectToLdsB: true
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -77785,31 +82566,27 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 4
-    LSPB: 4
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 32
+    LSCB: 256
+    LSPA: 8
+    LSPB: 1
+    LVCA: 32
+    LVCB: 256
+    LVPA: 8
+    LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2304
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -77819,14 +82596,14 @@
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
+    LocalWriteUseSgprB: true
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 256
+    MacroTileA: 32
+    MacroTileB: 256
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -77834,20 +82611,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularB: 8
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -77886,31 +82661,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 486
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x04_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_01
+    SolutionIndex: 515
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x256x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG08_32_01_WGM64
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 32
     SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 32
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id030 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -77918,14 +82693,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -77934,48 +82708,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 2
+    LSPB: 2
+    LVCA: 64
+    LVCB: 64
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -77983,20 +82753,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 8
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -78035,31 +82803,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 487
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 516
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG16_08_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id029
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -78067,14 +82835,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -78083,31 +82850,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 64
+    LSCB: 64
     LSPA: 4
     LSPB: 4
-    LVCA: 16
-    LVCB: 16
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -78120,11 +82887,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -78132,15 +82899,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -78184,31 +82949,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 488
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x04_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 517
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW01_GSU01_PGR1_PLR1_TT04_04_USFGRO01_VW04_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id030
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -78222,58 +82987,57 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 64
+    LSCB: 64
     LSPA: 8
     LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -78281,15 +83045,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -78333,31 +83095,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 489
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 518
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG16_08_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id029
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -78371,58 +83133,57 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 128
     LSPA: 8
     LSPB: 8
-    LVCA: 16
-    LVCB: 16
+    LVCA: 32
+    LVCB: 32
     LVPA: 8
-    LVPB: 8
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -78430,15 +83191,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -78482,31 +83241,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 490
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x08_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG08_08_02
+    SolutionIndex: 519
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x128x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG08_32_01_WGM01
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 32
     SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 32
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 2]
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -78514,64 +83273,59 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
     LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -78579,20 +83333,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -78631,31 +83383,31 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 491
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT008x008x08_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 520
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT08_04_USFGRO0_VW04_WG08_32_01_WGM01
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id029
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -78669,58 +83421,57 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 64
+    LSCB: 64
     LSPA: 16
     LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -78728,10 +83479,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -78780,27 +83529,28 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 492
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT016x016x16_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id028
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 521
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id031
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -78811,46 +83561,42 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 128
-    LSPA: 4
-    LSPB: 2
-    LVCA: 64
-    LVCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
     LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -78863,7 +83609,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 128
     MacroTileA: 64
@@ -78876,17 +83622,17 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -78925,24 +83671,24 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 493
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x08_DTL0_GRVW01_GSU01_PGR1_PLR1_TT04_08_USFGRO01_VW02_WG16_16_01_WGM01
+    SolutionIndex: 522
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT04_08_USFGRO0_VW04_WG16_16_01_WGM01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id032 
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id035 
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -78957,46 +83703,46 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 2
-    LSPB: 2
-    LVCA: 64
-    LVCB: 64
-    LVPA: 2
-    LVPB: 2
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -79009,7 +83755,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -79021,13 +83767,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -79071,25 +83817,25 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 494
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x08_DTL0_GRVW01_GSU01_PGR1_PLR1_TT04_08_USFGRO01_VW04_WG16_08_01_WGM01
+    SolutionIndex: 523
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG16_16_01_WGM08
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    ThreadTile: *id032
+    SubGroupB: 16
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
@@ -79103,42 +83849,42 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
-    DirectToLds: true
+    DepthU: 16
+    DirectToLds: false
     DirectToLdsA: false
-    DirectToLdsB: true
+    DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 256
-    LSPA: 8
-    LSPB: 1
-    LVCA: 32
-    LVCB: 256
-    LVPA: 8
-    LVPB: 1
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2304
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -79148,14 +83894,14 @@
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: true
+    LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 256
-    MacroTileA: 32
-    MacroTileB: 256
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -79168,7 +83914,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 8
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -79213,74 +83959,76 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 495
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x256x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG08_32_01_WGM01
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    ThreadTile: *id032
+    SolutionIndex: 524
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT04_08_USFGRO0_VW04_WG16_16_01_WGM08
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: true
+    DirectToLds: false
     DirectToLdsA: false
-    DirectToLdsB: true
+    DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 256
-    LSPA: 8
-    LSPB: 1
-    LVCA: 32
-    LVCB: 256
-    LVPA: 8
-    LVPB: 1
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 1
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2304
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -79290,14 +84038,14 @@
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: true
+    LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 256
-    MacroTileA: 32
-    MacroTileB: 256
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -79309,9 +84057,14 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 8
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -79332,6 +84085,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -79341,6 +84095,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -79355,74 +84110,89 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 496
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x256x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG08_32_01_WGM08
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 525
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG8_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 32
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 32
-    ThreadTile: *id032
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: true
+    DirectToLds: false
     DirectToLdsA: false
-    DirectToLdsB: true
+    DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 256
-    LSPA: 8
-    LSPB: 1
-    LVCA: 32
-    LVCB: 256
-    LVPA: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 16
+    LVCB: 16
+    LVPA: 1
     LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 2304
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -79432,14 +84202,14 @@
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: true
+    LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 256
-    MacroTileA: 32
-    MacroTileB: 256
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -79447,18 +84217,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 8
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -79474,6 +84249,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -79483,6 +84259,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -79497,74 +84274,85 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 497
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x256x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG08_32_01_WGM64
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 526
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT8_8_VW4_WG8_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 32
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 32
-    ThreadTile: *id032
-    ThreadTile0: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
-    WorkGroupMapping: 64
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 2
-    LSPB: 2
-    LVCA: 64
-    LVCB: 64
-    LVPA: 2
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 1
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -79577,11 +84365,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -79593,9 +84381,14 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 8
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -79616,6 +84409,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -79625,6 +84419,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -79639,78 +84434,89 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 498
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW01_GSU01_PGR0_PLR1_TT04_08_USFGRO01_VW04_WG16_08_01_WGM01
-    SubGroup0: 16
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 527
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG8_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
-    ThreadTile: *id032
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
     LSPA: 4
     LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LVCA: 16
+    LVCB: 16
+    LVPA: 1
+    LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -79723,7 +84529,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -79735,13 +84541,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -79762,6 +84573,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -79771,6 +84583,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -79785,44 +84598,55 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 499
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW01_GSU01_PGR1_PLR1_TT04_04_USFGRO01_VW04_WG16_16_01_WGM01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    ThreadTile: *id036 
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 528
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT8_8_VW4_WG8_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -79841,22 +84665,18 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
-    LVPB: 2
+    LSCA: 128
+    LSCB: 32
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 1
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2560
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -79869,11 +84689,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -79885,14 +84705,19 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -79908,6 +84733,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -79917,6 +84743,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -79931,46 +84758,57 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 500
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG16_08_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 529
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    ThreadTile: *id032
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -79983,26 +84821,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 128
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 2
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -80015,11 +84853,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -80034,6 +84872,11 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -80054,6 +84897,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -80063,6 +84907,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -80077,13 +84922,21 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 501
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT032x128x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG08_32_01_WGM01
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    ThreadTile: *id036
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 530
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -80094,16 +84947,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -80115,6 +84970,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -80133,18 +84989,18 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 4
-    LVPB: 2
+    LSCA: 128
+    LSCB: 32
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 1
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 2560
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -80158,10 +85014,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -80173,9 +85029,14 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -80196,6 +85057,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -80205,6 +85067,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -80219,12 +85082,20 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 502
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT08_04_USFGRO0_VW04_WG08_32_01_WGM01
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 531
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
@@ -80236,16 +85107,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id033
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -80257,6 +85130,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -80284,13 +85158,9 @@
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -80322,12 +85192,17 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -80342,6 +85217,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -80351,6 +85227,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -80365,13 +85242,21 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 503
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 532
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id036
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -80382,16 +85267,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -80403,6 +85290,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -80422,15 +85310,15 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
+    LSCB: 64
     LSPA: 16
-    LSPB: 8
+    LSPB: 16
     LVCA: 16
-    LVCB: 32
+    LVCB: 16
     LVPA: 4
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 2048
     LdsOffsetA: 0
     LdsOffsetB: 1024
     LdsPadA: 0
@@ -80447,9 +85335,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -80457,13 +85345,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -80484,6 +85377,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -80493,6 +85387,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -80507,33 +85402,43 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 504
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT04_08_USFGRO0_VW04_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 533
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id032
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -80545,6 +85450,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -80610,6 +85516,11 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -80630,6 +85541,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -80639,6 +85551,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -80653,13 +85566,21 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 505
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG16_16_01_WGM08
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 534
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id036
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -80670,16 +85591,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -80691,6 +85614,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -80709,18 +85633,18 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 4
-    LVPB: 2
+    LSCA: 128
+    LSCB: 32
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 1
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 2560
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -80734,10 +85658,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -80749,9 +85673,14 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -80772,6 +85701,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 1
@@ -80781,6 +85711,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -80795,26 +85726,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 506
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT04_08_USFGRO0_VW04_WG16_16_01_WGM08
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 535
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG16_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    ThreadTile: *id032
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id035
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -80828,7 +85768,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -80854,17 +85794,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 1
-    LVPB: 2
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -80877,11 +85817,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -80889,13 +85829,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -80906,7 +85846,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -80950,20 +85890,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 507
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG8_8_1_WGM1
+    SolutionIndex: 536
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -80971,10 +85911,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -80988,13 +85928,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -81015,20 +85955,16 @@
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 1
-    LVPB: 1
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -81041,7 +85977,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -81053,13 +85989,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -81069,7 +86005,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -81114,31 +86050,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 508
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT8_8_VW4_WG8_8_1_WGM8
+    SolutionIndex: 537
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -81152,13 +86088,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -81178,17 +86114,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 1
-    LVPB: 2
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -81201,11 +86141,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -81213,13 +86153,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -81229,7 +86169,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -81274,20 +86214,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 509
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG8_8_1_WGM64
+    SolutionIndex: 538
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -81295,10 +86235,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -81319,32 +86259,32 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
     LSPA: 4
     LSPB: 4
-    LVCA: 16
-    LVCB: 16
-    LVPA: 1
-    LVPB: 1
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
@@ -81377,13 +86317,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -81394,12 +86336,13 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -81438,33 +86381,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 510
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT8_8_VW4_WG8_8_1_WGM64
+    SolutionIndex: 539
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_4_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -81476,43 +86417,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
+    LSCA: 64
+    LSCB: 64
     LSPA: 4
-    LSPB: 16
-    LVCA: 32
-    LVCB: 8
-    LVPA: 1
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2560
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -81525,11 +86466,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -81537,13 +86478,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -81560,6 +86503,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -81598,33 +86542,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 511
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG16_8_1_WGM1
+    SolutionIndex: 540
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -81636,47 +86578,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -81689,11 +86627,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -81701,11 +86639,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -81717,13 +86657,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -81762,8 +86703,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 512
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 541
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -81771,24 +86712,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -81800,43 +86739,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
+    LSCA: 64
+    LSCB: 128
     LSPA: 4
-    LSPB: 16
-    LVCA: 32
-    LVCB: 8
-    LVPA: 1
-    LVPB: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2560
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -81849,11 +86792,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -81862,12 +86805,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -81877,13 +86822,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -81922,33 +86868,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 513
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG16_8_1_WGM8
+    SolutionIndex: 542
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_8_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -81960,43 +86904,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LSCB: 32
+    LSPA: 2
+    LSPB: 4
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -82009,11 +86953,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -82022,12 +86966,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -82044,6 +86990,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -82082,15 +87029,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 514
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 543
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -82098,17 +87045,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -82120,43 +87065,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LSCB: 32
+    LSPA: 2
+    LSPB: 4
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -82169,11 +87114,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -82182,12 +87127,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -82204,6 +87151,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -82242,15 +87190,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 515
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 544
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -82258,17 +87206,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -82280,47 +87226,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
     LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -82333,11 +87275,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -82345,13 +87287,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -82361,13 +87305,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -82406,33 +87351,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 516
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 545
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -82444,43 +87387,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 4
-    LSPB: 16
-    LVCA: 32
-    LVCB: 8
-    LVPA: 1
-    LVPB: 4
+    LSCA: 64
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2560
+    LdsNumElements: 640
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -82493,11 +87436,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -82505,8 +87448,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
@@ -82528,6 +87473,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -82566,8 +87512,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 517
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT8_4_VW4_WG16_8_1_WGM64
+    SolutionIndex: 546
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -82576,23 +87522,21 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -82604,43 +87548,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -82653,7 +87601,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -82666,11 +87614,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -82681,13 +87631,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -82726,8 +87677,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 518
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 547
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_4_USFGRO1_VW1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -82735,24 +87686,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -82764,43 +87713,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -82813,11 +87766,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -82825,12 +87778,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -82841,13 +87796,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -82886,8 +87842,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 519
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_PLR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 548
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_8_USFGRO1_VW1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -82895,24 +87851,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -82924,47 +87878,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LSCB: 32
+    LSPA: 2
+    LSPB: 4
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -82977,11 +87927,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -82990,12 +87940,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -83005,13 +87957,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -83050,33 +88003,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 520
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 549
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -83094,7 +88045,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -83114,21 +88065,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
+    LSCB: 32
+    LSPA: 2
     LSPB: 4
     LVCA: 64
-    LVCB: 64
-    LVPA: 4
+    LVCB: 32
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -83143,9 +88090,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -83155,13 +88102,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
+    NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -83171,8 +88118,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -83217,16 +88164,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 521
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_4_USFGRO1_VW1_WGM1
+    SolutionIndex: 550
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -83238,8 +88185,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -83279,15 +88226,15 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
-    LSPB: 4
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
     LVCA: 64
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 640
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
@@ -83304,9 +88251,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -83314,15 +88261,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -83378,29 +88325,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 522
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WGM1
+    SolutionIndex: 551
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -83414,7 +88361,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -83440,17 +88387,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 64
     LSPA: 4
-    LSPB: 8
+    LSPB: 4
     LVCA: 64
-    LVCB: 32
+    LVCB: 64
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -83463,11 +88410,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -83475,14 +88422,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -83494,7 +88441,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -83539,8 +88486,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 523
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    SolutionIndex: 552
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -83549,11 +88496,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -83563,7 +88510,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -83575,13 +88522,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -83601,21 +88548,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 4
-    LSPB: 2
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
     LVCA: 64
-    LVCB: 128
-    LVPA: 4
-    LVPB: 2
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -83628,11 +88571,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -83640,15 +88583,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -83658,7 +88601,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -83704,31 +88647,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 524
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_8_USFGRO1_VW1_WGM1
+    SolutionIndex: 553
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -83740,7 +88683,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -83766,17 +88709,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 2
-    LSPB: 4
+    LSPB: 8
     LVCA: 64
-    LVCB: 32
+    LVCB: 16
     LVPA: 2
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -83789,11 +88732,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -83801,13 +88744,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 8
     NumLoadsPerpendicularB: 2
     NumThreads: 128
     PackBatchDims: 0
@@ -83820,7 +88763,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -83865,8 +88808,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 525
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WGM1
+    SolutionIndex: 554
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -83875,11 +88818,11 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -83889,7 +88832,7 @@
     WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -83901,7 +88844,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -83928,16 +88871,16 @@
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 2
-    LSPB: 4
+    LSPA: 4
+    LSPB: 8
     LVCA: 64
     LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -83950,7 +88893,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 32
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -83962,15 +88905,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -84026,31 +88969,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 526
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WGM1
+    SolutionIndex: 555
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -84082,21 +89025,21 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 32
     LSPA: 2
-    LSPB: 8
+    LSPB: 4
     LVCA: 64
-    LVCB: 16
+    LVCB: 32
     LVPA: 2
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 640
+    LdsNumElements: 768
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
@@ -84113,9 +89056,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -84123,14 +89066,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -84187,8 +89130,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 527
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    SolutionIndex: 556
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -84197,17 +89140,17 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -84243,21 +89186,21 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 32
     LSPA: 2
-    LSPB: 8
+    LSPB: 4
     LVCA: 64
-    LVCB: 16
+    LVCB: 32
     LVPA: 2
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 640
+    LdsNumElements: 768
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
@@ -84274,9 +89217,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -84284,14 +89227,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -84348,8 +89291,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 528
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    SolutionIndex: 557
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -84358,17 +89301,17 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -84390,7 +89333,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -84404,27 +89347,23 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
+    LSCB: 32
+    LSPA: 2
     LSPB: 4
     LVCA: 64
-    LVCB: 64
-    LVPA: 4
+    LVCB: 32
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -84439,9 +89378,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -84450,14 +89389,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -84467,7 +89406,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -84513,16 +89452,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 529
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_4_USFGRO1_VW1_WGM8
+    SolutionIndex: 558
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -84533,8 +89472,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -84555,7 +89494,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -84569,27 +89508,23 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 4
-    LSPB: 2
+    LSCB: 32
+    LSPA: 2
+    LSPB: 4
     LVCA: 64
-    LVCB: 128
-    LVPA: 4
-    LVPB: 2
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -84604,9 +89539,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -84614,15 +89549,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -84632,8 +89567,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -84678,28 +89613,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 530
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_SNLL1_TT4_8_USFGRO1_VW1_WGM8
+    SolutionIndex: 559
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -84720,37 +89655,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 2
-    LSPB: 4
-    LVCA: 64
-    LVCB: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
     LVPA: 2
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -84765,9 +89704,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -84775,14 +89714,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -84793,8 +89732,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -84839,29 +89778,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 531
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WGM8
+    SolutionIndex: 560
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -84875,43 +89814,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 2
-    LSPB: 4
-    LVCA: 64
-    LVCB: 32
-    LVPA: 2
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -84924,11 +89867,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -84937,14 +89880,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -84954,7 +89897,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -85000,31 +89943,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 532
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WGM8
+    SolutionIndex: 561
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -85036,43 +89979,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 640
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -85085,11 +90032,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85097,15 +90044,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -85115,7 +90060,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -85161,31 +90106,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 533
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM8
+    SolutionIndex: 562
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -85203,37 +90150,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -85248,9 +90199,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85258,14 +90209,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -85276,8 +90227,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -85322,8 +90273,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 534
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WGM1
+    SolutionIndex: 563
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -85331,18 +90282,18 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -85364,37 +90315,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
+    LSCA: 128
+    LSCB: 64
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
     LVCB: 16
     LVPA: 2
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -85408,10 +90363,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85419,15 +90374,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -85437,8 +90392,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -85483,28 +90438,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 535
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    SolutionIndex: 564
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -85525,37 +90480,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
+    LSCA: 128
+    LSCB: 64
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
     LVCB: 16
     LVPA: 2
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -85569,10 +90528,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85580,15 +90539,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -85598,7 +90555,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -85644,31 +90601,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 536
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM1
+    SolutionIndex: 565
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -85680,43 +90639,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 4
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
     LSPB: 8
-    LVCA: 64
+    LVCA: 32
     LVCB: 32
-    LVPA: 4
-    LVPB: 8
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -85729,11 +90692,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85741,14 +90704,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -85759,7 +90722,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -85805,8 +90768,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 537
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WGM8
+    SolutionIndex: 566
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -85814,22 +90777,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -85841,43 +90804,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 2
-    LSPB: 4
-    LVCA: 64
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
     LVCB: 32
     LVPA: 2
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -85890,11 +90857,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85902,15 +90869,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -85920,8 +90885,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -85966,31 +90931,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 538
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW4_WGM1
+    SolutionIndex: 567
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -86002,43 +90969,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 2
-    LSPB: 4
-    LVCA: 64
-    LVCB: 32
-    LVPA: 2
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -86051,11 +91022,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -86065,13 +91036,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -86081,7 +91052,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -86127,31 +91098,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 539
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WGM1
+    SolutionIndex: 568
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -86163,43 +91134,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 2
-    LSPB: 4
-    LVCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
     LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -86212,11 +91187,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -86224,15 +91199,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -86242,8 +91217,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -86288,31 +91263,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 540
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW4_WGM8
+    SolutionIndex: 569
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -86324,43 +91299,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 2
-    LSPB: 4
-    LVCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
     LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -86373,11 +91352,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -86385,15 +91364,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -86403,7 +91380,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -86449,31 +91426,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 541
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_EPS0_FL0_GRVW1_NLCA1_NLCB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WGM8
+    SolutionIndex: 570
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -86485,7 +91464,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -86510,22 +91489,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 64
     LSPA: 8
-    LSPB: 8
-    LVCA: 16
+    LSPB: 16
+    LVCA: 32
     LVCB: 16
     LVPA: 2
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -86538,10 +91517,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -86552,13 +91531,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -86614,14 +91593,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 542
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 571
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [8, 4]
@@ -86635,10 +91614,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -86657,7 +91636,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -86675,22 +91654,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 64
-    LSPA: 16
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
+    LVCA: 32
     LVCB: 16
-    LVPA: 4
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -86704,9 +91683,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -86715,13 +91694,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -86779,8 +91756,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 543
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 572
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -86789,10 +91766,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -86801,9 +91778,11 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -86822,7 +91801,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -86840,22 +91819,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -86869,10 +91848,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -86880,12 +91859,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -86942,8 +91923,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 544
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 573
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -86952,11 +91933,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -86964,11 +91945,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -86987,7 +91966,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -87005,22 +91984,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 128
-    LSPA: 16
+    LSPA: 8
     LSPB: 8
-    LVCA: 16
+    LVCA: 32
     LVCB: 32
-    LVPA: 4
+    LVPA: 2
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -87034,9 +92013,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -87045,13 +92024,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -87109,8 +92086,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 545
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WGM1
+    SolutionIndex: 574
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -87119,10 +92096,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -87131,13 +92108,15 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -87152,7 +92131,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -87169,23 +92148,24 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 64
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
+    LVCA: 16
     LVCB: 16
-    LVPA: 2
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -87199,9 +92179,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -87210,13 +92190,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -87228,8 +92206,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -87274,8 +92253,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 546
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 575
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR0_TT4_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -87283,11 +92262,11 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -87296,13 +92275,15 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -87310,47 +92291,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
+    LSCA: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 16
+    LSPB: 4
     LVCA: 32
-    LVCB: 16
-    LVPA: 2
-    LVPB: 4
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -87363,11 +92345,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -87376,11 +92358,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -87391,6 +92375,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -87437,8 +92422,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 547
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 576
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -87446,28 +92431,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -87475,7 +92458,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -87483,39 +92466,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 128
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
     LVPA: 2
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -87528,11 +92512,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -87540,13 +92524,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -87558,8 +92542,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -87604,8 +92589,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 548
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM1
+    SolutionIndex: 577
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_TT8_4_USFGRO1_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -87613,26 +92598,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -87640,7 +92625,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -87648,39 +92633,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 128
-    LSPA: 8
+    LSCB: 64
+    LSPA: 4
     LSPB: 8
-    LVCA: 32
+    LVCA: 64
     LVCB: 32
     LVPA: 2
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -87693,11 +92679,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -87705,12 +92691,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -87721,6 +92707,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -87767,8 +92754,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 549
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM1
+    SolutionIndex: 578
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -87776,28 +92763,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -87805,47 +92792,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -87858,7 +92842,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -87871,14 +92855,15 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -87888,7 +92873,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -87934,8 +92920,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 550
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 579
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -87943,26 +92929,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -87970,47 +92956,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -88023,11 +93006,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88035,15 +93018,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -88053,7 +93037,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -88099,8 +93084,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 551
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WGM8
+    SolutionIndex: 580
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -88108,26 +93093,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -88135,47 +93120,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -88188,11 +93174,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88200,13 +93186,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -88216,6 +93205,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -88262,8 +93252,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 552
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WGM8
+    SolutionIndex: 581
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -88271,28 +93261,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -88308,39 +93296,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 2
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -88354,9 +93343,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -88365,15 +93354,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -88383,6 +93373,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -88429,8 +93420,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 553
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 582
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -88438,26 +93429,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -88472,7 +93463,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -88489,23 +93480,24 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 64
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
+    LVCA: 16
     LVCB: 16
-    LVPA: 2
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -88519,9 +93511,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -88530,13 +93522,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -88546,6 +93541,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -88592,8 +93588,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 554
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 583
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -88601,11 +93597,11 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -88614,15 +93610,13 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -88630,7 +93624,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -88638,56 +93632,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
+    LSCA: 32
+    LSCB: 8
     LSPA: 8
-    LSPB: 8
+    LSPB: 32
     LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 2
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88695,15 +93690,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -88713,8 +93709,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -88759,35 +93756,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 555
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM8
+    SolutionIndex: 584
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x32_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -88795,64 +93792,61 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
+    LSCA: 32
+    LSCB: 8
     LSPA: 8
-    LSPB: 8
+    LSPB: 32
     LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 2
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88860,13 +93854,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -88876,7 +93873,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -88922,33 +93920,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 556
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WGM8
+    SolutionIndex: 585
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x32_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -88968,57 +93964,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
+    LSCA: 32
+    LSCB: 8
     LSPA: 16
     LSPB: 16
     LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89026,13 +94022,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -89089,29 +94086,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 557
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_NLCA1_NLCB1_PGR1_PLR0_TT4_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 586
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x16_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR0_TT2_2_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -89127,14 +94124,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -89144,7 +94141,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -89154,27 +94151,27 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
+    LSCB: 8
     LSPA: 8
-    LSPB: 4
+    LSPB: 32
     LVCA: 32
-    LVCB: 64
+    LVCB: 4
     LVPA: 4
-    LVPB: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -89183,9 +94180,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 8
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89193,15 +94190,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -89258,31 +94254,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 558
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WGM8
+    SolutionIndex: 587
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x8x32_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -89301,41 +94299,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 96
     LSCB: 64
-    LSPA: 2
-    LSPB: 4
-    LVCA: 128
-    LVCB: 64
-    LVPA: 2
+    LSPA: 5
+    LSPB: 8
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -89349,9 +94347,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -89360,15 +94358,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -89380,7 +94377,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -89425,8 +94422,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 559
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW1_NLCA1_NLCB1_PGR1_PLR0_TT8_4_USFGRO1_VW4_WGM8
+    SolutionIndex: 588
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -89435,21 +94432,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -89487,22 +94486,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 96
     LSCB: 64
-    LSPA: 4
+    LSPA: 5
     LSPB: 8
-    LVCA: 64
+    LVCA: 48
     LVCB: 32
-    LVPA: 2
+    LVPA: 3
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -89516,9 +94515,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -89527,13 +94526,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -89590,8 +94590,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 560
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WGM8
+    SolutionIndex: 589
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -89600,10 +94600,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -89615,7 +94615,7 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -89634,38 +94634,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
     LVPA: 4
-    LVPB: 4
+    LVPB: 3
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -89680,9 +94684,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89690,13 +94694,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -89710,7 +94712,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -89756,8 +94758,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 561
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 590
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -89766,13 +94768,13 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -89781,6 +94783,8 @@
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -89798,7 +94802,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -89819,17 +94823,21 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 128
     LSPA: 4
-    LSPB: 4
+    LSPB: 2
     LVCA: 64
-    LVCB: 64
+    LVCB: 128
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -89844,9 +94852,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89854,14 +94862,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -89874,8 +94882,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -89920,8 +94928,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 562
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 591
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -89930,11 +94938,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -89964,40 +94972,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
+    LSCB: 128
+    LSPA: 8
     LSPB: 4
-    LVCA: 64
+    LVCA: 32
     LVCB: 64
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -90012,9 +95020,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90022,13 +95030,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -90088,8 +95096,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 563
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 592
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -90098,17 +95106,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -90124,44 +95132,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 64
     LSPA: 4
-    LSPB: 4
+    LSPB: 8
     LVCA: 64
-    LVCB: 64
-    LVPA: 4
+    LVCB: 32
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -90178,10 +95186,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -90190,14 +95198,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -90256,8 +95262,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 564
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 593
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -90266,21 +95272,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -90292,7 +95300,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90300,8 +95308,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -90312,7 +95320,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
@@ -90320,20 +95328,20 @@
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -90346,7 +95354,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -90359,7 +95367,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -90424,8 +95432,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 565
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 594
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -90444,11 +95452,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -90460,7 +95468,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90468,36 +95476,36 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -90507,18 +95515,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90526,13 +95534,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -90547,7 +95555,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -90592,31 +95600,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 566
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x32_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
+    SolutionIndex: 595
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -90628,15 +95636,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -90644,45 +95652,49 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
+    LSCA: 64
+    LSCB: 32
     LSPA: 8
-    LSPB: 32
+    LSPB: 8
     LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90690,13 +95702,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -90710,7 +95722,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -90756,31 +95768,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 567
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x32_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM8
+    SolutionIndex: 596
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -90792,48 +95804,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 4
-    LVPA: 8
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -90846,11 +95858,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90860,10 +95872,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -90877,7 +95891,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -90922,15 +95936,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 568
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x16_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR0_TT2_2_USFGRO0_VW2_WG16_4_4_WGM1
+    SolutionIndex: 597
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT8x32x32_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -90938,21 +95952,19 @@
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -90967,41 +95979,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -91015,10 +96027,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91027,11 +96039,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -91090,15 +96104,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 569
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x8x32_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG16_4_4_WGM1
+    SolutionIndex: 598
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT4_2_USFGRO1_VW1_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 2]
     ThreadTile0: 4
@@ -91106,17 +96120,15 @@
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -91128,54 +96140,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
-    LSCB: 64
-    LSPA: 5
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
     LSPB: 8
-    LVCA: 48
+    LVCA: 16
     LVCB: 32
-    LVPA: 3
-    LVPB: 4
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -91183,10 +96195,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91194,12 +96206,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -91258,37 +96272,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 570
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 599
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -91296,54 +96308,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
-    LSCB: 64
-    LSPA: 5
-    LSPB: 8
-    LVCA: 48
-    LVCB: 32
-    LVPA: 3
-    LVPB: 4
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -91351,10 +96363,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91362,11 +96374,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -91426,33 +96440,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 571
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 600
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x32_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT2_2_USFGRO1_VW1_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -91464,65 +96476,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 96
-    LSPA: 8
-    LSPB: 5
-    LVCA: 32
-    LVCB: 48
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 3
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 96
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 96
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91530,12 +96542,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -91549,7 +96563,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -91594,33 +96608,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 572
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 601
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_AMAS3_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 6
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -91658,22 +96670,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 4
-    LSPB: 2
-    LVCA: 64
-    LVCB: 128
-    LVPA: 4
-    LVPB: 2
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -91687,10 +96699,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91700,12 +96712,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -91719,7 +96731,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -91764,8 +96776,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 573
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 602
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -91774,11 +96786,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -91786,7 +96798,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -91826,22 +96838,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
-    LVPA: 4
-    LVPB: 2
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -91855,10 +96867,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91868,12 +96880,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -91932,8 +96944,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 574
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 603
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS3_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -91942,11 +96954,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -91954,7 +96966,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -92053,7 +97065,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -92098,8 +97110,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 575
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 604
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS3_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -92120,7 +97132,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -92136,7 +97148,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -92144,8 +97156,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -92156,7 +97168,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
@@ -92164,20 +97176,20 @@
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -92190,7 +97202,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -92198,12 +97210,14 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -92223,7 +97237,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -92252,6 +97266,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -92268,8 +97283,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 576
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 605
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -92288,11 +97303,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -92366,7 +97381,9 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -92420,6 +97437,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -92436,8 +97454,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 577
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 606
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -92458,7 +97476,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -92472,76 +97490,247 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 607
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -92588,6 +97777,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -92604,15 +97794,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 578
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_8_2_WGM8
+    SolutionIndex: 608
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -92624,11 +97814,13 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -92640,54 +97832,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 32
-    LSPA: 32
-    LSPB: 8
-    LVCA: 8
-    LVCB: 32
-    LVPA: 32
-    LVPB: 8
+    LSCA: 64
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
+    LVPA: 4
+    LVPB: 3
     LdcEqualsLdd: false
     LdsNumElements: 3328
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -92695,25 +97887,25 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -92727,7 +97919,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -92756,6 +97948,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -92772,35 +97965,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 579
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT8x32x32_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    SolutionIndex: 609
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -92808,44 +98003,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
+    LVPA: 4
+    LVPB: 3
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
@@ -92855,7 +98050,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -92863,25 +98058,25 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -92924,6 +98119,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -92940,31 +98136,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 580
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT4_2_USFGRO1_VW1_WG4_16_4_WGM8
+    SolutionIndex: 610
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -92976,44 +98174,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 96
+    LSPA: 8
+    LSPB: 5
+    LVCA: 32
+    LVCB: 48
+    LVPA: 4
+    LVPB: 3
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
@@ -93023,7 +98221,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -93031,25 +98229,25 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -93092,6 +98290,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -93108,35 +98307,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 581
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG4_16_4_WGM8
+    SolutionIndex: 611
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -93144,7 +98345,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -93152,46 +98353,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
+    LSCA: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 32
+    LSPB: 4
     LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -93199,25 +98400,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -93260,6 +98463,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -93276,31 +98480,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 582
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x8x32_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT2_2_USFGRO1_VW1_WG16_4_4_WGM8
+    SolutionIndex: 612
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -93312,80 +98516,80 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
     LVPA: 4
-    LVPB: 16
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -93399,7 +98603,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -93428,6 +98632,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -93444,31 +98649,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 583
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_AMAS3_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    SolutionIndex: 613
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -93487,41 +98694,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
-    LSPA: 2
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
     LSPB: 4
-    LVCA: 128
+    LVCA: 32
     LVCB: 64
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -93535,24 +98742,24 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -93596,6 +98803,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -93612,8 +98820,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 584
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 614
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -93622,21 +98830,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -93710,7 +98920,9 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -93764,6 +98976,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -93780,8 +98993,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 585
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS3_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 615
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -93802,7 +99015,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -93823,7 +99036,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -93878,12 +99091,16 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -93901,7 +99118,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -93930,6 +99147,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -93946,8 +99164,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 586
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_AMAS3_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 616
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -93971,8 +99189,6 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -93984,44 +99200,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -94038,10 +99254,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -94052,13 +99268,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -94073,7 +99287,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -94119,8 +99333,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 587
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 617
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -94129,21 +99343,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -94155,7 +99371,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -94163,32 +99379,32 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
@@ -94209,11 +99425,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94223,14 +99439,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -94290,8 +99506,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 588
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 618
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -94300,21 +99516,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -94326,40 +99542,40 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
@@ -94380,11 +99596,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94394,12 +99610,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -94413,7 +99631,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -94459,8 +99677,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 589
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 619
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_PGR1_PLR0_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -94469,23 +99687,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -94497,14 +99713,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -94523,28 +99739,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 64
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 4
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -94552,9 +99768,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -94565,12 +99781,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -94630,14 +99848,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 590
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 620
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -94651,12 +99869,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -94668,65 +99884,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 96
-    LSPA: 8
-    LSPB: 5
-    LVCA: 32
-    LVCB: 48
-    LVPA: 4
-    LVPB: 3
+    LSCA: 32
+    LSCB: 64
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94736,8 +99952,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -94755,7 +99973,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -94801,33 +100019,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 591
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 621
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 6
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -94839,7 +100055,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -94847,57 +100063,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 96
-    LSPA: 8
-    LSPB: 5
-    LVCA: 32
-    LVCB: 48
-    LVPA: 4
-    LVPB: 3
+    LSCA: 32
+    LSCB: 64
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94907,8 +100123,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -94972,33 +100188,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 592
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 622
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 6
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -95010,7 +100226,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -95018,57 +100234,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 96
-    LSPA: 8
-    LSPB: 5
-    LVCA: 32
-    LVCB: 48
-    LVPA: 4
-    LVPB: 3
+    LSCA: 32
+    LSCB: 64
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95078,8 +100294,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -95143,33 +100359,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 593
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 623
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 6
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -95181,7 +100397,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -95189,57 +100405,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
-    LVPB: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95249,14 +100465,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -95316,31 +100532,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 594
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 624
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -95352,7 +100568,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -95360,57 +100576,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
-    LVPB: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95420,12 +100636,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -95485,37 +100701,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 595
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 625
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -95523,54 +100739,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
     LVPA: 4
-    LVPB: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -95579,23 +100795,23 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -95639,7 +100855,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -95656,33 +100871,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 596
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 626
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS1_GRVW1_TT4_4_USFGRO1_VW1_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -95694,7 +100907,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -95720,14 +100933,14 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
@@ -95741,7 +100954,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -95749,21 +100962,19 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -95812,7 +101023,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -95829,31 +101039,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 597
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 627
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -95865,7 +101075,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -95873,40 +101083,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 64
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
     LVPA: 2
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -95919,28 +101129,26 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsA: 8
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 8
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -95983,7 +101191,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -96000,8 +101207,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 598
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 628
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -96010,25 +101217,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -96043,41 +101250,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
+    LSCA: 64
+    LSCB: 32
     LSPA: 4
     LSPB: 8
     LVCA: 64
     LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -96091,21 +101298,21 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -96152,7 +101359,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -96169,8 +101375,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 599
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 629
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -96179,23 +101385,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -96207,7 +101411,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -96233,56 +101437,54 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 2
-    LSPB: 2
-    LVCA: 128
-    LVCB: 128
-    LVPA: 2
-    LVPB: 2
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -96325,7 +101527,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -96342,31 +101543,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 600
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_PGR1_PLR1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 630
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x16_SE_AMAS3_GRVW1_TT2_4_USFGRO1_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -96378,40 +101579,40 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 2
-    LSPB: 2
-    LVCA: 128
-    LVCB: 128
-    LVPA: 2
-    LVPB: 2
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
@@ -96425,7 +101626,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -96433,27 +101634,23 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -96467,7 +101664,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -96496,7 +101693,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -96513,31 +101709,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 601
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_PGR1_PLR0_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 631
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -96549,27 +101747,27 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
@@ -96577,20 +101775,20 @@
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 64
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
     LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -96603,7 +101801,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 64
     MacroTileA: 32
@@ -96611,16 +101809,12 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -96667,7 +101861,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -96684,8 +101877,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 602
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
+    SolutionIndex: 632
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -96704,11 +101897,13 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -96720,7 +101915,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -96728,40 +101923,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -96774,27 +101969,25 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -96838,7 +102031,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -96855,15 +102047,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 603
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM8
+    SolutionIndex: 633
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -96871,15 +102063,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -96891,14 +102083,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -96917,28 +102109,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 64
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 8
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -96946,25 +102138,25 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -97007,7 +102199,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -97024,14 +102215,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 604
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
+    SolutionIndex: 634
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -97045,16 +102236,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -97062,54 +102251,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 64
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 8
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -97117,25 +102306,25 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -97178,7 +102367,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -97195,14 +102383,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 605
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG8_16_2_WGM8
+    SolutionIndex: 635
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS1_GRVW1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -97211,17 +102399,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -97233,7 +102419,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -97241,40 +102427,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
     LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -97287,7 +102473,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -97295,20 +102481,18 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -97351,7 +102535,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -97368,8 +102551,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 606
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    SolutionIndex: 636
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -97384,7 +102567,7 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -97392,7 +102575,7 @@
     WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -97404,7 +102587,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -97412,40 +102595,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 32
+    LSCB: 64
     LSPA: 16
-    LSPB: 32
+    LSPB: 8
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVCB: 32
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -97458,26 +102641,24 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
-    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -97520,7 +102701,6 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
-      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
@@ -97537,15 +102717,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 607
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    SolutionIndex: 637
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -97557,17 +102737,17 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -97575,7 +102755,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -97583,34 +102763,34 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
@@ -97622,7 +102802,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -97630,10 +102810,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97641,14 +102821,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -97707,31 +102887,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 608
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS1_GRVW1_TT4_4_USFGRO1_VW1_WG16_8_2_WGM8
+    SolutionIndex: 638
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -97743,44 +102923,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 64
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -97790,18 +102970,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97809,13 +102989,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -97875,31 +103053,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 609
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG8_8_4_WGM8
+    SolutionIndex: 639
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -97911,7 +103091,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -97931,45 +103111,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 2
-    LSPB: 2
-    LVCA: 128
-    LVCB: 128
-    LVPA: 2
-    LVPB: 2
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97977,14 +103157,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 8
-    NumLoadsB: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 8
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -98043,35 +103223,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 610
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 640
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -98079,7 +103259,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -98099,28 +103279,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 64
     LSPA: 4
-    LSPB: 8
+    LSPB: 4
     LVCA: 64
-    LVCB: 32
+    LVCB: 64
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -98133,11 +103313,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -98145,14 +103325,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -98211,8 +103391,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 611
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 641
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -98221,21 +103401,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -98247,65 +103427,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 16
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
     LSPB: 8
-    LVCA: 16
+    LVCA: 32
     LVCB: 32
-    LVPA: 16
-    LVPB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -98313,14 +103493,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -98379,31 +103557,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 612
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x16_SE_AMAS3_GRVW1_TT2_4_USFGRO1_VW2_WG8_8_4_WGM1
+    SolutionIndex: 642
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -98422,20 +103602,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
@@ -98443,10 +103623,10 @@
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
@@ -98482,11 +103662,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -98545,8 +103727,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 613
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM1
+    SolutionIndex: 643
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -98565,13 +103747,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -98583,14 +103763,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -98609,28 +103789,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 64
-    LSPA: 16
+    LSPA: 8
     LSPB: 8
-    LVCA: 16
+    LVCA: 32
     LVCB: 32
-    LVPA: 8
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -98638,9 +103818,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -98649,12 +103829,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -98713,14 +103895,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 614
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM1
+    SolutionIndex: 644
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -98734,12 +103916,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -98758,37 +103938,37 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -98798,18 +103978,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -98817,14 +103997,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -98883,15 +104061,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 615
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_8_2_WGM8
+    SolutionIndex: 645
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -98899,15 +104077,17 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -98927,30 +104107,30 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
@@ -98986,13 +104166,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -99051,8 +104231,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 616
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 646
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -99067,19 +104247,19 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -99087,7 +104267,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -99095,46 +104275,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -99143,9 +104323,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99153,14 +104333,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -99219,15 +104399,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 617
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS1_GRVW1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 647
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -99235,15 +104415,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -99263,30 +104443,30 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
     LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
@@ -99322,13 +104502,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -99387,8 +104567,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 618
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM8
+    SolutionIndex: 648
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -99403,13 +104583,13 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -99430,7 +104610,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -99449,39 +104629,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 4
+    LSCA: 128
+    LSCB: 128
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99489,12 +104669,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -99553,33 +104735,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 619
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM8
+    SolutionIndex: 649
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_AMAS3_GRVW2_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -99591,7 +104771,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -99599,57 +104779,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99657,13 +104837,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -99723,15 +104903,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 620
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG8_8_4_WGM1
+    SolutionIndex: 650
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x8_SE_AMAS3_GRVW4_TT4_2_USFGRO1_VW2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 2]
     ThreadTile0: 4
@@ -99739,15 +104919,15 @@
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -99766,37 +104946,37 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -99806,18 +104986,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99825,12 +105005,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -99889,15 +105071,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 621
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 651
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -99905,17 +105087,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -99927,7 +105107,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -99935,46 +105115,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 64
+    LSCB: 64
     LSPA: 8
     LSPB: 8
     LVCA: 32
     LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -99982,10 +105162,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99993,14 +105173,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -100059,15 +105239,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 622
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG8_8_4_WGM1
+    SolutionIndex: 652
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -100075,15 +105255,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -100095,54 +105275,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -100150,9 +105330,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -100161,14 +105341,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -100227,14 +105405,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 623
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 653
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -100243,15 +105421,17 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -100270,31 +105450,31 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
@@ -100330,11 +105510,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -100393,8 +105575,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 624
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 654
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -100409,17 +105591,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -100438,7 +105618,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -100457,38 +105637,38 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 32
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
-    LVPA: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -100497,13 +105677,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -100563,14 +105741,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 625
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM1
+    SolutionIndex: 655
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -100584,10 +105762,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 4]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -100599,7 +105779,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -100607,46 +105787,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 8
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
     LSPB: 8
-    LVCA: 32
+    LVCA: 16
     LVCB: 32
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -100654,10 +105834,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100665,14 +105845,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -100731,35 +105911,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 626
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 656
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW1_TT2_4_USFGRO1_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -100767,44 +105947,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
+    LVCA: 32
     LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -100814,18 +105994,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100833,12 +106013,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -100897,33 +106079,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 627
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 657
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -100935,7 +106115,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -100943,57 +106123,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101001,14 +106181,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -101067,31 +106247,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 628
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 658
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -101103,7 +106283,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -101111,56 +106291,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
+    LVCB: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -101169,13 +106349,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -101235,14 +106415,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 629
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
+    SolutionIndex: 659
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -101255,11 +106435,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -101279,57 +106459,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101337,14 +106517,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 8
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 8
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -101403,29 +106583,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 630
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM1
+    SolutionIndex: 660
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -101439,7 +106619,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -101447,40 +106627,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
+    LSCA: 64
+    LSCB: 64
     LSPA: 4
     LSPB: 4
     LVCA: 64
     LVCB: 64
-    LVPA: 2
-    LVPB: 2
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -101493,11 +106673,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101505,14 +106685,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -101571,8 +106751,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 631
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_AMAS3_GRVW2_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 661
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -101581,21 +106761,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -101607,61 +106787,61 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 32
     MacroTileA: 32
@@ -101675,12 +106855,10 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -101739,31 +106917,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 632
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x8_SE_AMAS3_GRVW4_TT4_2_USFGRO1_VW2_WG8_16_2_WGM8
+    SolutionIndex: 662
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -101775,54 +106955,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 4
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -101830,9 +107010,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -101841,13 +107021,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -101907,31 +107085,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 633
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
+    SolutionIndex: 663
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -101943,7 +107123,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -101951,46 +107131,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 64
     LSPA: 8
-    LSPB: 8
+    LSPB: 4
     LVCA: 32
-    LVCB: 32
-    LVPA: 4
+    LVCB: 64
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -101998,9 +107178,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -102009,14 +107189,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -102075,14 +107255,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 634
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 664
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -102091,15 +107271,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -102111,27 +107291,27 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
@@ -102139,20 +107319,20 @@
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 64
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
     LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -102165,7 +107345,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 64
     MacroTileA: 32
@@ -102178,7 +107358,9 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -102241,8 +107423,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 635
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
+    SolutionIndex: 665
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -102261,13 +107443,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -102279,7 +107459,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -102287,40 +107467,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -102333,7 +107513,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -102346,7 +107526,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -102411,8 +107591,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 636
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 666
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -102427,15 +107607,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -102447,65 +107627,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -102513,12 +107693,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -102577,33 +107759,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 637
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
+    SolutionIndex: 667
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -102615,7 +107795,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -102635,44 +107815,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 32
-    LSPA: 16
+    LSPA: 4
     LSPB: 8
-    LVCA: 16
+    LVCA: 64
     LVCB: 32
-    LVPA: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
+    LoopUnroll: 4
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -102681,14 +107861,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 2
-    NumLoadsB: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -102747,35 +107927,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 638
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW1_TT2_4_USFGRO1_VW2_WG8_8_4_WGM8
+    SolutionIndex: 668
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -102803,24 +107983,24 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 32
     LSPA: 8
-    LSPB: 16
+    LSPB: 8
     LVCA: 32
-    LVCB: 16
+    LVCB: 32
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -102839,9 +108019,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -102849,14 +108029,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -102915,8 +108095,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 639
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG8_8_4_WGM8
+    SolutionIndex: 669
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -102925,17 +108105,17 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 2
     WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -102951,7 +108131,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -102959,46 +108139,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -103006,10 +108186,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103017,14 +108197,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -103083,31 +108263,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 640
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_8_4_WGM1
+    SolutionIndex: 670
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -103119,7 +108299,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -103127,57 +108307,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103185,14 +108365,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -103251,35 +108431,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 641
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM1
+    SolutionIndex: 671
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -103287,7 +108467,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -103307,28 +108487,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 2
-    LSPB: 2
-    LVCA: 128
-    LVCB: 128
-    LVPA: 2
-    LVPB: 2
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -103341,11 +108521,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103353,14 +108533,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 8
-    NumLoadsB: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 8
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -103419,8 +108599,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 642
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x16_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 672
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -103429,21 +108609,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -103455,7 +108635,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -103463,46 +108643,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -103510,10 +108690,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103521,14 +108701,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -103587,15 +108767,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 643
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 673
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -103603,19 +108783,19 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -103630,41 +108810,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 8
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LVCB: 32
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -103678,9 +108858,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -103689,12 +108869,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -103753,8 +108935,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 644
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM8
+    SolutionIndex: 674
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS1_GRVW1_TT2_4_USFGRO1_VW1_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -103763,23 +108945,21 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 1
     WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -103791,54 +108971,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -103846,9 +109026,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -103857,12 +109037,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -103921,33 +109103,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 645
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_8_4_WGM8
+    SolutionIndex: 675
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_GRVW1_TT4_2_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -103959,7 +109139,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -103979,28 +109159,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
-    LVPA: 8
-    LVPB: 4
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -104013,11 +109193,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -104025,14 +109205,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -104091,31 +109271,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 646
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG8_16_2_WGM8
+    SolutionIndex: 676
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x32_SE_AMAS3_GRVW1_TT4_2_USFGRO1_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -104127,14 +109307,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -104153,28 +109333,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 64
-    LSPA: 16
+    LSPA: 8
     LSPB: 8
-    LVCA: 16
+    LVCA: 32
     LVCB: 32
-    LVPA: 8
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -104182,9 +109362,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -104193,14 +109373,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -104259,14 +109437,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 647
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM1
+    SolutionIndex: 677
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -104280,10 +109458,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -104302,7 +109482,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -104322,17 +109502,17 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 32
     LSPA: 8
-    LSPB: 8
+    LSPB: 16
     LVCA: 32
-    LVCB: 32
+    LVCB: 16
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -104342,18 +109522,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -104361,14 +109541,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -104427,15 +109605,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 648
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 678
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -104448,14 +109626,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -104463,7 +109643,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -104483,24 +109663,24 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 2
-    LSPB: 2
-    LVCA: 128
-    LVCB: 128
-    LVPA: 2
-    LVPB: 2
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -104510,7 +109690,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -104518,10 +109698,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -104529,14 +109709,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -104595,31 +109775,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 649
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 679
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -104651,45 +109831,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 128
+    LSPA: 2
+    LSPB: 2
+    LVCA: 128
+    LVCB: 128
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -104697,14 +109877,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -104763,35 +109943,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 650
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
+    SolutionIndex: 680
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -104819,28 +109999,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 8
+    LSPA: 16
     LSPB: 8
-    LVCA: 32
+    LVCA: 16
     LVCB: 32
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -104854,9 +110034,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -104865,13 +110045,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumLoadsA: 2
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -104931,8 +110111,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 651
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG8_8_4_WGM8
+    SolutionIndex: 681
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS1_GRVW1_TT2_4_USFGRO1_VW1_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -104941,19 +110121,19 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 1
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
   - AggressivePerfMode: 1
@@ -104975,7 +110155,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -104983,32 +110163,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 2
-    LSPB: 2
-    LVCA: 128
-    LVCB: 128
-    LVPA: 2
-    LVPB: 2
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -105022,10 +110202,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105033,14 +110213,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -105099,8 +110279,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 652
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 682
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_GRVW4_TT4_2_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -105109,19 +110289,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -105155,28 +110335,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 2
-    LSPB: 2
-    LVCA: 128
-    LVCB: 128
-    LVPA: 2
-    LVPB: 2
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -105190,10 +110370,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105201,14 +110381,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -105267,8 +110447,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 653
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 683
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -105277,25 +110457,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -105310,37 +110490,37 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 4
+    LSCB: 64
+    LSPA: 8
     LSPB: 8
-    LVCA: 64
+    LVCA: 32
     LVCB: 32
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1792
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -105359,9 +110539,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105369,13 +110549,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -105435,8 +110613,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 654
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 684
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -105445,21 +110623,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -105471,7 +110651,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -105479,8 +110659,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -105491,34 +110671,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -105526,10 +110706,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105537,8 +110717,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -105603,15 +110783,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 655
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM8
+    SolutionIndex: 685
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -105623,15 +110803,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -105647,57 +110827,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 32
-    LSPA: 16
+    LSCB: 64
+    LSPA: 32
     LSPB: 8
-    LVCA: 16
+    LVCA: 8
     LVCB: 32
     LVPA: 16
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 6656
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 4608
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 16
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 16
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105705,13 +110885,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -105771,15 +110951,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 656
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS1_GRVW1_TT2_4_USFGRO1_VW1_WG8_8_4_WGM8
+    SolutionIndex: 686
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x64x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [2, 4]
     ThreadTile0: 2
@@ -105787,13 +110967,13 @@
     ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
   - AggressivePerfMode: 1
@@ -105807,7 +110987,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -105815,46 +110995,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 4
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -105862,9 +111042,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -105873,14 +111053,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -105939,31 +111119,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 657
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_GRVW1_TT4_2_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 687
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -105975,7 +111155,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -105983,57 +111163,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -106041,14 +111221,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -106107,31 +111287,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 658
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x32_SE_AMAS3_GRVW1_TT4_2_USFGRO1_VW2_WG16_8_2_WGM8
+    SolutionIndex: 688
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW4_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -106143,14 +111323,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -106169,28 +111349,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 64
-    LSPA: 8
+    LSPA: 16
     LSPB: 8
-    LVCA: 32
+    LVCA: 16
     LVCB: 32
-    LVPA: 4
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -106198,9 +111378,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -106209,12 +111389,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -106273,14 +111455,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 659
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 689
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -106294,12 +111476,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -106318,37 +111498,37 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
+    LSCB: 16
+    LSPA: 4
     LSPB: 16
-    LVCA: 32
+    LVCA: 64
     LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -106367,9 +111547,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -106377,11 +111557,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -106441,8 +111623,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 660
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM1
+    SolutionIndex: 690
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_AMAS3_GRVW1_TT4_2_USFGRO1_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -106451,13 +111633,13 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -106466,12 +111648,10 @@
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -106486,58 +111666,58 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -106545,14 +111725,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -106611,31 +111789,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 661
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_AMAS1_GRVW1_TT4_2_USFGRO1_VW1_WG8_8_4_WGM1
+    SolutionIndex: 691
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -106647,7 +111827,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -106655,57 +111835,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
-    LSPA: 2
-    LSPB: 2
-    LVCA: 128
-    LVCB: 128
-    LVPA: 2
-    LVPB: 2
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -106713,14 +111893,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -106779,35 +111959,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 662
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 692
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -106822,41 +112002,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -106870,9 +112050,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -106881,14 +112061,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -106947,8 +112125,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 663
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS1_GRVW1_TT2_4_USFGRO1_VW1_WG8_8_4_WGM1
+    SolutionIndex: 693
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -106957,21 +112135,23 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -106983,42 +112163,42 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 4
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
@@ -107030,18 +112210,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107049,10 +112229,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -107115,15 +112293,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 664
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_AMAS3_GRVW4_TT4_2_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 694
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x16_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 2]
     ThreadTile0: 4
@@ -107136,10 +112314,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -107151,7 +112331,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107159,57 +112339,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107217,14 +112397,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -107283,15 +112463,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 665
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 695
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -107299,15 +112479,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -107319,14 +112499,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -107335,7 +112515,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -107345,28 +112525,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 4
-    LVPB: 4
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -107374,10 +112554,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107385,12 +112565,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -107449,15 +112631,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 666
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 696
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -107470,12 +112652,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -107487,7 +112667,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107495,46 +112675,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
+    LSCA: 32
+    LSCB: 32
     LSPA: 8
     LSPB: 8
     LVCA: 32
     LVCB: 32
-    LVPA: 4
-    LVPB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -107542,10 +112722,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107553,14 +112733,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -107619,15 +112799,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 667
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 697
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -107635,19 +112815,19 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -107655,7 +112835,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107663,56 +112843,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 64
-    LSPA: 32
-    LSPB: 8
-    LVCA: 8
-    LVCB: 32
-    LVPA: 16
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 6656
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 4608
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -107721,14 +112901,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -107787,31 +112967,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 668
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x64x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_16_2_WGM1
+    SolutionIndex: 698
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS1_GRVW1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -107823,7 +113003,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107849,39 +113029,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107889,13 +113069,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -107955,20 +113135,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 669
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_AMAS3_GRVW2_TT2_4_USFGRO0_VW2_WG8_8_4_WGM8
+    SolutionIndex: 699
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -107976,10 +113156,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -107991,7 +113171,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107999,36 +113179,36 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 128
+    LSCA: 64
+    LSCB: 16
     LSPA: 8
-    LSPB: 8
+    LSPB: 16
     LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 2
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -108038,7 +113218,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -108046,10 +113226,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108057,13 +113237,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -108123,31 +113303,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 670
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x128x8_SE_AMAS3_GRVW4_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 700
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -108185,22 +113365,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 4
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -108214,10 +113394,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108227,12 +113407,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -108291,15 +113471,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 671
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM8
+    SolutionIndex: 701
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -108312,7 +113492,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -108327,7 +113507,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -108354,27 +113534,27 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 64
     LSPA: 4
-    LSPB: 16
+    LSPB: 4
     LVCA: 64
-    LVCB: 16
+    LVCB: 64
     LVPA: 4
-    LVPB: 16
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -108383,9 +113563,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108393,14 +113573,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -108459,31 +113639,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 672
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_AMAS3_GRVW1_TT4_2_USFGRO1_VW2_WG16_8_2_WGM1
+    SolutionIndex: 702
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -108502,57 +113682,57 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
+    LVCB: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -108561,12 +113741,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -108625,14 +113807,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 673
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    SolutionIndex: 703
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -108645,13 +113827,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -108663,14 +113843,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -108698,13 +113878,13 @@
     LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -108717,7 +113897,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -108731,12 +113911,10 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -108795,8 +113973,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 674
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM1
+    SolutionIndex: 704
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -108817,9 +113995,11 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -108831,14 +114011,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -108857,14 +114037,14 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
@@ -108878,18 +114058,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108897,8 +114077,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -108961,15 +114143,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 675
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM1
+    SolutionIndex: 705
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -108982,12 +114164,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -108999,7 +114179,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -109007,40 +114187,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
     LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -109053,11 +114233,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109065,7 +114245,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -109129,8 +114309,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 676
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x16_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG8_8_4_WGM1
+    SolutionIndex: 706
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -109139,21 +114319,21 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -109174,41 +114354,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 32
+    LSCB: 64
     LSPA: 16
-    LSPB: 32
+    LSPB: 8
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVCB: 32
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -109222,10 +114402,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109234,13 +114414,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -109299,15 +114477,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 677
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    SolutionIndex: 707
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -109319,11 +114497,13 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -109343,57 +114523,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
-    LSPA: 16
+    LSCB: 64
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109401,13 +114581,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -109467,15 +114647,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 678
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM1
+    SolutionIndex: 708
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -109487,8 +114667,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    VectorWidth: 4
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -109511,40 +114691,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
-    LSPA: 8
+    LSCB: 64
+    LSPA: 16
     LSPB: 8
-    LVCA: 32
+    LVCA: 16
     LVCB: 32
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -109559,9 +114739,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109569,13 +114749,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -109635,8 +114815,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 679
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW4_WG8_8_4_WGM1
+    SolutionIndex: 709
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW2_TT4_8_USFGRO0_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -109645,17 +114825,17 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -109663,7 +114843,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -109671,7 +114851,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -109679,46 +114859,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -109727,9 +114907,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109737,13 +114917,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -109803,31 +114983,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 680
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS1_GRVW1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 710
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW2_TT8_4_USFGRO0_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -109839,7 +115019,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -109874,19 +115054,19 @@
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -109907,12 +115087,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -109971,20 +115151,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 681
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 711
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x32_SE_AMAS3_GRVW2_TT8_4_USFGRO0_VW2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -109992,10 +115172,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -110007,7 +115187,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -110016,7 +115196,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -110029,32 +115209,32 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 32
     LSPA: 8
     LSPB: 16
     LVCA: 32
     LVCB: 16
     LVPA: 4
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -110063,9 +115243,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -110073,14 +115253,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -110139,31 +115319,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 682
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_AMAS3_GRVW2_TT4_2_USFGRO0_VW2_WG16_8_2_WGM8
+    SolutionIndex: 712
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW2_TT8_4_USFGRO0_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -110175,7 +115355,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -110183,46 +115363,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -110231,24 +115411,26 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -110262,7 +115444,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -110291,12 +115473,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -110307,15 +115491,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 683
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM8
+    SolutionIndex: 713
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -110323,15 +115507,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -110349,7 +115533,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -110378,13 +115562,9 @@
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -110405,7 +115585,9 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -110429,7 +115611,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -110459,12 +115641,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -110475,8 +115659,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 684
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_GRVW1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 714
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -110497,7 +115681,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -110511,7 +115695,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -110519,46 +115703,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -110566,19 +115750,21 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -110627,12 +115813,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -110643,15 +115831,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 685
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_8_4_WGM8
+    SolutionIndex: 715
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -110659,15 +115847,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -110679,54 +115867,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -110735,22 +115923,26 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -110793,12 +115985,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -110809,15 +116003,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 686
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG16_8_2_WGM8
+    SolutionIndex: 716
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -110825,17 +116019,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -110853,42 +116045,38 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -110909,18 +116097,20 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -110933,7 +116123,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -110963,12 +116153,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -110979,8 +116171,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 687
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 717
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -110995,11 +116187,11 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -111015,78 +116207,78 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -111099,7 +116291,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -111129,12 +116321,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -111145,15 +116339,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 688
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_8_4_WGM8
+    SolutionIndex: 718
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -111161,17 +116355,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 4]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -111183,78 +116375,82 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -111268,7 +116464,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -111297,12 +116493,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -111313,14 +116511,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 689
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW2_TT4_4_USFGRO0_VW2_WG8_16_2_WGM1
+    SolutionIndex: 719
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -111329,17 +116527,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -111351,79 +116547,77 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 64
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 8
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -111437,8 +116631,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -111467,12 +116661,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -111483,14 +116679,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 690
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW4_TT4_4_USFGRO0_VW4_WG8_16_2_WGM1
+    SolutionIndex: 720
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -111499,15 +116695,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -111519,7 +116715,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -111527,46 +116723,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -111574,25 +116770,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -111606,7 +116804,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -111635,12 +116833,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -111651,31 +116851,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 691
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x32_SE_AMAS3_GRVW2_TT4_8_USFGRO0_VW2_WG8_8_4_WGM1
+    SolutionIndex: 721
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -111687,54 +116887,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -111743,23 +116939,25 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -111773,7 +116971,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -111803,12 +117001,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -111819,31 +117019,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 692
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW2_TT8_4_USFGRO0_VW2_WG8_8_4_WGM1
+    SolutionIndex: 722
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -111855,7 +117055,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -111863,53 +117063,53 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -111917,18 +117117,20 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -111971,12 +117173,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -111987,31 +117191,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 693
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x32_SE_AMAS3_GRVW2_TT8_4_USFGRO0_VW2_WG8_16_2_WGM8
+    SolutionIndex: 723
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -112023,80 +117227,78 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSCB: 64
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -112109,7 +117311,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -112139,12 +117341,14 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: true
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -112155,31 +117359,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 694
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x32_SE_AMAS3_GRVW2_TT8_4_USFGRO0_VW2_WG8_8_4_WGM8
+    SolutionIndex: 724
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -112191,7 +117395,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -112211,7 +117415,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -112226,13 +117430,13 @@
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -112245,7 +117449,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -112260,13 +117464,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -112280,7 +117484,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -112327,8 +117531,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 695
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 725
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -112347,11 +117551,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -112363,7 +117567,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -112383,7 +117587,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -112398,9 +117602,9 @@
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -112413,7 +117617,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -112428,13 +117632,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -112495,8 +117699,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 696
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 726
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -112515,11 +117719,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -112539,30 +117743,30 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
@@ -112601,12 +117805,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -112667,8 +117871,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 697
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 727
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -112683,7 +117887,7 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -112711,30 +117915,30 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
@@ -112773,12 +117977,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -112839,8 +118043,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 698
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 728
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -112855,7 +118059,7 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -112875,44 +118079,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -112925,7 +118133,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -112941,12 +118149,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -112959,7 +118167,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -113007,8 +118215,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 699
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 729
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -113023,7 +118231,7 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -113031,7 +118239,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -113043,44 +118251,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -113093,7 +118305,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -113109,12 +118321,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -113127,7 +118339,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -113175,8 +118387,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 700
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 730
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -113191,7 +118403,7 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -113199,7 +118411,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -113211,7 +118423,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -113219,40 +118431,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -113265,7 +118477,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -113281,12 +118493,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -113300,7 +118512,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -113347,8 +118559,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 701
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 731
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -113363,7 +118575,7 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -113371,7 +118583,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -113383,44 +118595,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -113433,7 +118649,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -113449,12 +118665,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -113467,8 +118683,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -113515,8 +118731,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 702
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 732
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -113531,7 +118747,7 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -113539,7 +118755,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -113558,31 +118774,31 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
@@ -113620,13 +118836,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -113640,7 +118854,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -113687,8 +118901,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 703
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 733
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -113703,15 +118917,17 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -113723,44 +118939,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -113773,7 +118993,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -113789,12 +119009,10 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -113807,7 +119025,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -113855,8 +119073,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 704
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 734
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -113871,15 +119089,17 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -113911,28 +119131,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 64
-    LSPA: 4
+    LSPA: 8
     LSPB: 4
-    LVCA: 64
+    LVCA: 32
     LVCB: 64
-    LVPA: 4
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -113946,9 +119166,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -113959,13 +119179,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
     NumLoadsB: 2
-    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -114027,8 +119247,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 705
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 735
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT6_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114037,19 +119257,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -114063,13 +119283,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -114083,24 +119303,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 64
-    LSPA: 4
+    LSPA: 8
     LSPB: 4
-    LVCA: 64
+    LVCA: 32
     LVCB: 64
-    LVPA: 4
+    LVPA: 8
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114113,10 +119337,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -114127,14 +119351,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -114147,7 +119371,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -114195,8 +119419,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 706
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 736
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT6_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114205,21 +119429,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -114231,48 +119455,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 96
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
+    LSPA: 5
+    LSPB: 8
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114285,10 +119509,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -114299,14 +119523,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -114367,8 +119589,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 707
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 737
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114377,21 +119599,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -114403,44 +119627,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 96
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
+    LSPA: 5
+    LSPB: 8
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114453,10 +119681,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -114467,14 +119695,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -114487,7 +119713,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -114535,8 +119761,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 708
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 738
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114545,21 +119771,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -114579,40 +119807,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 8
+    LSCB: 32
+    LSPA: 4
     LSPB: 8
-    LVCA: 32
+    LVCA: 64
     LVCB: 32
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114627,9 +119855,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114639,13 +119867,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 2
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -114707,8 +119935,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 709
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 739
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_6_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114717,19 +119945,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -114750,7 +119978,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -114770,21 +119998,21 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 96
     LSPA: 8
-    LSPB: 8
+    LSPB: 5
     LVCA: 32
-    LVCB: 32
+    LVCB: 48
     LVPA: 4
-    LVPB: 4
+    LVPB: 3
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114799,9 +120027,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114811,14 +120039,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -114879,8 +120105,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 710
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 740
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114889,11 +120115,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -114901,9 +120127,11 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -114922,7 +120150,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -114931,7 +120159,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -114942,21 +120170,21 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 96
     LSPA: 8
-    LSPB: 8
+    LSPB: 5
     LVCA: 32
-    LVCB: 32
+    LVCB: 48
     LVPA: 4
-    LVPB: 4
+    LVPB: 3
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114971,9 +120199,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114983,14 +120211,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -115051,8 +120277,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 711
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 741
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -115061,11 +120287,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -115073,9 +120299,11 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -115095,40 +120323,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -115143,9 +120371,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115155,14 +120383,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -115176,7 +120404,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -115223,8 +120451,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 712
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 742
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -115233,19 +120461,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -115259,7 +120487,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -115267,40 +120495,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -115313,11 +120541,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115327,14 +120555,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -115348,7 +120576,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -115395,8 +120623,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 713
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 743
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -115405,21 +120633,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -115431,7 +120659,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -115439,40 +120667,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -115485,11 +120713,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115499,14 +120727,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -115520,7 +120748,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -115567,8 +120795,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 714
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 744
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -115577,21 +120805,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -115610,7 +120838,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -115630,21 +120858,21 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 8
+    LSPB: 4
     LVCA: 32
-    LVCB: 32
+    LVCB: 64
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -115659,9 +120887,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115671,12 +120899,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -115690,7 +120920,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -115737,8 +120967,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 715
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 745
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -115747,11 +120977,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -115762,8 +120992,6 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -115775,48 +121003,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
     LVPA: 4
-    LVPB: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -115829,11 +121057,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115843,12 +121071,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -115909,8 +121139,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 716
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 746
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -115919,23 +121149,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -115955,40 +121183,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
+    LSCA: 64
+    LSCB: 128
     LSPA: 8
     LSPB: 4
     LVCA: 32
     LVCB: 64
-    LVPA: 8
-    LVPB: 4
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -116002,10 +121230,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116015,11 +121243,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 3
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
     NumLoadsB: 2
-    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
@@ -116083,8 +121311,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 717
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT6_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 747
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116093,19 +121321,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -116119,48 +121347,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
-    LVPA: 8
-    LVPB: 4
+    LSCA: 64
+    LSCB: 128
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -116173,11 +121397,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116187,11 +121411,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 3
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 2
-    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
@@ -116207,8 +121431,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -116255,8 +121479,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 718
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT6_4_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 748
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_DTL0_EPS0_FL0_GRVW4_PGR0_PLR0_TT4_8_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116265,21 +121489,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -116317,22 +121541,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
-    LSCB: 64
-    LSPA: 5
-    LSPB: 8
-    LVCA: 48
-    LVCB: 32
-    LVPA: 3
-    LVPB: 4
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -116346,10 +121570,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116359,12 +121583,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -116425,8 +121649,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 719
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 749
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116435,11 +121659,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -116450,7 +121674,7 @@
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -116489,22 +121713,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
-    LSCB: 64
-    LSPA: 5
-    LSPB: 8
-    LVCA: 48
-    LVCB: 32
-    LVPA: 3
-    LVPB: 4
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -116518,10 +121742,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116531,12 +121755,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -116597,8 +121821,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 720
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 750
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116607,11 +121831,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -116622,7 +121846,7 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -116655,28 +121879,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -116690,10 +121914,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116703,14 +121927,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 2
-    NumLoadsB: 3
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -116724,7 +121948,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -116771,8 +121995,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 721
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_6_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 751
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116781,19 +122005,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -116814,41 +122038,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 96
-    LSPA: 8
-    LSPB: 5
-    LVCA: 32
-    LVCB: 48
-    LVPA: 4
-    LVPB: 3
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -116862,10 +122086,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116875,11 +122099,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -116894,7 +122120,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -116941,8 +122167,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 722
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 752
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116951,23 +122177,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -116986,41 +122210,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 96
-    LSPA: 8
-    LSPB: 5
-    LVCA: 32
-    LVCB: 48
-    LVPA: 4
-    LVPB: 3
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
+    LVCB: 64
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -117034,10 +122258,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117047,11 +122271,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -117113,8 +122339,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 723
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x96x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 753
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -117123,23 +122349,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -117159,40 +122383,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
+    LSCA: 128
+    LSCB: 64
     LSPA: 4
-    LSPB: 2
+    LSPB: 8
     LVCA: 64
-    LVCB: 128
-    LVPA: 4
-    LVPB: 2
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -117206,10 +122430,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117220,13 +122444,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
-    NumLoadsB: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -117287,8 +122511,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 724
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 754
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR0_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -117297,17 +122521,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -117330,41 +122554,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
+    LSCA: 128
+    LSCB: 64
     LSPA: 4
-    LSPB: 2
+    LSPB: 8
     LVCA: 64
-    LVCB: 128
-    LVPA: 4
-    LVPB: 2
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -117378,10 +122602,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117392,13 +122616,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -117412,7 +122634,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -117459,8 +122681,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 725
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 755
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -117469,21 +122691,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -117495,48 +122719,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
+    LSCA: 32
+    LSCB: 64
     LSPA: 8
     LSPB: 4
     LVCA: 32
     LVCB: 64
-    LVPA: 4
-    LVPB: 2
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -117549,11 +122769,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117563,14 +122783,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -117583,8 +122803,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -117631,8 +122851,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 726
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 756
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -117641,13 +122861,13 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -117655,7 +122875,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -117667,48 +122887,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
+    LSCA: 32
+    LSCB: 64
     LSPA: 8
     LSPB: 4
     LVCA: 32
     LVCB: 64
-    LVPA: 4
-    LVPB: 2
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -117721,11 +122937,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117735,14 +122951,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -117755,8 +122971,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -117803,8 +123019,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 727
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 757
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -117813,13 +123029,13 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -117827,7 +123043,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -117847,7 +123063,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -117855,32 +123071,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
+    LSCA: 32
+    LSCB: 64
     LSPA: 8
-    LSPB: 4
+    LSPB: 8
     LVCA: 32
-    LVCB: 64
-    LVPA: 4
-    LVPB: 2
+    LVCB: 32
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -117894,10 +123110,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117907,14 +123123,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -117975,8 +123191,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 728
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 758
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -117985,11 +123201,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -117997,7 +123213,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -118011,7 +123227,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118019,34 +123235,34 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
+    LSCA: 32
+    LSCB: 64
     LSPA: 8
     LSPB: 4
     LVCA: 32
     LVCB: 64
-    LVPA: 4
-    LVPB: 2
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
@@ -118058,7 +123274,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -118066,10 +123282,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118079,14 +123295,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -118147,31 +123363,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 729
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 759
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -118189,55 +123405,59 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 4
-    LVPB: 2
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118247,14 +123467,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -118267,8 +123487,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -118315,29 +123535,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 730
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x16_SE_DTL0_EPS0_FL0_GRVW4_PGR0_PLR0_TT4_8_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 760
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -118358,58 +123578,58 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
+    LSCA: 32
+    LSCB: 32
     LSPA: 8
-    LSPB: 4
+    LSPB: 8
     LVCA: 32
-    LVCB: 64
-    LVPA: 4
-    LVPB: 2
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118419,12 +123639,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -118485,33 +123707,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 731
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 761
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -118523,7 +123743,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118539,7 +123759,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -118549,28 +123769,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
-    LVPA: 4
-    LVPB: 2
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -118578,10 +123798,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118591,12 +123811,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -118657,31 +123877,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 732
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 762
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x16_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -118695,7 +123915,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118721,16 +123941,16 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
-    LSPA: 2
-    LSPB: 4
-    LVCA: 128
-    LVCB: 64
-    LVPA: 2
-    LVPB: 4
+    LSCA: 64
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
@@ -118742,7 +123962,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -118750,10 +123970,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118763,8 +123983,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -118784,7 +124004,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -118831,20 +124051,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 733
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 763
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -118852,10 +124072,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -118867,7 +124087,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118887,34 +124107,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
-    LSPA: 2
-    LSPB: 4
-    LVCA: 128
-    LVCB: 64
-    LVPA: 2
-    LVPB: 4
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -118922,10 +124142,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118935,14 +124155,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -118956,7 +124176,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -119003,31 +124223,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 734
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 764
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT8x32x32_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -119039,54 +124259,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
-    LSPA: 2
-    LSPB: 4
-    LVCA: 128
-    LVCB: 64
-    LVPA: 2
-    LVPB: 4
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -119094,10 +124314,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119107,13 +124327,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -119175,31 +124393,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 735
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 765
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -119211,7 +124431,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -119219,56 +124439,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 16
     LSCB: 64
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 2
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -119279,13 +124499,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -119300,7 +124520,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -119347,31 +124567,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 736
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR0_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 766
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -119383,40 +124603,40 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LSCA: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
@@ -119430,7 +124650,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -119438,10 +124658,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119451,12 +124671,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -119517,33 +124739,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 737
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 767
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -119561,9 +124781,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -119571,45 +124791,49 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 64
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 8
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119619,14 +124843,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -119639,7 +124863,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -119687,15 +124911,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 738
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 768
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x16_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [2, 4]
     ThreadTile0: 2
@@ -119703,12 +124927,12 @@
     ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -119729,9 +124953,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -119739,45 +124963,49 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
-    LVPA: 8
-    LVPB: 4
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119787,14 +125015,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -119807,7 +125035,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -119855,29 +125083,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 739
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 769
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -119891,7 +125119,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -119899,8 +125127,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -119911,45 +125139,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 4
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119959,8 +125187,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -120027,31 +125255,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 740
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 770
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -120063,54 +125291,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
+    LSCA: 64
+    LSCB: 16
     LSPA: 8
-    LSPB: 4
+    LSPB: 32
     LVCA: 32
-    LVCB: 64
-    LVPA: 8
-    LVPB: 4
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120118,10 +125346,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120131,14 +125359,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -120199,15 +125425,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 741
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG8_16_2_WGM1
+    SolutionIndex: 771
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x32_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -120215,15 +125441,17 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -120235,13 +125463,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -120261,28 +125489,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 8
+    LSCA: 64
+    LSCB: 32
+    LSPA: 2
     LSPB: 4
-    LVCA: 32
-    LVCB: 64
-    LVPA: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120290,10 +125514,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120303,15 +125527,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -120323,7 +125547,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -120371,15 +125595,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 742
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG8_16_2_WGM1
+    SolutionIndex: 772
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -120392,10 +125616,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -120413,7 +125637,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -120423,48 +125647,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
+    LSPA: 2
+    LSPB: 4
+    LVCA: 64
     LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -120475,15 +125695,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -120495,7 +125715,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -120543,8 +125763,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 743
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_2_WGM1
+    SolutionIndex: 773
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -120553,19 +125773,19 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -120585,8 +125805,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -120595,7 +125815,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -120605,38 +125825,34 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 32
     LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -120647,13 +125863,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -120665,7 +125883,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -120713,8 +125931,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 744
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x32x16_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_8_2_WGM1
+    SolutionIndex: 774
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW2_PGR0_PLR1_TT4_4_USFGRO0_VW2_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -120723,10 +125941,10 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -120734,12 +125952,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -120751,7 +125967,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120771,34 +125987,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
+    LSCB: 64
+    LSPA: 2
+    LSPB: 2
     LVCA: 64
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
+    LVCB: 64
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120807,9 +126023,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120819,15 +126035,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -120840,7 +126056,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -120887,8 +126103,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 745
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
+    SolutionIndex: 775
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW2_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -120897,21 +126113,21 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -120923,7 +126139,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120943,34 +126159,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 32
-    LSPA: 32
-    LSPB: 8
-    LVCA: 8
-    LVCB: 32
-    LVPA: 32
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 2
+    LSPB: 2
+    LVCA: 64
+    LVCB: 64
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120978,10 +126194,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120991,15 +126207,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -121012,7 +126228,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -121059,31 +126275,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 746
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT8x32x32_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    SolutionIndex: 776
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -121095,54 +126311,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 64
+    LSPA: 2
+    LSPB: 2
+    LVCA: 64
+    LVCB: 64
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -121150,10 +126366,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121163,13 +126379,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -121182,7 +126400,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -121229,33 +126447,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 747
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x32x32_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG4_16_4_WGM1
+    SolutionIndex: 777
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -121267,7 +126483,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121275,7 +126491,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -121288,43 +126504,43 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 64
-    LSPA: 16
-    LSPB: 16
+    LSPA: 8
+    LSPB: 8
     LVCA: 16
     LVCB: 16
-    LVPA: 16
-    LVPB: 4
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -121335,15 +126551,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -121356,7 +126572,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -121403,31 +126619,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 748
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT16x64x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG4_16_4_WGM8
+    SolutionIndex: 778
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -121439,7 +126655,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121447,46 +126663,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 64
     LSPA: 8
-    LSPB: 16
-    LVCA: 32
+    LSPB: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -121494,10 +126710,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121507,15 +126723,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -121528,7 +126744,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -121575,31 +126791,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 749
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x32_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_4_4_WGM1
+    SolutionIndex: 779
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -121611,44 +126827,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
     LVCA: 16
     LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -121658,18 +126874,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121679,15 +126895,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -121700,7 +126914,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -121747,31 +126961,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 750
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x16x16_SE_DTL0_EPS1_FL0_GRVW2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
+    SolutionIndex: 780
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -121783,16 +126999,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -121805,43 +127021,43 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
     LVCA: 16
     LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121851,15 +127067,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -121919,31 +127133,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 751
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    SolutionIndex: 781
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -121955,15 +127171,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
-    DirectToLds: false
-    DirectToLdsA: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -121971,49 +127187,45 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 1
+    LSPB: 4
+    LVCA: 128
+    LVCB: 32
+    LVPA: 1
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122023,15 +127235,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -122043,7 +127255,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -122091,31 +127303,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 752
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x16_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
+    SolutionIndex: 782
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x8_SE_DTL1_EPS0_FL0_GRVW1_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -122127,14 +127339,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -122153,39 +127365,35 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 32
+    LSCB: 64
     LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
+    LSPB: 4
+    LVCA: 16
+    LVCB: 32
     LVPA: 4
-    LVPB: 16
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122195,13 +127403,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -122213,7 +127423,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -122261,15 +127471,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 753
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x16x32_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_4_4_WGM1
+    SolutionIndex: 783
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL0_GRVW2_PGR0_PLR1_TT4_4_USFGRO0_VW2_WG8_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -122282,12 +127492,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -122305,38 +127513,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 2
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
     LSPB: 4
-    LVCA: 64
+    LVCA: 16
     LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -122350,10 +127562,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122364,12 +127576,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 128
     OptNoLoadLoop: 1
@@ -122383,7 +127593,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -122431,15 +127641,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 754
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 784
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -122447,15 +127657,17 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -122467,42 +127679,42 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 2
+    LSCA: 32
+    LSCB: 64
+    LSPA: 8
     LSPB: 4
-    LVCA: 64
+    LVCA: 16
     LVCB: 32
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 1536
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
@@ -122517,11 +127729,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122532,13 +127744,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -122599,15 +127809,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 755
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 785
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL1_GRVW2_PGR0_PLR1_TT4_4_USFGRO0_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -122615,15 +127825,17 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -122635,44 +127847,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
-    DirectToLds: false
+    DepthU: 8
+    DirectToLds: true
     DirectToLdsA: false
-    DirectToLdsB: false
+    DirectToLdsB: true
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 32
+    LSCB: 128
     LSPA: 4
-    LSPB: 8
+    LSPB: 1
     LVCA: 32
-    LVCB: 16
-    LVPA: 2
-    LVPB: 4
+    LVCB: 128
+    LVPA: 4
+    LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -122682,14 +127894,14 @@
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
+    LocalWriteUseSgprB: true
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122699,14 +127911,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsA: 2
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 8
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -122767,31 +127979,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 756
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW2_PGR0_PLR1_TT4_4_USFGRO0_VW2_WG16_8_1_WGM8
+    SolutionIndex: 786
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x128x8_SE_DTL1_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_8_USFGRO1_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -122811,30 +128023,30 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 2
-    LSPB: 2
-    LVCA: 64
-    LVCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
     LVPA: 2
     LVPB: 2
     LdcEqualsLdd: false
@@ -122872,13 +128084,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -122939,28 +128151,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 757
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW2_WG16_8_1_WGM1
+    SolutionIndex: 787
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -122983,30 +128195,30 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 2
-    LSPB: 2
-    LVCA: 64
-    LVCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
     LVPA: 2
     LVPB: 2
     LdcEqualsLdd: false
@@ -123045,12 +128257,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -123111,29 +128323,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 758
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 788
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -123154,31 +128366,31 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 2
-    LSPB: 2
-    LVCA: 64
-    LVCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
     LVPA: 2
     LVPB: 2
     LdcEqualsLdd: false
@@ -123217,12 +128429,10 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -123283,31 +128493,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 759
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 789
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -123326,41 +128538,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 32
+    LVCB: 64
     LVPA: 2
-    LVPB: 2
+    LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -123375,9 +128587,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123387,14 +128599,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -123408,7 +128618,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -123455,31 +128665,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 760
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
+    SolutionIndex: 790
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT8_8_USFGRO0_VW2_WG8_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -123498,7 +128710,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -123518,21 +128730,21 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 8
+    LSPB: 4
     LVCA: 16
-    LVCB: 16
+    LVCB: 32
     LVPA: 2
-    LVPB: 2
+    LVPB: 1
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -123547,9 +128759,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123559,14 +128771,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -123627,20 +128837,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 761
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 791
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT8_8_USFGRO0_VW4_WG8_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -123648,10 +128858,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -123670,33 +128882,33 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
-    LVPB: 2
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
@@ -123731,13 +128943,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -123793,37 +129007,37 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 762
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 792
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -123842,33 +129056,33 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
-    LVPB: 2
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
@@ -123903,13 +129117,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -123922,7 +129138,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -123965,37 +129181,37 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 763
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 793
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -124007,9 +129223,9 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
-    DirectToLds: true
-    DirectToLdsA: true
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
@@ -124033,16 +129249,16 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 1
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
     LSPB: 4
-    LVCA: 128
-    LVCB: 32
-    LVPA: 1
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 2048
     LdsOffsetA: 0
     LdsOffsetB: 1024
     LdsPadA: 0
@@ -124053,15 +129269,15 @@
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: true
+    LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124071,15 +129287,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -124135,24 +129351,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 764
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x8_SE_DTL1_EPS0_FL0_GRVW1_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 794
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -124160,10 +129378,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -124181,38 +129399,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 64
-    LSPA: 8
+    LSPA: 4
     LSPB: 4
-    LVCA: 16
-    LVCB: 32
+    LVCA: 64
+    LVCB: 64
     LVPA: 4
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -124226,9 +129448,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -124240,14 +129462,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -124259,7 +129481,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -124303,18 +129525,20 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 765
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL0_GRVW2_PGR0_PLR1_TT4_4_USFGRO0_VW2_WG8_16_1_WGM8
+    SolutionIndex: 795
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -124323,12 +129547,12 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -124350,41 +129574,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 8
-    LSPB: 4
-    LVCA: 16
-    LVCB: 32
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
     LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -124398,10 +129622,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124411,13 +129635,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -124473,37 +129699,37 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 766
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG8_16_1_WGM1
+    SolutionIndex: 796
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -124515,44 +129741,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 8
-    LSPB: 4
-    LVCA: 16
-    LVCB: 32
+    LSCA: 64
+    LSCB: 128
+    LSPA: 4
+    LSPB: 2
+    LVCA: 64
+    LVCB: 128
     LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -124565,11 +129795,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124579,13 +129809,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -124597,8 +129829,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -124641,37 +129873,37 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 767
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x64x16_SE_DTL0_EPS0_FL1_GRVW2_PGR0_PLR1_TT4_4_USFGRO0_VW2_WG8_16_1_WGM1
+    SolutionIndex: 797
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -124684,12 +129916,12 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: true
+    DirectToLds: false
     DirectToLdsA: false
-    DirectToLdsB: true
+    DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -124709,18 +129941,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 128
     LSPA: 4
-    LSPB: 1
-    LVCA: 32
+    LSPB: 2
+    LVCA: 64
     LVCB: 128
     LVPA: 4
-    LVPB: 1
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -124730,13 +129966,13 @@
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: true
+    LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -124750,12 +129986,12 @@
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
-    NumLoadsB: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 8
-    NumThreads: 128
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -124767,8 +130003,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -124811,18 +130047,20 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 768
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT32x128x8_SE_DTL1_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_8_USFGRO1_VW4_WG8_16_1_WGM1
+    SolutionIndex: 798
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 8]
@@ -124836,8 +130074,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -124858,41 +130096,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -124907,9 +130145,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124920,14 +130158,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -124983,35 +130219,39 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 769
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
+    SolutionIndex: 799
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -125030,41 +130270,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -125079,9 +130319,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125092,14 +130332,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -125112,7 +130350,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -125155,35 +130393,39 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 770
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM8
+    SolutionIndex: 800
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -125203,40 +130445,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 64
+    LSCB: 128
     LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -125251,9 +130493,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125264,12 +130506,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -125282,7 +130524,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -125325,33 +130567,35 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 771
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
+    SolutionIndex: 801
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -125367,48 +130611,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 4
-    LSPB: 2
-    LVCA: 32
+    LSCA: 128
+    LSCB: 64
+    LSPA: 2
+    LSPB: 4
+    LVCA: 128
     LVCB: 64
     LVPA: 2
-    LVPB: 1
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -125421,11 +130661,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125435,13 +130675,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 8
     NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -125453,7 +130695,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -125497,37 +130739,37 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 772
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT8_8_USFGRO0_VW2_WG8_16_1_WGM8
+    SolutionIndex: 802
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -125546,7 +130788,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -125566,21 +130808,21 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
+    LSCB: 64
     LSPA: 8
-    LSPB: 4
+    LSPB: 8
     LVCA: 16
-    LVCB: 32
+    LVCB: 16
     LVPA: 2
-    LVPB: 1
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -125595,9 +130837,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125607,12 +130849,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -125669,24 +130913,26 @@
       TransposeB: true
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 773
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT8_8_USFGRO0_VW4_WG8_16_1_WGM8
+    SolutionIndex: 803
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -125694,12 +130940,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -125719,32 +130963,32 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
@@ -125779,15 +131023,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -125849,29 +131093,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 774
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 804
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -125886,12 +131130,12 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -125911,22 +131155,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 4
+    LSCA: 128
+    LSCB: 32
+    LSPA: 1
     LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
+    LVCA: 128
+    LVCB: 32
+    LVPA: 1
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -125935,15 +131175,15 @@
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125953,15 +131193,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 8
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -125973,8 +131213,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -126023,20 +131263,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 775
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 805
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x8_SE_DTL1_EPS0_FL0_GRVW1_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -126044,7 +131284,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -126059,44 +131299,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
     LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126109,7 +131353,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -126123,15 +131367,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -126143,8 +131387,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -126193,31 +131437,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 776
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 806
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -126229,48 +131473,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 4
-    LSPB: 4
-    LVCA: 64
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126283,7 +131527,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -126297,15 +131541,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -126318,7 +131560,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -126367,31 +131609,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 777
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 807
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -126411,40 +131655,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 4
-    LSPB: 2
-    LVCA: 64
-    LVCB: 128
+    LSCB: 64
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
     LVPA: 4
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126459,9 +131704,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126471,21 +131716,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -126541,8 +131788,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 778
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 808
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT4_4_USFGRO0_VW2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -126551,13 +131798,13 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -126584,41 +131831,42 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 4
-    LSPB: 2
-    LVCA: 64
-    LVCB: 128
-    LVPA: 4
-    LVPB: 2
+    LSCA: 96
+    LSCB: 64
+    LSPA: 5
+    LSPB: 8
+    LVCA: 48
+    LVCB: 32
+    LVPA: 3
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126632,10 +131880,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126645,28 +131893,28 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -126715,8 +131963,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 779
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 809
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT6_4_USFGRO0_VW2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -126725,21 +131973,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -126759,40 +132009,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
+    LSCA: 128
+    LSCB: 64
     LSPA: 4
-    LSPB: 2
+    LSPB: 8
     LVCA: 64
-    LVCB: 128
-    LVPA: 4
-    LVPB: 2
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126806,10 +132057,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126820,27 +132071,29 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
-    NumLoadsB: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -126889,8 +132142,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 780
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL0_GRVW1_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 810
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_NLCA1_NLCB1_PGR1_PLR1_TT8_4_USFGRO0_VW2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -126899,17 +132152,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -126948,25 +132201,26 @@
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 128
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
-    LVPA: 4
-    LVPB: 2
+    LSCA: 128
+    LSCB: 64
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126980,10 +132234,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126997,15 +132251,17 @@
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -127061,8 +132317,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 781
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 811
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_NLCA1_NLCB1_PGR1_PLR0_TT8_4_USFGRO0_VW2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -127071,11 +132327,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -127089,7 +132345,7 @@
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
@@ -127099,7 +132355,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -127107,40 +132363,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 128
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -127153,33 +132410,34 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -127235,8 +132493,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 782
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 812
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -127245,25 +132503,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
@@ -127282,29 +132540,30 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 128
     LSPA: 8
-    LSPB: 4
+    LSPB: 8
     LVCA: 32
-    LVCB: 64
+    LVCB: 32
     LVPA: 4
     LVPB: 2
     LdcEqualsLdd: false
@@ -127336,24 +132595,25 @@
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -127409,8 +132669,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 783
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_DTL0_EPS1_FL1_GRVW2_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 813
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -127429,15 +132689,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
@@ -127447,44 +132707,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 64
-    LSPA: 2
-    LSPB: 4
-    LVCA: 128
-    LVCB: 64
-    LVPA: 2
-    LVPB: 4
+    LSCA: 64
+    LSCB: 128
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -127497,41 +132762,40 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -127581,8 +132845,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 784
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x64x16_SE_DTL0_EPS0_FL0_GRVW1_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 814
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -127591,23 +132855,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
@@ -127624,7 +132890,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -127638,8 +132904,9 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: false
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
@@ -127680,15 +132947,12 @@
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -127698,15 +132962,17 @@
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -127755,31 +133021,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 785
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
+    SolutionIndex: 815
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -127799,32 +133067,33 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
-    LVPB: 2
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
@@ -127854,26 +133123,27 @@
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -127929,29 +133199,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 786
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 816
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -127966,12 +133236,12 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: true
-    DirectToLdsA: true
+    DirectToLds: false
+    DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -127988,21 +133258,26 @@
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 1
+    LSCA: 64
+    LSCB: 64
+    LSPA: 4
     LSPB: 4
-    LVCA: 128
-    LVCB: 32
-    LVPA: 1
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
     LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128011,46 +133286,47 @@
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: true
+    LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -128099,20 +133375,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 787
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x8_SE_DTL1_EPS0_FL0_GRVW1_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 817
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR1_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -128120,7 +133396,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -128135,48 +133411,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
-    LVPB: 2
+    LSPA: 4
+    LSPB: 4
+    LVCA: 64
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
     LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128189,7 +133462,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -128198,33 +133471,34 @@
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -128273,31 +133547,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 788
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
+    SolutionIndex: 818
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x16_SE_AMAS3_DTL0_EPS0_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -128310,47 +133584,44 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 2
-    LVPB: 2
+    LSCA: 128
+    LSCB: 32
+    LSPA: 1
+    LSPB: 4
+    LVCA: 128
+    LVCB: 32
+    LVPA: 1
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128359,44 +133630,47 @@
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -128445,15 +133719,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 789
-    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG8_16_1_WGM1
+    SolutionIndex: 819
+    SolutionNameMin: Cijk_Ailk_Bjlk_SB_MT128x32x8_SE_AMAS3_DTL1_EPS0_GRVW1_GSU1_NLCA1_NLCB1_PBD0_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -128461,17 +133735,15 @@
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
 - [2, 3, 0, 1]
 - - - [1024, 128, 1, 128]
     - [4, 1028.02]
@@ -130547,8 +135819,6 @@
     - [98, 6963.26]
   - - [784, 128, 128, 512]
     - [107, 8983.53]
-  - - [196, 256, 64, 1024]
-    - [106, 7823.4]
   - - [3136, 256, 256, 64]
     - [103, 9051.28]
   - - [3136, 64, 128, 64]
@@ -130577,60 +135847,22 @@
     - [102, 8210.56]
   - - [5329, 160, 64, 64]
     - [118, 8156.79]
-  - - [1225, 288, 64, 48]
-    - [122, 6926.13]
-  - - [1225, 192, 64, 64]
-    - [124, 7840.0]
-  - - [64, 1280, 64, 384]
-    - [125, 9276.01]
   - - [1225, 384, 64, 192]
     - [115, 9162.25]
-  - - [1225, 288, 64, 64]
-    - [116, 7495.17]
-  - - [5329, 64, 64, 80]
-    - [117, 8480.03]
   - - [289, 1024, 64, 256]
     - [115, 8483.73]
-  - - [289, 768, 64, 192]
-    - [121, 8234.74]
-  - - [289, 768, 64, 128]
-    - [121, 7988.71]
   - - [64, 1536, 64, 384]
     - [125, 9323.55]
   - - [1225, 384, 64, 64]
     - [124, 8158.7]
-  - - [64, 2048, 64, 192]
-    - [121, 8818.51]
-  - - [64, 1280, 64, 320]
-    - [117, 9202.07]
   - - [1225, 384, 64, 96]
     - [115, 8540.6]
-  - - [64, 1280, 64, 448]
-    - [121, 9317.72]
-  - - [289, 768, 64, 160]
-    - [125, 8128.71]
-  - - [1225, 192, 64, 32]
-    - [124, 6495.27]
   - - [64, 1536, 64, 256]
     - [121, 9142.9]
-  - - [1225, 256, 64, 48]
-    - [119, 7545.26]
-  - - [1225, 256, 64, 64]
-    - [120, 7972.35]
-  - - [1225, 192, 64, 48]
-    - [123, 7348.8]
   - - [289, 1024, 64, 384]
     - [113, 8725.56]
   - - [289, 1024, 64, 192]
     - [115, 8313.06]
-  - - [64, 1280, 64, 192]
-    - [117, 8768.58]
-  - - [64, 2048, 64, 320]
-    - [114, 9147.88]
-  - - [64, 2048, 64, 448]
-    - [112, 9304.06]
-  - - [64, 2048, 64, 384]
-    - [114, 9235.18]
   - - [289, 1024, 64, 128]
     - [121, 7989.41]
   - - [4096, 1024, 1, 2984]
@@ -133451,8 +138683,6 @@
     - [357, 4362.6]
   - - [49, 832, 32, 256]
     - [320, 5618.63]
-  - - [3136, 64, 64, 64]
-    - [306, 8457.65]
   - - [196, 512, 32, 24]
     - [307, 3621.73]
   - - [289, 1120, 1, 160]
@@ -133465,8 +138695,6 @@
     - [305, 3575.67]
   - - [289, 1792, 1, 320]
     - [328, 5140.33]
-  - - [3136, 256, 64, 64]
-    - [329, 9310.12]
   - - [1001, 1024, 1, 32]
     - [300, 2733.4]
   - - [196, 480, 32, 64]
@@ -133475,8 +138703,6 @@
     - [358, 3205.57]
   - - [49, 832, 32, 160]
     - [362, 4988.82]
-  - - [49, 2048, 64, 512]
-    - [332, 7370.31]
   - - [49, 832, 32, 384]
     - [320, 5901.95]
   - - [289, 896, 1, 192]
@@ -133515,8 +138741,6 @@
     - [371, 5987.1]
   - - [64, 2048, 32, 448]
     - [334, 9669.87]
-  - - [196, 1024, 64, 256]
-    - [373, 7818.94]
   - - [5329, 448, 1, 64]
     - [306, 6201.02]
   - - [784, 256, 32, 64]
@@ -133579,8 +138803,6 @@
     - [312, 7067.63]
   - - [49, 832, 32, 48]
     - [345, 3316.72]
-  - - [3136, 64, 64, 256]
-    - [367, 9721.9]
   - - [5329, 160, 32, 64]
     - [369, 8159.84]
   - - [1225, 288, 32, 48]
@@ -133645,14 +138867,8 @@
     - [324, 4831.61]
   - - [196, 528, 32, 256]
     - [342, 6453.82]
-  - - [49, 512, 64, 2048]
-    - [377, 7548.98]
   - - [64, 2048, 32, 192]
     - [329, 8955.81]
-  - - [784, 512, 64, 128]
-    - [329, 9160.73]
-  - - [784, 128, 64, 512]
-    - [336, 9280.69]
   - - [196, 528, 32, 160]
     - [370, 6161.15]
   - - [1225, 192, 32, 48]
@@ -133697,5228 +138913,5286 @@
     - [393, 9642.08]
   - - [1001, 1536, 1, 64]
     - [383, 5146.56]
+  - - [2048, 2048, 1, 1024]
+    - [397, 9940.21]
+  - - [3200, 2048, 1, 1024]
+    - [396, 9899.24]
+  - - [4096, 4096, 1, 1024]
+    - [398, 10222.2]
+  - - [2048, 256, 1, 1024]
+    - [395, 8452.0]
+  - - [257, 4096, 1, 1024]
+    - [396, 8353.5]
+  - - [64, 2048, 64, 192]
+    - [403, 9434.24]
+  - - [1225, 192, 64, 48]
+    - [407, 7799.38]
+  - - [1225, 288, 64, 48]
+    - [411, 7030.37]
+  - - [289, 768, 64, 160]
+    - [409, 8784.74]
+  - - [3136, 64, 64, 64]
+    - [399, 7941.3]
+  - - [1225, 192, 64, 32]
+    - [408, 6772.91]
+  - - [1225, 256, 64, 48]
+    - [407, 8022.81]
+  - - [64, 2048, 64, 384]
+    - [401, 9859.28]
+  - - [64, 1280, 64, 384]
+    - [401, 9675.44]
+  - - [196, 1024, 64, 256]
+    - [404, 9583.63]
+  - - [64, 1280, 64, 192]
+    - [401, 9320.68]
+  - - [1225, 192, 64, 64]
+    - [407, 8180.87]
+  - - [3136, 256, 64, 64]
+    - [403, 8966.88]
+  - - [1225, 288, 64, 64]
+    - [411, 7567.39]
+  - - [5329, 64, 64, 80]
+    - [406, 8634.33]
+  - - [49, 2048, 64, 512]
+    - [410, 8822.54]
+  - - [784, 512, 64, 128]
+    - [404, 9519.26]
+  - - [289, 768, 64, 192]
+    - [409, 8929.24]
+  - - [64, 1280, 64, 448]
+    - [401, 9702.62]
+  - - [289, 768, 64, 128]
+    - [409, 8566.86]
+  - - [1225, 256, 64, 64]
+    - [407, 8306.43]
+  - - [3136, 64, 64, 256]
+    - [405, 9431.89]
+  - - [64, 1280, 64, 320]
+    - [401, 9754.2]
+  - - [64, 2048, 64, 320]
+    - [401, 9765.55]
+  - - [49, 512, 64, 2048]
+    - [412, 7606.26]
+  - - [64, 2048, 64, 448]
+    - [401, 9948.37]
+  - - [196, 256, 64, 1024]
+    - [400, 8824.43]
+  - - [784, 128, 64, 512]
+    - [402, 9393.09]
   - - [1024, 128, 1, 128]
-    - [399, 1028.12]
+    - [417, 1028.02]
   - - [4, 704, 1, 1280]
-    - [438, 363.455]
+    - [456, 363.355]
   - - [4, 1856, 1, 3328]
-    - [438, 579.534]
+    - [456, 579.434]
   - - [1856, 448, 1, 3328]
-    - [475, 6966.83]
+    - [493, 6966.73]
   - - [2944, 4288, 1, 1280]
-    - [470, 9057.98]
+    - [488, 9057.88]
   - - [2368, 64, 1, 3328]
-    - [431, 5837.66]
+    - [449, 5837.56]
   - - [2368, 5888, 1, 256]
-    - [475, 9111.16]
+    - [493, 9111.06]
   - - [128, 64, 1, 256]
-    - [437, 374.591]
+    - [455, 374.491]
   - - [5888, 1024, 1, 1280]
-    - [480, 8570.54]
+    - [498, 8570.44]
   - - [128, 6784, 1, 3328]
-    - [443, 7703.96]
+    - [461, 7703.86]
   - - [64, 4, 1, 256]
-    - [489, 11.3219]
+    - [507, 11.2219]
   - - [5888, 1856, 1, 3328]
-    - [475, 9394.4]
+    - [493, 9394.3]
   - - [5056, 704, 1, 256]
-    - [478, 8026.99]
+    - [496, 8026.89]
   - - [5888, 2944, 1, 3328]
-    - [468, 7608.21]
+    - [486, 7608.11]
   - - [1856, 4288, 1, 256]
-    - [469, 8986.42]
+    - [487, 8986.32]
   - - [1024, 5056, 1, 128]
-    - [461, 3898.34]
+    - [479, 3898.24]
   - - [5056, 5056, 1, 3328]
-    - [469, 9536.85]
+    - [487, 9536.75]
   - - [1408, 5888, 1, 1280]
-    - [470, 9279.19]
+    - [488, 9279.09]
   - - [2368, 448, 1, 128]
-    - [462, 2474.42]
+    - [480, 2474.32]
   - - [1024, 3584, 1, 3328]
-    - [472, 9258.58]
+    - [490, 9258.48]
   - - [4, 2944, 1, 1280]
-    - [424, 611.84]
+    - [442, 611.74]
   - - [1408, 64, 1, 128]
-    - [395, 858.31]
+    - [413, 858.21]
   - - [256, 4288, 1, 3328]
-    - [475, 7616.08]
+    - [493, 7615.98]
   - - [5888, 1408, 1, 1280]
-    - [468, 9620.39]
+    - [486, 9620.29]
   - - [704, 1856, 1, 3328]
-    - [469, 9033.75]
+    - [487, 9033.65]
   - - [4, 1408, 1, 128]
-    - [482, 24.455]
+    - [500, 24.355]
   - - [1024, 2368, 1, 256]
-    - [469, 7526.25]
+    - [487, 7526.15]
   - - [1408, 1856, 1, 1280]
-    - [472, 8324.19]
+    - [490, 8324.09]
   - - [1408, 64, 1, 1280]
-    - [443, 4681.24]
+    - [461, 4681.14]
   - - [448, 1024, 1, 1280]
-    - [469, 7112.53]
+    - [487, 7112.43]
   - - [256, 1408, 1, 3328]
-    - [475, 5825.51]
+    - [493, 5825.41]
   - - [5056, 5056, 1, 1280]
-    - [478, 9233.65]
+    - [496, 9233.55]
   - - [448, 5056, 1, 256]
-    - [470, 7003.27]
+    - [488, 7003.17]
   - - [704, 1856, 1, 1280]
-    - [469, 8877.38]
+    - [487, 8877.28]
   - - [128, 5056, 1, 128]
-    - [461, 2301.14]
+    - [479, 2301.04]
   - - [2368, 128, 1, 256]
-    - [469, 3849.04]
+    - [487, 3848.94]
   - - [1856, 1408, 1, 128]
-    - [464, 4202.31]
+    - [482, 4202.21]
   - - [64, 5056, 1, 256]
-    - [470, 3109.62]
+    - [488, 3109.52]
   - - [6784, 256, 1, 3328]
-    - [469, 6388.53]
+    - [487, 6388.43]
   - - [6784, 4288, 1, 3328]
-    - [480, 9114.67]
+    - [498, 9114.57]
   - - [4288, 448, 1, 256]
-    - [473, 5783.05]
+    - [491, 5782.95]
   - - [64, 704, 1, 128]
-    - [406, 379.519]
+    - [424, 379.419]
   - - [1856, 2368, 1, 3328]
-    - [469, 9128.46]
+    - [487, 9128.36]
   - - [4288, 2944, 1, 1280]
-    - [475, 9182.33]
+    - [493, 9182.23]
   - - [704, 5056, 1, 1280]
-    - [469, 9071.57]
+    - [487, 9071.47]
   - - [2368, 704, 1, 3328]
-    - [475, 7731.43]
+    - [493, 7731.33]
   - - [256, 5888, 1, 256]
-    - [469, 7920.38]
+    - [487, 7920.28]
   - - [1856, 4288, 1, 3328]
-    - [475, 9330.07]
+    - [493, 9329.97]
   - - [256, 2944, 1, 256]
-    - [476, 5312.27]
+    - [494, 5312.17]
   - - [5888, 1024, 1, 256]
-    - [467, 6710.97]
+    - [485, 6710.87]
   - - [448, 64, 1, 1280]
-    - [442, 2814.53]
+    - [460, 2814.43]
   - - [448, 5056, 1, 3328]
-    - [469, 8255.53]
+    - [487, 8255.43]
   - - [3584, 4, 1, 1280]
-    - [418, 640.815]
+    - [436, 640.715]
   - - [2944, 64, 1, 256]
-    - [417, 2621.54]
+    - [435, 2621.44]
   - - [128, 4, 1, 1280]
-    - [489, 86.3316]
+    - [507, 86.2316]
   - - [1408, 2944, 1, 256]
-    - [469, 8848.99]
+    - [487, 8848.89]
   - - [256, 1856, 1, 1280]
-    - [469, 7366.55]
+    - [487, 7366.45]
   - - [6784, 5056, 1, 3328]
-    - [480, 8332.16]
+    - [498, 8332.06]
   - - [5056, 5056, 1, 256]
-    - [475, 9171.74]
+    - [493, 9171.64]
   - - [1408, 6784, 1, 128]
-    - [461, 5079.19]
+    - [479, 5079.09]
   - - [64, 1024, 1, 1280]
-    - [433, 3679.31]
+    - [451, 3679.21]
   - - [2944, 4, 1, 256]
-    - [424, 369.543]
+    - [442, 369.443]
   - - [704, 5056, 1, 128]
-    - [461, 4509.27]
+    - [479, 4509.17]
   - - [4, 2368, 1, 1280]
-    - [418, 569.844]
+    - [436, 569.744]
   - - [2368, 2944, 1, 1280]
-    - [480, 7451.14]
+    - [498, 7451.04]
   - - [128, 3584, 1, 1280]
-    - [478, 6071.26]
+    - [496, 6071.16]
   - - [6784, 6784, 1, 1280]
-    - [475, 9535.74]
+    - [493, 9535.64]
   - - [1408, 4288, 1, 1280]
-    - [478, 8255.09]
+    - [496, 8254.99]
   - - [3584, 4288, 1, 1280]
-    - [480, 9651.19]
+    - [498, 9651.09]
   - - [2368, 704, 1, 1280]
-    - [475, 8291.4]
+    - [493, 8291.3]
   - - [5056, 4288, 1, 3328]
-    - [467, 9406.36]
+    - [485, 9406.26]
   - - [3584, 2368, 1, 3328]
-    - [475, 9350.32]
+    - [493, 9350.22]
   - - [64, 704, 1, 1280]
-    - [442, 3384.59]
+    - [460, 3384.49]
   - - [4288, 256, 1, 256]
-    - [475, 5593.62]
+    - [493, 5593.52]
   - - [2944, 128, 1, 128]
-    - [397, 2130.6]
+    - [415, 2130.5]
   - - [6784, 448, 1, 1280]
-    - [478, 8815.85]
+    - [496, 8815.75]
   - - [1408, 2944, 1, 128]
-    - [461, 4558.34]
+    - [479, 4558.24]
   - - [4288, 2944, 1, 256]
-    - [480, 7865.43]
+    - [498, 7865.33]
   - - [5888, 704, 1, 1280]
-    - [469, 9262.99]
+    - [487, 9262.89]
   - - [1856, 64, 1, 1280]
-    - [443, 4359.15]
+    - [461, 4359.05]
   - - [448, 5888, 1, 128]
-    - [464, 4000.59]
+    - [482, 4000.49]
   - - [5888, 64, 1, 3328]
-    - [444, 6603.39]
+    - [462, 6603.29]
   - - [2944, 256, 1, 3328]
-    - [469, 8423.63]
+    - [487, 8423.53]
   - - [1024, 64, 1, 128]
-    - [414, 582.642]
+    - [432, 582.542]
   - - [5056, 2368, 1, 1280]
-    - [469, 9419.91]
+    - [487, 9419.81]
   - - [448, 3584, 1, 1280]
-    - [469, 7985.82]
+    - [487, 7985.72]
   - - [6784, 5888, 1, 256]
-    - [467, 9494.36]
+    - [485, 9494.26]
   - - [704, 1024, 1, 128]
-    - [461, 2813.35]
+    - [479, 2813.25]
   - - [704, 128, 1, 1280]
-    - [443, 4477.71]
+    - [461, 4477.61]
   - - [5888, 2944, 1, 128]
-    - [464, 4745.96]
+    - [482, 4745.86]
   - - [4, 3584, 1, 128]
-    - [481, 96.479]
+    - [499, 96.379]
   - - [1408, 448, 1, 1280]
-    - [469, 6912.8]
+    - [487, 6912.7]
   - - [1024, 1408, 1, 256]
-    - [477, 5810.85]
+    - [495, 5810.75]
   - - [2368, 2368, 1, 3328]
-    - [478, 9088.71]
+    - [496, 9088.61]
   - - [1856, 6784, 1, 128]
-    - [464, 5168.32]
+    - [482, 5168.22]
   - - [5056, 704, 1, 3328]
-    - [470, 7464.9]
+    - [488, 7464.8]
   - - [1408, 1856, 1, 256]
-    - [475, 6727.69]
+    - [493, 6727.59]
   - - [1408, 704, 1, 3328]
-    - [475, 8379.53]
+    - [493, 8379.43]
   - - [2368, 5056, 1, 256]
-    - [475, 8664.11]
+    - [493, 8664.01]
   - - [5888, 1856, 1, 256]
-    - [480, 5810.02]
+    - [498, 5809.92]
   - - [4288, 64, 1, 3328]
-    - [457, 6583.94]
+    - [475, 6583.84]
   - - [2368, 4, 1, 1280]
-    - [490, 545.251]
+    - [508, 545.151]
   - - [704, 5888, 1, 256]
-    - [475, 8813.71]
+    - [493, 8813.61]
   - - [4288, 64, 1, 256]
-    - [433, 3059.97]
+    - [451, 3059.87]
   - - [6784, 64, 1, 256]
-    - [475, 3490.96]
+    - [493, 3490.86]
   - - [2944, 256, 1, 256]
-    - [469, 6970.4]
+    - [487, 6970.3]
   - - [2944, 6784, 1, 3328]
-    - [469, 9475.79]
+    - [487, 9475.69]
   - - [704, 1408, 1, 3328]
-    - [469, 8154.18]
+    - [487, 8154.08]
   - - [3584, 704, 1, 3328]
-    - [469, 8995.07]
+    - [487, 8994.97]
   - - [2944, 256, 1, 128]
-    - [461, 2824.13]
+    - [479, 2824.03]
   - - [6784, 4, 1, 1280]
-    - [418, 625.714]
+    - [436, 625.614]
   - - [1024, 64, 1, 1280]
-    - [430, 3307.91]
+    - [448, 3307.81]
   - - [448, 4288, 1, 256]
-    - [475, 6074.48]
+    - [493, 6074.38]
   - - [64, 3584, 1, 3328]
-    - [423, 6200.26]
+    - [441, 6200.16]
   - - [704, 2368, 1, 1280]
-    - [469, 8291.4]
+    - [487, 8291.3]
   - - [448, 2944, 1, 128]
-    - [461, 3221.87]
+    - [479, 3221.77]
   - - [1856, 2368, 1, 1280]
-    - [480, 6855.24]
+    - [498, 6855.14]
   - - [2368, 128, 1, 3328]
-    - [431, 6479.61]
+    - [449, 6479.51]
   - - [2944, 128, 1, 256]
-    - [469, 3828.23]
+    - [487, 3828.13]
   - - [448, 1408, 1, 256]
-    - [470, 4525.9]
+    - [488, 4525.8]
   - - [1856, 4288, 1, 1280]
-    - [468, 9160.32]
+    - [486, 9160.22]
   - - [64, 5056, 1, 3328]
-    - [451, 6819.3]
+    - [469, 6819.2]
   - - [4, 704, 1, 256]
-    - [435, 123.541]
+    - [453, 123.441]
   - - [1024, 448, 1, 128]
-    - [464, 1989.27]
+    - [482, 1989.17]
   - - [704, 4, 1, 1280]
-    - [438, 381.931]
+    - [456, 381.831]
   - - [704, 256, 1, 128]
-    - [461, 1109.17]
+    - [479, 1109.07]
   - - [704, 2944, 1, 128]
-    - [461, 4089.03]
+    - [479, 4088.93]
   - - [1408, 1024, 1, 1280]
-    - [475, 8192.08]
+    - [493, 8191.98]
   - - [704, 6784, 1, 256]
-    - [469, 6717.9]
+    - [487, 6717.8]
   - - [6784, 704, 1, 256]
-    - [475, 5429.22]
+    - [493, 5429.12]
   - - [5056, 1408, 1, 128]
-    - [461, 4954.5]
+    - [479, 4954.4]
   - - [256, 3584, 1, 3328]
-    - [469, 7890.96]
+    - [487, 7890.86]
   - - [4, 5888, 1, 3328]
-    - [486, 691.047]
+    - [504, 690.947]
   - - [128, 1408, 1, 128]
-    - [408, 1393.14]
+    - [426, 1393.04]
   - - [3584, 4288, 1, 3328]
-    - [471, 8900.87]
+    - [489, 8900.77]
   - - [5888, 1856, 1, 1280]
-    - [472, 9345.85]
+    - [490, 9345.75]
   - - [5056, 1024, 1, 3328]
-    - [473, 7834.84]
+    - [491, 7834.74]
   - - [5056, 64, 1, 1280]
-    - [451, 5890.14]
+    - [469, 5890.04]
   - - [1024, 704, 1, 256]
-    - [469, 6007.57]
+    - [487, 6007.47]
   - - [1024, 4288, 1, 128]
-    - [463, 3497.09]
+    - [481, 3496.99]
   - - [4288, 64, 1, 1280]
-    - [448, 4726.59]
+    - [466, 4726.49]
   - - [2368, 3584, 1, 1280]
-    - [467, 8128.82]
+    - [485, 8128.72]
   - - [2368, 6784, 1, 1280]
-    - [467, 9478.72]
+    - [485, 9478.62]
   - - [1024, 256, 1, 256]
-    - [475, 4092.1]
+    - [493, 4092.0]
   - - [1856, 4, 1, 1280]
-    - [490, 509.903]
+    - [508, 509.803]
   - - [448, 448, 1, 256]
-    - [475, 3001.28]
+    - [493, 3001.18]
   - - [2944, 3584, 1, 3328]
-    - [476, 9081.91]
+    - [494, 9081.81]
   - - [128, 4288, 1, 128]
-    - [396, 2323.33]
+    - [414, 2323.23]
   - - [64, 448, 1, 256]
-    - [439, 1066.97]
+    - [457, 1066.87]
   - - [128, 1024, 1, 3328]
-    - [452, 6392.36]
+    - [470, 6392.26]
   - - [4, 1408, 1, 3328]
-    - [435, 616.656]
+    - [453, 616.556]
   - - [6784, 2944, 1, 256]
-    - [478, 8547.73]
+    - [496, 8547.63]
   - - [64, 1856, 1, 1280]
-    - [451, 4409.71]
+    - [469, 4409.61]
   - - [64, 1024, 1, 128]
-    - [395, 554.902]
+    - [413, 554.802]
   - - [4288, 2368, 1, 3328]
-    - [471, 8780.08]
+    - [489, 8779.98]
   - - [1856, 2368, 1, 256]
-    - [478, 4976.74]
+    - [496, 4976.64]
   - - [3584, 256, 1, 128]
-    - [463, 2812.37]
+    - [481, 2812.27]
   - - [3584, 6784, 1, 3328]
-    - [473, 9278.22]
+    - [491, 9278.12]
   - - [256, 1024, 1, 256]
-    - [469, 4346.53]
+    - [487, 4346.43]
   - - [4, 6784, 1, 3328]
-    - [488, 681.366]
+    - [506, 681.266]
   - - [1024, 5888, 1, 3328]
-    - [469, 9187.61]
+    - [487, 9187.51]
   - - [1024, 128, 1, 1280]
-    - [421, 3660.05]
+    - [439, 3659.95]
   - - [4288, 128, 1, 1280]
-    - [475, 6019.17]
+    - [493, 6019.07]
   - - [5056, 4288, 1, 1280]
-    - [467, 9343.96]
+    - [485, 9343.86]
   - - [5888, 64, 1, 256]
-    - [469, 4692.17]
+    - [487, 4692.07]
   - - [1856, 256, 1, 1280]
-    - [475, 4790.38]
+    - [493, 4790.28]
   - - [64, 5888, 1, 3328]
-    - [443, 6702.2]
+    - [461, 6702.1]
   - - [2944, 5888, 1, 128]
-    - [464, 5202.65]
+    - [482, 5202.55]
   - - [704, 5888, 1, 1280]
-    - [469, 9264.29]
+    - [487, 9264.19]
   - - [2368, 3584, 1, 128]
-    - [461, 5053.71]
+    - [479, 5053.61]
   - - [6784, 5888, 1, 3328]
-    - [467, 7926.8]
+    - [485, 7926.7]
   - - [704, 1024, 1, 1280]
-    - [468, 5402.6]
+    - [486, 5402.5]
   - - [448, 256, 1, 3328]
-    - [451, 6124.65]
+    - [469, 6124.55]
   - - [448, 1856, 1, 128]
-    - [462, 2885.96]
+    - [480, 2885.86]
   - - [128, 1024, 1, 128]
-    - [396, 1013.22]
+    - [414, 1013.12]
   - - [2944, 4, 1, 128]
-    - [481, 77.6374]
+    - [499, 77.5374]
   - - [1024, 704, 1, 1280]
-    - [469, 7365.58]
+    - [487, 7365.48]
   - - [128, 5888, 1, 256]
-    - [469, 6990.61]
+    - [487, 6990.51]
   - - [1024, 5056, 1, 1280]
-    - [474, 9422.0]
+    - [492, 9421.9]
   - - [4288, 1024, 1, 256]
-    - [476, 6270.03]
+    - [494, 6269.93]
   - - [2944, 2368, 1, 128]
-    - [461, 4918.18]
+    - [479, 4918.08]
   - - [704, 704, 1, 3328]
-    - [469, 7963.65]
+    - [487, 7963.55]
   - - [704, 1408, 1, 1280]
-    - [469, 8347.32]
+    - [487, 8347.22]
   - - [5888, 448, 1, 1280]
-    - [475, 5217.05]
+    - [493, 5216.95]
   - - [3584, 256, 1, 3328]
-    - [469, 7802.25]
+    - [487, 7802.15]
   - - [704, 5888, 1, 3328]
-    - [475, 8381.46]
+    - [493, 8381.36]
   - - [704, 1856, 1, 128]
-    - [461, 3598.38]
+    - [479, 3598.28]
   - - [128, 3584, 1, 3328]
-    - [431, 7161.11]
+    - [449, 7161.01]
   - - [6784, 2368, 1, 1280]
-    - [480, 9464.41]
+    - [498, 9464.31]
   - - [4, 4288, 1, 128]
-    - [481, 132.68]
+    - [499, 132.58]
   - - [128, 704, 1, 1280]
-    - [443, 4463.85]
+    - [461, 4463.75]
   - - [3584, 2944, 1, 256]
-    - [480, 8201.24]
+    - [498, 8201.14]
   - - [1856, 128, 1, 3328]
-    - [422, 6575.5]
+    - [440, 6575.4]
   - - [4, 64, 1, 1280]
-    - [438, 43.6745]
+    - [456, 43.5745]
   - - [4, 5056, 1, 3328]
-    - [418, 675.315]
+    - [436, 675.215]
   - - [128, 2944, 1, 1280]
-    - [422, 5916.99]
+    - [440, 5916.89]
   - - [2368, 1024, 1, 3328]
-    - [475, 8646.84]
+    - [493, 8646.74]
   - - [128, 256, 1, 3328]
-    - [456, 4130.85]
+    - [474, 4130.75]
   - - [1408, 5056, 1, 3328]
-    - [474, 9529.75]
+    - [492, 9529.65]
   - - [1856, 1856, 1, 3328]
-    - [473, 8114.99]
+    - [491, 8114.89]
   - - [3584, 128, 1, 256]
-    - [469, 5603.18]
+    - [487, 5603.08]
   - - [448, 1408, 1, 3328]
-    - [469, 7073.03]
+    - [487, 7072.93]
   - - [2368, 2368, 1, 256]
-    - [476, 7648.76]
+    - [494, 7648.66]
   - - [4288, 4288, 1, 1280]
-    - [471, 9244.11]
+    - [489, 9244.01]
   - - [64, 448, 1, 1280]
-    - [442, 2885.33]
+    - [460, 2885.23]
   - - [1408, 4288, 1, 256]
-    - [469, 8080.41]
+    - [487, 8080.31]
   - - [448, 4, 1, 256]
-    - [487, 84.4294]
+    - [505, 84.3294]
   - - [5888, 448, 1, 128]
-    - [464, 3540.8]
+    - [482, 3540.7]
   - - [448, 4, 1, 1280]
-    - [438, 322.257]
+    - [456, 322.157]
   - - [704, 6784, 1, 3328]
-    - [468, 8613.58]
+    - [486, 8613.48]
   - - [5888, 5888, 1, 1280]
-    - [475, 9502.05]
+    - [493, 9501.95]
   - - [5056, 1024, 1, 1280]
-    - [478, 9110.11]
+    - [496, 9110.01]
   - - [448, 5888, 1, 3328]
-    - [469, 8586.43]
+    - [487, 8586.33]
   - - [128, 4, 1, 128]
-    - [481, 4.27959]
+    - [499, 4.17959]
   - - [1024, 2944, 1, 1280]
-    - [477, 7096.53]
+    - [495, 7096.43]
   - - [5056, 5888, 1, 1280]
-    - [468, 9693.51]
+    - [486, 9693.41]
   - - [4288, 5888, 1, 128]
-    - [461, 5406.46]
+    - [479, 5406.36]
   - - [256, 3584, 1, 256]
-    - [469, 6908.37]
+    - [487, 6908.27]
   - - [1408, 3584, 1, 128]
-    - [461, 4645.69]
+    - [479, 4645.59]
   - - [256, 2944, 1, 3328]
-    - [472, 6284.4]
+    - [490, 6284.3]
   - - [448, 3584, 1, 128]
-    - [464, 3675.37]
+    - [482, 3675.27]
   - - [5888, 2944, 1, 1280]
-    - [474, 9628.9]
+    - [492, 9628.8]
   - - [4, 6784, 1, 1280]
-    - [418, 688.176]
+    - [436, 688.076]
   - - [2368, 5888, 1, 128]
-    - [461, 5273.96]
+    - [479, 5273.86]
   - - [64, 2944, 1, 128]
-    - [405, 1316.54]
+    - [423, 1316.44]
   - - [3584, 5888, 1, 256]
-    - [475, 9239.14]
+    - [493, 9239.04]
   - - [2368, 704, 1, 128]
-    - [464, 3537.65]
+    - [482, 3537.55]
   - - [3584, 2944, 1, 1280]
-    - [469, 9324.62]
+    - [487, 9324.52]
   - - [3584, 2368, 1, 128]
-    - [461, 4766.34]
+    - [479, 4766.24]
   - - [5056, 704, 1, 128]
-    - [461, 4487.95]
+    - [479, 4487.85]
   - - [448, 2368, 1, 128]
-    - [464, 2877.02]
+    - [482, 2876.92]
   - - [5056, 1408, 1, 3328]
-    - [480, 9515.97]
+    - [498, 9515.87]
   - - [1408, 704, 1, 256]
-    - [472, 6836.18]
+    - [490, 6836.08]
   - - [6784, 1024, 1, 3328]
-    - [467, 9309.65]
+    - [485, 9309.55]
   - - [6784, 2944, 1, 3328]
-    - [468, 9536.58]
+    - [486, 9536.48]
   - - [2944, 5056, 1, 3328]
-    - [469, 9526.25]
+    - [487, 9526.15]
   - - [1856, 1856, 1, 256]
-    - [469, 5239.24]
+    - [487, 5239.14]
   - - [1024, 5888, 1, 128]
-    - [461, 4006.28]
+    - [479, 4006.18]
   - - [2048, 7133, 1, 2048]
-    - [467, 9828.07]
+    - [485, 9827.97]
   - - [256, 4, 1, 128]
-    - [482, 4.38908]
+    - [500, 4.28908]
   - - [4288, 5888, 1, 1280]
-    - [477, 9202.83]
+    - [495, 9202.73]
   - - [4288, 4288, 1, 256]
-    - [472, 5521.18]
+    - [490, 5521.08]
   - - [448, 2944, 1, 3328]
-    - [475, 7724.53]
+    - [493, 7724.43]
   - - [4288, 1856, 1, 1280]
-    - [475, 8826.34]
+    - [493, 8826.24]
   - - [1856, 2944, 1, 3328]
-    - [469, 9194.9]
+    - [487, 9194.8]
   - - [256, 6784, 1, 3328]
-    - [469, 8740.33]
+    - [487, 8740.23]
   - - [64, 5888, 1, 256]
-    - [469, 4766.35]
+    - [487, 4766.25]
   - - [256, 5056, 1, 128]
-    - [461, 2937.6]
+    - [479, 2937.5]
   - - [5056, 1024, 1, 256]
-    - [480, 5467.91]
+    - [498, 5467.81]
   - - [704, 64, 1, 3328]
-    - [457, 4818.43]
+    - [475, 4818.33]
   - - [5056, 1856, 1, 3328]
-    - [474, 8861.69]
+    - [492, 8861.59]
   - - [4, 2944, 1, 3328]
-    - [424, 662.102]
+    - [442, 662.002]
   - - [4, 5056, 1, 256]
-    - [484, 494.121]
+    - [502, 494.021]
   - - [1856, 1408, 1, 256]
-    - [469, 8674.78]
+    - [487, 8674.68]
   - - [3584, 4, 1, 128]
-    - [481, 108.296]
+    - [499, 108.196]
   - - [448, 448, 1, 3328]
-    - [443, 6457.4]
+    - [461, 6457.3]
   - - [6784, 128, 1, 3328]
-    - [436, 7256.71]
+    - [454, 7256.61]
   - - [4288, 1408, 1, 128]
-    - [464, 4791.76]
+    - [482, 4791.66]
   - - [4288, 5056, 1, 256]
-    - [469, 8560.84]
+    - [487, 8560.74]
   - - [1408, 128, 1, 1280]
-    - [451, 5085.79]
+    - [469, 5085.69]
   - - [5056, 256, 1, 3328]
-    - [472, 7284.23]
+    - [490, 7284.13]
   - - [704, 704, 1, 256]
-    - [469, 6171.19]
+    - [487, 6171.09]
   - - [1024, 5888, 1, 1280]
-    - [474, 8852.89]
+    - [492, 8852.79]
   - - [6784, 2368, 1, 128]
-    - [462, 4729.3]
+    - [480, 4729.2]
   - - [4, 5056, 1, 1280]
-    - [435, 670.046]
+    - [453, 669.946]
   - - [64, 128, 1, 256]
-    - [437, 369.317]
+    - [455, 369.217]
   - - [128, 1856, 1, 1280]
-    - [431, 5549.13]
+    - [449, 5549.03]
   - - [5056, 3584, 1, 256]
-    - [475, 7115.84]
+    - [493, 7115.74]
   - - [1856, 1024, 1, 1280]
-    - [467, 8196.5]
+    - [485, 8196.4]
   - - [6784, 4288, 1, 1280]
-    - [468, 9509.66]
+    - [486, 9509.56]
   - - [1856, 1856, 1, 1280]
-    - [470, 5791.99]
+    - [488, 5791.89]
   - - [6784, 2944, 1, 128]
-    - [461, 5317.12]
+    - [479, 5317.02]
   - - [1408, 5056, 1, 1280]
-    - [470, 8980.73]
+    - [488, 8980.63]
   - - [4, 2368, 1, 3328]
-    - [435, 592.634]
+    - [453, 592.534]
   - - [5888, 1856, 1, 128]
-    - [460, 4600.2]
+    - [478, 4600.1]
   - - [448, 704, 1, 1280]
-    - [469, 2286.58]
+    - [487, 2286.48]
   - - [2368, 1024, 1, 128]
-    - [464, 3911.12]
+    - [482, 3911.02]
   - - [1024, 448, 1, 3328]
-    - [469, 7295.24]
+    - [487, 7295.14]
   - - [1856, 704, 1, 1280]
-    - [469, 8881.12]
+    - [487, 8881.02]
   - - [5056, 3584, 1, 128]
-    - [461, 4911.68]
+    - [479, 4911.58]
   - - [5888, 5888, 1, 3328]
-    - [477, 9243.9]
+    - [495, 9243.8]
   - - [6784, 1024, 1, 256]
-    - [480, 5475.41]
+    - [498, 5475.31]
   - - [2944, 2368, 1, 256]
-    - [475, 5670.77]
+    - [493, 5670.67]
   - - [256, 448, 1, 256]
-    - [426, 2293.86]
+    - [444, 2293.76]
   - - [5056, 5888, 1, 3328]
-    - [470, 7848.07]
+    - [488, 7847.97]
   - - [1856, 1024, 1, 256]
-    - [475, 7517.7]
+    - [493, 7517.6]
   - - [448, 1408, 1, 1280]
-    - [469, 6917.54]
+    - [487, 6917.44]
   - - [3584, 448, 1, 1280]
-    - [475, 7980.86]
+    - [493, 7980.76]
   - - [1024, 1024, 1, 1280]
-    - [472, 8384.52]
+    - [490, 8384.42]
   - - [448, 5888, 1, 256]
-    - [469, 7365.75]
+    - [487, 7365.65]
   - - [704, 64, 1, 128]
-    - [414, 358.755]
+    - [432, 358.655]
   - - [1408, 6784, 1, 3328]
-    - [475, 9094.19]
+    - [493, 9094.09]
   - - [448, 1024, 1, 128]
-    - [464, 1773.05]
+    - [482, 1772.95]
   - - [4288, 704, 1, 128]
-    - [461, 4355.38]
+    - [479, 4355.28]
   - - [128, 1856, 1, 128]
-    - [400, 1610.73]
+    - [418, 1610.63]
   - - [448, 2368, 1, 3328]
-    - [475, 7366.47]
+    - [493, 7366.37]
   - - [5056, 64, 1, 128]
-    - [400, 2157.33]
+    - [418, 2157.23]
   - - [5056, 2944, 1, 256]
-    - [469, 9123.16]
+    - [487, 9123.06]
   - - [6784, 5888, 1, 128]
-    - [460, 5285.9]
+    - [478, 5285.8]
   - - [704, 1024, 1, 256]
-    - [475, 6667.35]
+    - [493, 6667.25]
   - - [1024, 4, 1, 256]
-    - [424, 187.346]
+    - [442, 187.246]
   - - [2368, 1856, 1, 256]
-    - [475, 6777.94]
+    - [493, 6777.84]
   - - [128, 6784, 1, 1280]
-    - [472, 7052.71]
+    - [490, 7052.61]
   - - [1408, 3584, 1, 3328]
-    - [476, 9038.05]
+    - [494, 9037.95]
   - - [2368, 6784, 1, 256]
-    - [469, 9181.45]
+    - [487, 9181.35]
   - - [5056, 1408, 1, 1280]
-    - [474, 9422.0]
+    - [492, 9421.9]
   - - [256, 256, 1, 128]
-    - [406, 543.404]
+    - [424, 543.304]
   - - [5056, 4288, 1, 128]
-    - [464, 5340.02]
+    - [482, 5339.92]
   - - [1408, 1856, 1, 128]
-    - [461, 4270.99]
+    - [479, 4270.89]
   - - [1408, 5888, 1, 3328]
-    - [473, 9034.89]
+    - [491, 9034.79]
   - - [1856, 256, 1, 256]
-    - [475, 5847.93]
+    - [493, 5847.83]
   - - [6784, 6784, 1, 256]
-    - [468, 9624.48]
+    - [486, 9624.38]
   - - [64, 256, 1, 128]
-    - [407, 146.549]
+    - [425, 146.449]
   - - [4288, 2368, 1, 128]
-    - [460, 3897.04]
+    - [478, 3896.94]
   - - [1856, 4288, 1, 128]
-    - [461, 4337.17]
+    - [479, 4337.07]
   - - [256, 4288, 1, 1280]
-    - [469, 7499.52]
+    - [487, 7499.42]
   - - [2368, 2944, 1, 256]
-    - [474, 7703.28]
+    - [492, 7703.18]
   - - [4, 1856, 1, 256]
-    - [487, 264.064]
+    - [505, 263.964]
   - - [3584, 1856, 1, 1280]
-    - [469, 9224.43]
+    - [487, 9224.33]
   - - [6784, 6784, 1, 128]
-    - [461, 5476.13]
+    - [479, 5476.03]
   - - [256, 1856, 1, 128]
-    - [464, 1858.82]
+    - [482, 1858.72]
   - - [704, 64, 1, 1280]
-    - [442, 3368.77]
+    - [460, 3368.67]
   - - [5888, 5056, 1, 256]
-    - [475, 5859.91]
+    - [493, 5859.81]
   - - [3584, 448, 1, 256]
-    - [475, 7298.43]
+    - [493, 7298.33]
   - - [448, 4288, 1, 128]
-    - [461, 3813.55]
+    - [479, 3813.45]
   - - [2944, 4288, 1, 3328]
-    - [470, 9149.73]
+    - [488, 9149.63]
   - - [256, 6784, 1, 256]
-    - [469, 7984.95]
+    - [487, 7984.85]
   - - [1408, 4288, 1, 128]
-    - [464, 4728.44]
+    - [482, 4728.34]
   - - [2944, 704, 1, 3328]
-    - [475, 7149.86]
+    - [493, 7149.76]
   - - [128, 448, 1, 256]
-    - [441, 1699.18]
+    - [459, 1699.08]
   - - [512, 32, 1, 512]
-    - [441, 1127.6]
+    - [459, 1127.5]
   - - [3584, 3584, 1, 256]
-    - [470, 8558.11]
+    - [488, 8558.01]
   - - [448, 1408, 1, 128]
-    - [461, 2504.45]
+    - [479, 2504.35]
   - - [128, 256, 1, 1280]
-    - [442, 3216.59]
+    - [460, 3216.49]
   - - [3584, 5056, 1, 256]
-    - [467, 5674.45]
+    - [485, 5674.35]
   - - [6784, 128, 1, 256]
-    - [469, 6216.49]
+    - [487, 6216.39]
   - - [4288, 4, 1, 256]
-    - [485, 435.706]
+    - [503, 435.606]
   - - [64, 1408, 1, 3328]
-    - [443, 6186.01]
+    - [461, 6185.91]
   - - [704, 448, 1, 256]
-    - [475, 4005.08]
+    - [493, 4004.98]
   - - [2944, 2368, 1, 1280]
-    - [476, 8542.8]
+    - [494, 8542.7]
   - - [448, 64, 1, 3328]
-    - [456, 3835.33]
+    - [474, 3835.23]
   - - [1408, 3584, 1, 256]
-    - [469, 8714.63]
+    - [487, 8714.53]
   - - [3584, 4, 1, 3328]
-    - [424, 689.554]
+    - [442, 689.454]
   - - [6784, 3584, 1, 256]
-    - [474, 9271.34]
+    - [492, 9271.24]
   - - [256, 128, 1, 128]
-    - [407, 283.499]
+    - [425, 283.399]
   - - [704, 1408, 1, 128]
-    - [461, 3210.57]
+    - [479, 3210.47]
   - - [4, 2368, 1, 256]
-    - [487, 360.938]
+    - [505, 360.838]
   - - [2944, 448, 1, 128]
-    - [461, 3344.41]
+    - [479, 3344.31]
   - - [128, 1408, 1, 256]
-    - [469, 3186.38]
+    - [487, 3186.28]
   - - [4, 2944, 1, 256]
-    - [485, 384.622]
+    - [503, 384.522]
   - - [64, 128, 1, 3328]
-    - [438, 2103.72]
+    - [456, 2103.62]
   - - [5056, 2368, 1, 128]
-    - [461, 5219.76]
+    - [479, 5219.66]
   - - [2944, 2944, 1, 3328]
-    - [478, 9174.69]
+    - [496, 9174.59]
   - - [5056, 6784, 1, 256]
-    - [480, 8992.36]
+    - [498, 8992.26]
   - - [1856, 3584, 1, 128]
-    - [461, 4957.27]
+    - [479, 4957.17]
   - - [128, 2944, 1, 128]
-    - [399, 2241.48]
+    - [417, 2241.38]
   - - [1024, 704, 1, 3328]
-    - [479, 6545.11]
+    - [497, 6545.01]
   - - [6784, 448, 1, 256]
-    - [475, 5379.25]
+    - [493, 5379.15]
   - - [3584, 6784, 1, 128]
-    - [461, 5102.01]
+    - [479, 5101.91]
   - - [128, 4288, 1, 256]
-    - [469, 5211.86]
+    - [487, 5211.76]
   - - [704, 448, 1, 3328]
-    - [470, 4504.15]
+    - [488, 4504.05]
   - - [1024, 1024, 1, 3328]
-    - [472, 8009.77]
+    - [490, 8009.67]
   - - [128, 128, 1, 3328]
-    - [455, 3185.03]
+    - [473, 3184.93]
   - - [5056, 1856, 1, 256]
-    - [469, 9138.43]
+    - [487, 9138.33]
   - - [256, 128, 1, 256]
-    - [441, 1205.36]
+    - [459, 1205.26]
   - - [1024, 1856, 1, 256]
-    - [480, 6375.09]
+    - [498, 6374.99]
   - - [4288, 64, 1, 128]
-    - [397, 1695.43]
+    - [415, 1695.33]
   - - [256, 448, 1, 3328]
-    - [444, 5659.67]
+    - [462, 5659.57]
   - - [1408, 6784, 1, 1280]
-    - [469, 9349.2]
+    - [487, 9349.1]
   - - [3584, 3584, 1, 1280]
-    - [474, 9302.19]
+    - [492, 9302.09]
   - - [64, 2368, 1, 1280]
-    - [443, 4433.07]
+    - [461, 4432.97]
   - - [448, 2368, 1, 1280]
-    - [469, 7250.77]
+    - [487, 7250.67]
   - - [5888, 5888, 1, 128]
-    - [461, 4616.03]
+    - [479, 4615.93]
   - - [64, 6784, 1, 3328]
-    - [475, 6987.23]
+    - [493, 6987.13]
   - - [2944, 256, 1, 1280]
-    - [478, 6127.45]
+    - [496, 6127.35]
   - - [5056, 5888, 1, 128]
-    - [460, 5106.39]
+    - [478, 5106.29]
   - - [256, 2368, 1, 128]
-    - [461, 2141.23]
+    - [479, 2141.13]
   - - [5056, 2368, 1, 3328]
-    - [472, 9041.75]
+    - [490, 9041.65]
   - - [2944, 4288, 1, 256]
-    - [480, 8691.22]
+    - [498, 8691.12]
   - - [1408, 3584, 1, 1280]
-    - [469, 9070.0]
+    - [487, 9069.9]
   - - [2368, 64, 1, 256]
-    - [441, 2412.87]
+    - [459, 2412.77]
   - - [64, 448, 1, 3328]
-    - [456, 3739.14]
+    - [474, 3739.04]
   - - [256, 256, 1, 3328]
-    - [443, 5304.18]
+    - [461, 5304.08]
   - - [5888, 4, 1, 128]
-    - [482, 105.655]
+    - [500, 105.555]
   - - [1856, 704, 1, 256]
-    - [469, 8025.43]
+    - [487, 8025.33]
   - - [4, 4288, 1, 1280]
-    - [416, 579.07]
+    - [434, 578.97]
   - - [1408, 448, 1, 3328]
-    - [477, 5714.51]
+    - [495, 5714.41]
   - - [1024, 4, 1, 3328]
-    - [435, 608.649]
+    - [453, 608.549]
   - - [2368, 256, 1, 256]
-    - [475, 5173.08]
+    - [493, 5172.98]
   - - [2368, 6784, 1, 3328]
-    - [475, 9456.61]
+    - [493, 9456.51]
   - - [1856, 1408, 1, 1280]
-    - [480, 7805.19]
+    - [498, 7805.09]
   - - [1856, 448, 1, 1280]
-    - [467, 6185.04]
+    - [485, 6184.94]
   - - [6784, 704, 1, 128]
-    - [461, 4597.87]
+    - [479, 4597.77]
   - - [4, 4, 1, 256]
-    - [438, 0.791892]
+    - [456, 0.691892]
   - - [128, 5888, 1, 128]
-    - [399, 2691.76]
+    - [417, 2691.66]
   - - [1408, 5888, 1, 256]
-    - [474, 7164.27]
+    - [492, 7164.17]
   - - [704, 2944, 1, 1280]
-    - [476, 8139.81]
+    - [494, 8139.71]
   - - [1856, 2368, 1, 128]
-    - [464, 4623.38]
+    - [482, 4623.28]
   - - [4096, 7133, 1, 4096]
-    - [468, 9940.07]
+    - [486, 9939.97]
   - - [256, 64, 1, 256]
-    - [432, 689.953]
+    - [450, 689.853]
   - - [1024, 1024, 1, 256]
-    - [475, 7216.11]
+    - [493, 7216.01]
   - - [704, 1856, 1, 256]
-    - [475, 6364.17]
+    - [493, 6364.07]
   - - [128, 4288, 1, 3328]
-    - [431, 7200.59]
+    - [449, 7200.49]
   - - [3584, 704, 1, 1280]
-    - [478, 7972.08]
+    - [496, 7971.98]
   - - [256, 128, 1, 1280]
-    - [429, 2702.62]
+    - [447, 2702.52]
   - - [2368, 4, 1, 256]
-    - [424, 326.018]
+    - [442, 325.918]
   - - [256, 2368, 1, 1280]
-    - [469, 6638.93]
+    - [487, 6638.83]
   - - [2944, 6784, 1, 128]
-    - [460, 5233.53]
+    - [478, 5233.43]
   - - [3584, 448, 1, 3328]
-    - [469, 8094.4]
+    - [487, 8094.3]
   - - [1408, 4, 1, 256]
-    - [487, 243.646]
+    - [505, 243.546]
   - - [704, 2368, 1, 3328]
-    - [469, 8403.11]
+    - [487, 8403.01]
   - - [2944, 448, 1, 256]
-    - [469, 7022.59]
+    - [487, 7022.49]
   - - [1856, 448, 1, 128]
-    - [464, 2842.79]
+    - [482, 2842.69]
   - - [2368, 128, 1, 1280]
-    - [451, 5685.52]
+    - [469, 5685.42]
   - - [256, 5888, 1, 128]
-    - [466, 2178.71]
+    - [484, 2178.61]
   - - [64, 6784, 1, 256]
-    - [469, 5385.23]
+    - [487, 5385.13]
   - - [64, 5056, 1, 1280]
-    - [443, 5603.29]
+    - [461, 5603.19]
   - - [4, 6784, 1, 128]
-    - [481, 180.256]
+    - [499, 180.156]
   - - [2944, 2944, 1, 1280]
-    - [478, 9129.39]
+    - [496, 9129.29]
   - - [5888, 2368, 1, 256]
-    - [480, 6961.69]
+    - [498, 6961.59]
   - - [4, 3584, 1, 1280]
-    - [424, 646.23]
+    - [442, 646.13]
   - - [1408, 128, 1, 128]
-    - [410, 1172.29]
+    - [428, 1172.19]
   - - [6784, 704, 1, 3328]
-    - [475, 9084.62]
+    - [493, 9084.52]
   - - [128, 64, 1, 1280]
-    - [454, 1260.41]
+    - [472, 1260.31]
   - - [2368, 256, 1, 1280]
-    - [475, 6643.48]
+    - [493, 6643.38]
   - - [4, 448, 1, 3328]
-    - [438, 433.514]
+    - [456, 433.414]
   - - [5888, 4288, 1, 128]
-    - [462, 4753.17]
+    - [480, 4753.07]
   - - [4, 5888, 1, 256]
-    - [424, 471.14]
+    - [442, 471.04]
   - - [1408, 2944, 1, 3328]
-    - [478, 9207.1]
+    - [496, 9207.0]
   - - [3584, 704, 1, 128]
-    - [464, 3762.46]
+    - [482, 3762.36]
   - - [64, 1024, 1, 256]
-    - [442, 1807.99]
+    - [460, 1807.89]
   - - [5056, 5056, 1, 128]
-    - [465, 4830.16]
+    - [483, 4830.06]
   - - [2368, 448, 1, 1280]
-    - [469, 7263.16]
+    - [487, 7263.06]
   - - [128, 3584, 1, 256]
-    - [472, 4369.17]
+    - [490, 4369.07]
   - - [704, 448, 1, 1280]
-    - [470, 4205.33]
+    - [488, 4205.23]
   - - [448, 5056, 1, 128]
-    - [461, 3855.57]
+    - [479, 3855.47]
   - - [256, 4, 1, 1280]
-    - [492, 157.638]
+    - [510, 157.538]
   - - [128, 5056, 1, 256]
-    - [475, 6109.06]
+    - [493, 6108.96]
   - - [1408, 5056, 1, 128]
-    - [464, 4836.68]
+    - [482, 4836.58]
   - - [2944, 3584, 1, 128]
-    - [464, 4532.19]
+    - [482, 4532.09]
   - - [3584, 2368, 1, 256]
-    - [469, 8951.34]
+    - [487, 8951.24]
   - - [5888, 5056, 1, 1280]
-    - [480, 9276.49]
+    - [498, 9276.39]
   - - [2368, 5056, 1, 128]
-    - [464, 5167.66]
+    - [482, 5167.56]
   - - [64, 704, 1, 256]
-    - [424, 1501.97]
+    - [442, 1501.87]
   - - [4288, 256, 1, 1280]
-    - [469, 7496.3]
+    - [487, 7496.2]
   - - [3584, 3584, 1, 3328]
-    - [470, 9301.77]
+    - [488, 9301.67]
   - - [1024, 256, 1, 128]
-    - [461, 1508.84]
+    - [479, 1508.74]
   - - [4, 704, 1, 128]
-    - [482, 12.1469]
+    - [500, 12.0469]
   - - [5888, 6784, 1, 256]
-    - [468, 9370.47]
+    - [486, 9370.37]
   - - [4288, 2944, 1, 3328]
-    - [472, 9149.09]
+    - [490, 9148.99]
   - - [2944, 64, 1, 128]
-    - [408, 1456.46]
+    - [426, 1456.36]
   - - [1856, 64, 1, 256]
-    - [434, 2210.03]
+    - [452, 2209.93]
   - - [4288, 128, 1, 3328]
-    - [428, 6471.95]
+    - [446, 6471.85]
   - - [4288, 704, 1, 1280]
-    - [475, 8934.61]
+    - [493, 8934.51]
   - - [256, 5056, 1, 1280]
-    - [469, 8439.13]
+    - [487, 8439.03]
   - - [1408, 256, 1, 128]
-    - [464, 1769.17]
+    - [482, 1769.07]
   - - [2944, 5888, 1, 3328]
-    - [469, 9448.04]
+    - [487, 9447.94]
   - - [6784, 5888, 1, 1280]
-    - [480, 9372.25]
+    - [498, 9372.15]
   - - [704, 128, 1, 256]
-    - [426, 2059.8]
+    - [444, 2059.7]
   - - [5888, 4288, 1, 1280]
-    - [472, 9244.32]
+    - [490, 9244.22]
   - - [448, 256, 1, 1280]
-    - [451, 4741.72]
+    - [469, 4741.62]
   - - [5888, 3584, 1, 128]
-    - [460, 4980.06]
+    - [478, 4979.96]
   - - [1856, 1856, 1, 128]
-    - [464, 4363.98]
+    - [482, 4363.88]
   - - [5056, 4, 1, 1280]
-    - [484, 629.641]
+    - [502, 629.541]
   - - [256, 1408, 1, 1280]
-    - [475, 5588.44]
+    - [493, 5588.34]
   - - [512, 16, 1, 512]
-    - [435, 689.953]
+    - [453, 689.853]
   - - [704, 3584, 1, 128]
-    - [464, 4069.67]
+    - [482, 4069.57]
   - - [5888, 448, 1, 3328]
-    - [480, 7925.94]
+    - [498, 7925.84]
   - - [2368, 4288, 1, 1280]
-    - [479, 8492.7]
+    - [497, 8492.6]
   - - [4288, 2944, 1, 128]
-    - [461, 5238.21]
+    - [479, 5238.11]
   - - [1024, 6784, 1, 3328]
-    - [475, 8578.18]
+    - [493, 8578.08]
   - - [128, 2368, 1, 256]
-    - [475, 3788.9]
+    - [493, 3788.8]
   - - [6784, 64, 1, 3328]
-    - [469, 7003.46]
+    - [487, 7003.36]
   - - [5056, 2944, 1, 3328]
-    - [472, 8575.45]
+    - [490, 8575.35]
   - - [448, 128, 1, 256]
-    - [424, 1715.06]
+    - [442, 1714.96]
   - - [2944, 3584, 1, 256]
-    - [469, 8994.26]
+    - [487, 8994.16]
   - - [1408, 1408, 1, 3328]
-    - [467, 8757.7]
+    - [485, 8757.6]
   - - [1856, 128, 1, 1280]
-    - [469, 5598.17]
+    - [487, 5598.07]
   - - [3584, 3584, 1, 128]
-    - [460, 4787.44]
+    - [478, 4787.34]
   - - [64, 3584, 1, 256]
-    - [475, 3546.01]
+    - [493, 3545.91]
   - - [1408, 4, 1, 3328]
-    - [419, 640.24]
+    - [437, 640.14]
   - - [128, 2944, 1, 3328]
-    - [443, 7204.24]
+    - [461, 7204.14]
   - - [3584, 704, 1, 256]
-    - [469, 6239.69]
+    - [487, 6239.59]
   - - [2944, 448, 1, 3328]
-    - [475, 7726.71]
+    - [493, 7726.61]
   - - [3584, 1408, 1, 3328]
-    - [467, 9358.78]
+    - [485, 9358.68]
   - - [704, 3584, 1, 1280]
-    - [475, 8005.28]
+    - [493, 8005.18]
   - - [2944, 6784, 1, 1280]
-    - [467, 9487.73]
+    - [485, 9487.63]
   - - [1856, 6784, 1, 256]
-    - [469, 5684.56]
+    - [487, 5684.46]
   - - [4288, 448, 1, 3328]
-    - [475, 8410.38]
+    - [493, 8410.28]
   - - [6784, 4288, 1, 128]
-    - [465, 4785.58]
+    - [483, 4785.48]
   - - [6784, 704, 1, 1280]
-    - [469, 5579.05]
+    - [487, 5578.95]
   - - [256, 4288, 1, 256]
-    - [469, 6781.43]
+    - [487, 6781.33]
   - - [3584, 64, 1, 128]
-    - [408, 1474.0]
+    - [426, 1473.9]
   - - [5888, 1024, 1, 3328]
-    - [467, 8639.49]
+    - [485, 8639.39]
   - - [448, 64, 1, 128]
-    - [399, 259.282]
+    - [417, 259.182]
   - - [704, 6784, 1, 1280]
-    - [475, 9027.25]
+    - [493, 9027.15]
   - - [5888, 128, 1, 256]
-    - [475, 6812.88]
+    - [493, 6812.78]
   - - [2368, 448, 1, 3328]
-    - [475, 7356.63]
+    - [493, 7356.53]
   - - [1856, 5056, 1, 3328]
-    - [474, 8871.56]
+    - [492, 8871.46]
   - - [4, 6784, 1, 256]
-    - [483, 469.479]
+    - [501, 469.379]
   - - [1024, 3584, 1, 128]
-    - [461, 3428.02]
+    - [479, 3427.92]
   - - [1024, 1408, 1, 128]
-    - [464, 2935.05]
+    - [482, 2934.95]
   - - [2368, 2944, 1, 128]
-    - [464, 4888.02]
+    - [482, 4887.92]
   - - [5056, 64, 1, 256]
-    - [433, 3186.16]
+    - [451, 3186.06]
   - - [4, 448, 1, 1280]
-    - [438, 273.167]
+    - [456, 273.067]
   - - [5056, 2944, 1, 128]
-    - [465, 4752.79]
+    - [483, 4752.69]
   - - [5888, 5056, 1, 3328]
-    - [479, 9124.77]
+    - [497, 9124.67]
   - - [1024, 704, 1, 128]
-    - [464, 2302.36]
+    - [482, 2302.26]
   - - [1408, 2368, 1, 128]
-    - [464, 3826.95]
+    - [482, 3826.85]
   - - [5888, 2368, 1, 128]
-    - [461, 4912.77]
+    - [479, 4912.67]
   - - [128, 5056, 1, 3328]
-    - [451, 7583.8]
+    - [469, 7583.7]
   - - [3584, 6784, 1, 1280]
-    - [478, 9313.5]
+    - [496, 9313.4]
   - - [3072, 7435, 1, 1024]
-    - [472, 9322.07]
+    - [490, 9321.97]
   - - [1856, 5888, 1, 256]
-    - [469, 5778.34]
+    - [487, 5778.24]
   - - [256, 256, 1, 256]
-    - [421, 1576.91]
+    - [439, 1576.81]
   - - [256, 64, 1, 128]
-    - [407, 173.705]
+    - [425, 173.605]
   - - [4288, 4288, 1, 3328]
-    - [474, 8416.27]
+    - [492, 8416.17]
   - - [4288, 1408, 1, 1280]
-    - [480, 9301.97]
+    - [498, 9301.87]
   - - [3584, 5056, 1, 128]
-    - [466, 4344.94]
+    - [484, 4344.84]
   - - [4, 1024, 1, 3328]
-    - [435, 615.239]
+    - [453, 615.139]
   - - [4288, 2368, 1, 256]
-    - [469, 9142.67]
+    - [487, 9142.57]
   - - [2944, 5056, 1, 1280]
-    - [469, 9399.69]
+    - [487, 9399.59]
   - - [448, 6784, 1, 256]
-    - [468, 5710.93]
+    - [486, 5710.83]
   - - [64, 1024, 1, 3328]
-    - [451, 4975.1]
+    - [469, 4975.0]
   - - [6784, 2368, 1, 3328]
-    - [478, 9207.63]
+    - [496, 9207.53]
   - - [256, 1024, 1, 1280]
-    - [475, 5983.42]
+    - [493, 5983.32]
   - - [704, 4, 1, 128]
-    - [481, 15.1187]
+    - [499, 15.0187]
   - - [256, 4, 1, 256]
-    - [438, 52.9516]
+    - [456, 52.8516]
   - - [4288, 128, 1, 256]
-    - [469, 5242.98]
+    - [487, 5242.88]
   - - [4288, 1856, 1, 3328]
-    - [480, 9354.06]
+    - [498, 9353.96]
   - - [3584, 448, 1, 128]
-    - [461, 3353.9]
+    - [479, 3353.8]
   - - [256, 4, 1, 3328]
-    - [492, 313.324]
+    - [510, 313.224]
   - - [4, 1408, 1, 1280]
-    - [435, 509.207]
+    - [453, 509.107]
   - - [3584, 64, 1, 1280]
-    - [423, 5198.42]
+    - [441, 5198.32]
   - - [1408, 448, 1, 128]
-    - [461, 2628.37]
+    - [479, 2628.27]
   - - [3584, 1024, 1, 1280]
-    - [475, 8535.01]
+    - [493, 8534.91]
   - - [1856, 5056, 1, 256]
-    - [467, 8184.49]
+    - [485, 8184.39]
   - - [4, 3584, 1, 256]
-    - [485, 395.576]
+    - [503, 395.476]
   - - [1024, 4288, 1, 256]
-    - [470, 5966.52]
+    - [488, 5966.42]
   - - [5888, 3584, 1, 3328]
-    - [473, 9189.43]
+    - [491, 9189.33]
   - - [4, 256, 1, 256]
-    - [489, 41.5785]
+    - [507, 41.4785]
   - - [5056, 3584, 1, 3328]
-    - [474, 9431.92]
+    - [492, 9431.82]
   - - [128, 5888, 1, 1280]
-    - [469, 8192.1]
+    - [487, 8192.0]
   - - [704, 448, 1, 128]
-    - [461, 1510.96]
+    - [479, 1510.86]
   - - [2368, 1408, 1, 1280]
-    - [469, 8415.65]
+    - [487, 8415.55]
   - - [5056, 2944, 1, 1280]
-    - [480, 9294.77]
+    - [498, 9294.67]
   - - [4, 4, 1, 128]
-    - [482, 0.1356549]
+    - [500, 0.0356549]
   - - [3584, 256, 1, 256]
-    - [469, 6749.55]
+    - [487, 6749.45]
   - - [128, 1856, 1, 3328]
-    - [422, 6797.09]
+    - [440, 6796.99]
   - - [1024, 6784, 1, 256]
-    - [475, 8783.09]
+    - [493, 8782.99]
   - - [4, 128, 1, 256]
-    - [435, 27.4067]
+    - [453, 27.3067]
   - - [64, 64, 1, 1280]
-    - [454, 712.448]
+    - [472, 712.348]
   - - [6784, 4, 1, 128]
-    - [482, 122.06]
+    - [500, 121.96]
   - - [2944, 1408, 1, 128]
-    - [464, 4430.46]
+    - [482, 4430.36]
   - - [448, 128, 1, 3328]
-    - [451, 5097.34]
+    - [469, 5097.24]
   - - [64, 2944, 1, 3328]
-    - [451, 6362.2]
+    - [469, 6362.1]
   - - [64, 4288, 1, 3328]
-    - [451, 6565.01]
+    - [469, 6564.91]
   - - [5056, 6784, 1, 3328]
-    - [475, 8121.18]
+    - [493, 8121.08]
   - - [128, 2944, 1, 256]
-    - [469, 4692.17]
+    - [487, 4692.07]
   - - [128, 6784, 1, 128]
-    - [398, 2687.46]
+    - [416, 2687.36]
   - - [3584, 4288, 1, 256]
-    - [475, 9193.99]
+    - [493, 9193.89]
   - - [448, 1856, 1, 256]
-    - [475, 6231.39]
+    - [493, 6231.29]
   - - [1856, 6784, 1, 3328]
-    - [480, 9191.48]
+    - [498, 9191.38]
   - - [3584, 128, 1, 3328]
-    - [469, 7368.47]
+    - [487, 7368.37]
   - - [64, 1856, 1, 256]
-    - [420, 2184.63]
+    - [438, 2184.53]
   - - [1024, 448, 1, 1280]
-    - [475, 6977.32]
+    - [493, 6977.22]
   - - [5888, 4288, 1, 256]
-    - [475, 5780.5]
+    - [493, 5780.4]
   - - [4, 448, 1, 128]
-    - [482, 9.06]
+    - [500, 8.96]
   - - [5056, 1408, 1, 256]
-    - [469, 5601.35]
+    - [487, 5601.25]
   - - [64, 256, 1, 1280]
-    - [435, 1927.63]
+    - [453, 1927.53]
   - - [3584, 1024, 1, 256]
-    - [480, 7542.84]
+    - [498, 7542.74]
   - - [256, 704, 1, 256]
-    - [469, 2957.62]
+    - [487, 2957.52]
   - - [5888, 5888, 1, 256]
-    - [480, 7344.14]
+    - [498, 7344.04]
   - - [4288, 1024, 1, 1280]
-    - [475, 8925.84]
+    - [493, 8925.74]
   - - [5888, 128, 1, 3328]
-    - [469, 8410.07]
+    - [487, 8409.97]
   - - [448, 6784, 1, 3328]
-    - [469, 8862.56]
+    - [487, 8862.46]
   - - [2944, 1408, 1, 1280]
-    - [480, 7478.93]
+    - [498, 7478.83]
   - - [1024, 32, 1, 512]
-    - [424, 1777.35]
+    - [442, 1777.25]
   - - [2944, 1856, 1, 3328]
-    - [469, 9153.43]
+    - [487, 9153.33]
   - - [2368, 64, 1, 128]
-    - [408, 1102.3]
+    - [426, 1102.2]
   - - [2944, 2944, 1, 128]
-    - [460, 4591.95]
+    - [478, 4591.85]
   - - [4, 128, 1, 3328]
-    - [490, 119.09]
+    - [508, 118.99]
   - - [3584, 5888, 1, 1280]
-    - [469, 9222.49]
+    - [487, 9222.39]
   - - [64, 4, 1, 128]
-    - [481, 1.03516]
+    - [499, 0.93516]
   - - [6784, 1856, 1, 1280]
-    - [469, 9136.07]
+    - [487, 9135.97]
   - - [2944, 5056, 1, 256]
-    - [475, 8860.13]
+    - [493, 8860.03]
   - - [2944, 5888, 1, 1280]
-    - [468, 9643.63]
+    - [486, 9643.53]
   - - [5888, 256, 1, 3328]
-    - [475, 8799.53]
+    - [493, 8799.43]
   - - [1856, 5888, 1, 3328]
-    - [475, 9457.53]
+    - [493, 9457.43]
   - - [3584, 1408, 1, 256]
-    - [475, 8672.53]
+    - [493, 8672.43]
   - - [704, 3584, 1, 3328]
-    - [475, 8525.3]
+    - [493, 8525.2]
   - - [5056, 448, 1, 1280]
-    - [475, 8843.77]
+    - [493, 8843.67]
   - - [3584, 1856, 1, 3328]
-    - [467, 8881.53]
+    - [485, 8881.43]
   - - [64, 1408, 1, 128]
-    - [396, 747.142]
+    - [414, 747.042]
   - - [1408, 704, 1, 1280]
-    - [469, 8342.93]
+    - [487, 8342.83]
   - - [2944, 1024, 1, 256]
-    - [480, 8079.58]
+    - [498, 8079.48]
   - - [1024, 2368, 1, 128]
-    - [464, 3347.58]
+    - [482, 3347.48]
   - - [2368, 4288, 1, 3328]
-    - [475, 9467.67]
+    - [493, 9467.57]
   - - [4, 1408, 1, 256]
-    - [487, 257.563]
+    - [505, 257.463]
   - - [1024, 1408, 1, 1280]
-    - [475, 8241.84]
+    - [493, 8241.74]
   - - [64, 64, 1, 256]
-    - [435, 190.059]
+    - [453, 189.959]
   - - [704, 256, 1, 3328]
-    - [469, 4519.28]
+    - [487, 4519.18]
   - - [6784, 5056, 1, 256]
-    - [468, 9133.78]
+    - [486, 9133.68]
   - - [4, 4288, 1, 3328]
-    - [419, 670.075]
+    - [437, 669.975]
   - - [448, 6784, 1, 128]
-    - [461, 4481.92]
+    - [479, 4481.82]
   - - [4, 704, 1, 3328]
-    - [491, 523.071]
+    - [509, 522.971]
   - - [448, 2944, 1, 256]
-    - [469, 7022.59]
+    - [487, 7022.49]
   - - [2944, 6784, 1, 256]
-    - [475, 9199.84]
+    - [493, 9199.74]
   - - [2368, 2368, 1, 1280]
-    - [480, 8646.84]
+    - [498, 8646.74]
   - - [4, 4, 1, 1280]
-    - [438, 3.11176]
+    - [456, 3.01176]
   - - [1856, 3584, 1, 1280]
-    - [467, 8805.45]
+    - [485, 8805.35]
   - - [64, 2944, 1, 256]
-    - [441, 2565.76]
+    - [459, 2565.66]
   - - [3584, 1408, 1, 1280]
-    - [480, 9273.12]
+    - [498, 9273.02]
   - - [448, 256, 1, 128]
-    - [396, 941.13]
+    - [414, 941.03]
   - - [4288, 448, 1, 128]
-    - [462, 3215.2]
+    - [480, 3215.1]
   - - [5056, 256, 1, 1280]
-    - [475, 8790.13]
+    - [493, 8790.03]
   - - [1856, 1408, 1, 3328]
-    - [469, 9310.73]
+    - [487, 9310.63]
   - - [128, 128, 1, 128]
-    - [404, 155.215]
+    - [422, 155.115]
   - - [1024, 4288, 1, 3328]
-    - [472, 8528.12]
+    - [490, 8528.02]
   - - [448, 2368, 1, 256]
-    - [476, 5097.34]
+    - [494, 5097.24]
   - - [1024, 4, 1, 128]
-    - [482, 10.3721]
+    - [500, 10.2721]
   - - [5056, 448, 1, 256]
-    - [475, 8236.78]
+    - [493, 8236.68]
   - - [2944, 2368, 1, 3328]
-    - [468, 9331.16]
+    - [486, 9331.06]
   - - [704, 128, 1, 3328]
-    - [443, 5969.3]
+    - [461, 5969.2]
   - - [64, 64, 1, 3328]
-    - [459, 1494.78]
+    - [477, 1494.68]
   - - [1024, 1856, 1, 1280]
-    - [474, 6356.43]
+    - [492, 6356.33]
   - - [6784, 1856, 1, 256]
-    - [475, 9068.63]
+    - [493, 9068.53]
   - - [128, 2368, 1, 3328]
-    - [451, 6714.22]
+    - [469, 6714.12]
   - - [1024, 5888, 1, 256]
-    - [475, 5501.6]
+    - [493, 5501.5]
   - - [5056, 128, 1, 1280]
-    - [431, 6455.64]
+    - [449, 6455.54]
   - - [5056, 64, 1, 3328]
-    - [436, 6703.81]
+    - [454, 6703.71]
   - - [128, 704, 1, 128]
-    - [397, 696.618]
+    - [415, 696.518]
   - - [1408, 2368, 1, 256]
-    - [469, 8667.25]
+    - [487, 8667.15]
   - - [1408, 1408, 1, 256]
-    - [480, 7615.81]
+    - [498, 7615.71]
   - - [4, 64, 1, 128]
-    - [482, 1.08463]
+    - [500, 0.98463]
   - - [64, 128, 1, 1280]
-    - [454, 1379.81]
+    - [472, 1379.71]
   - - [2368, 2368, 1, 128]
-    - [464, 4582.26]
+    - [482, 4582.16]
   - - [64, 5888, 1, 128]
-    - [397, 2086.37]
+    - [415, 2086.27]
   - - [5888, 4, 1, 3328]
-    - [418, 667.514]
+    - [436, 667.414]
   - - [6784, 1408, 1, 128]
-    - [465, 4516.34]
+    - [483, 4516.24]
   - - [4288, 5888, 1, 256]
-    - [480, 8497.43]
+    - [498, 8497.33]
   - - [1408, 5056, 1, 256]
-    - [469, 8867.46]
+    - [487, 8867.36]
   - - [5056, 128, 1, 3328]
-    - [451, 7678.98]
+    - [469, 7678.88]
   - - [128, 128, 1, 1280]
-    - [439, 2016.59]
+    - [457, 2016.49]
   - - [448, 704, 1, 256]
-    - [470, 3030.89]
+    - [488, 3030.79]
   - - [4288, 3584, 1, 128]
-    - [461, 5246.33]
+    - [479, 5246.23]
   - - [2944, 128, 1, 3328]
-    - [436, 6795.16]
+    - [454, 6795.06]
   - - [128, 5056, 1, 1280]
-    - [422, 6193.09]
+    - [440, 6192.99]
   - - [3584, 5056, 1, 1280]
-    - [474, 9499.17]
+    - [492, 9499.07]
   - - [256, 448, 1, 1280]
-    - [430, 4267.56]
+    - [448, 4267.46]
   - - [704, 704, 1, 128]
-    - [464, 2259.32]
+    - [482, 2259.22]
   - - [5056, 4, 1, 128]
-    - [482, 12.5313]
+    - [500, 12.4313]
   - - [704, 256, 1, 1280]
-    - [469, 4355.97]
+    - [487, 4355.87]
   - - [64, 2368, 1, 3328]
-    - [443, 6310.97]
+    - [461, 6310.87]
   - - [1856, 1024, 1, 128]
-    - [460, 4065.43]
+    - [478, 4065.33]
   - - [1856, 64, 1, 128]
-    - [399, 936.329]
+    - [417, 936.229]
   - - [64, 6784, 1, 1280]
-    - [422, 5731.8]
+    - [440, 5731.7]
   - - [704, 4288, 1, 256]
-    - [475, 5218.9]
+    - [493, 5218.8]
   - - [5888, 2368, 1, 1280]
-    - [469, 9378.9]
+    - [487, 9378.8]
   - - [128, 256, 1, 256]
-    - [439, 1219.37]
+    - [457, 1219.27]
   - - [256, 64, 1, 1280]
-    - [441, 1820.54]
+    - [459, 1820.44]
   - - [2368, 5888, 1, 1280]
-    - [480, 9143.64]
+    - [498, 9143.54]
   - - [5888, 256, 1, 1280]
-    - [469, 8678.47]
+    - [487, 8678.37]
   - - [4, 5888, 1, 1280]
-    - [416, 668.242]
+    - [434, 668.142]
   - - [704, 128, 1, 128]
-    - [404, 649.556]
+    - [422, 649.456]
   - - [1024, 4, 1, 1280]
-    - [435, 478.465]
+    - [453, 478.365]
   - - [2368, 1856, 1, 3328]
-    - [467, 8153.87]
+    - [485, 8153.77]
   - - [2368, 128, 1, 128]
-    - [402, 1858.21]
+    - [420, 1858.11]
   - - [2944, 704, 1, 256]
-    - [469, 8438.07]
+    - [487, 8437.97]
   - - [5056, 128, 1, 128]
-    - [398, 2689.63]
+    - [416, 2689.53]
   - - [256, 704, 1, 3328]
-    - [469, 4541.18]
+    - [487, 4541.08]
   - - [704, 3584, 1, 256]
-    - [470, 7771.07]
+    - [488, 7770.97]
   - - [1024, 1024, 1, 1024]
-    - [475, 8305.62]
+    - [493, 8305.52]
   - - [704, 2944, 1, 3328]
-    - [475, 9166.48]
+    - [493, 9166.38]
   - - [6784, 1024, 1, 128]
-    - [460, 4362.31]
+    - [478, 4362.21]
   - - [256, 448, 1, 128]
-    - [407, 899.614]
+    - [425, 899.514]
   - - [448, 1024, 1, 3328]
-    - [469, 7385.56]
+    - [487, 7385.46]
   - - [2944, 1024, 1, 3328]
-    - [472, 8779.81]
+    - [490, 8779.71]
   - - [2944, 5056, 1, 128]
-    - [464, 5103.11]
+    - [482, 5103.01]
   - - [1408, 6784, 1, 256]
-    - [475, 8346.89]
+    - [493, 8346.79]
   - - [6784, 1408, 1, 3328]
-    - [471, 8878.4]
+    - [489, 8878.3]
   - - [4288, 6784, 1, 128]
-    - [460, 5432.99]
+    - [478, 5432.89]
   - - [704, 64, 1, 256]
-    - [449, 1441.89]
+    - [467, 1441.79]
   - - [5888, 4, 1, 1280]
-    - [486, 636.641]
+    - [504, 636.541]
   - - [256, 2368, 1, 3328]
-    - [469, 6804.8]
+    - [487, 6804.7]
   - - [6784, 2944, 1, 1280]
-    - [468, 9472.26]
+    - [486, 9472.16]
   - - [4288, 1856, 1, 128]
-    - [464, 4886.38]
+    - [482, 4886.28]
   - - [1856, 2944, 1, 128]
-    - [461, 4642.96]
+    - [479, 4642.86]
   - - [6784, 448, 1, 128]
-    - [461, 4369.17]
+    - [479, 4369.07]
   - - [64, 3584, 1, 128]
-    - [408, 1645.85]
+    - [426, 1645.75]
   - - [448, 5056, 1, 1280]
-    - [469, 8553.64]
+    - [487, 8553.54]
   - - [2368, 1856, 1, 128]
-    - [461, 4741.85]
+    - [479, 4741.75]
   - - [128, 448, 1, 1280]
-    - [451, 3745.01]
+    - [469, 3744.91]
   - - [4288, 704, 1, 256]
-    - [469, 8444.16]
+    - [487, 8444.06]
   - - [256, 3584, 1, 128]
-    - [461, 2454.96]
+    - [479, 2454.86]
   - - [5888, 704, 1, 256]
-    - [469, 8819.57]
+    - [487, 8819.47]
   - - [3584, 1024, 1, 128]
-    - [464, 4094.96]
+    - [482, 4094.86]
   - - [256, 5888, 1, 3328]
-    - [478, 8538.33]
+    - [496, 8538.23]
   - - [1408, 4288, 1, 3328]
-    - [480, 9212.57]
+    - [498, 9212.47]
   - - [6784, 4288, 1, 256]
-    - [468, 9163.12]
+    - [486, 9163.02]
   - - [4288, 256, 1, 128]
-    - [461, 3081.44]
+    - [479, 3081.34]
   - - [5888, 256, 1, 256]
-    - [469, 7680.75]
+    - [487, 7680.65]
   - - [6784, 1024, 1, 1280]
-    - [480, 9248.63]
+    - [498, 9248.53]
   - - [5888, 1024, 1, 128]
-    - [464, 4061.94]
+    - [482, 4061.84]
   - - [1024, 128, 1, 256]
-    - [475, 2317.39]
+    - [493, 2317.29]
   - - [128, 64, 1, 3328]
-    - [458, 2116.79]
+    - [476, 2116.69]
   - - [448, 64, 1, 256]
-    - [441, 1079.52]
+    - [459, 1079.42]
   - - [2368, 256, 1, 128]
-    - [462, 2229.83]
+    - [480, 2229.73]
   - - [6784, 3584, 1, 1280]
-    - [475, 9096.6]
+    - [493, 9096.5]
   - - [1024, 6784, 1, 1280]
-    - [473, 9112.9]
+    - [491, 9112.8]
   - - [2944, 64, 1, 1280]
-    - [431, 4983.0]
+    - [449, 4982.9]
   - - [1408, 2944, 1, 1280]
-    - [470, 9131.63]
+    - [488, 9131.53]
   - - [256, 1856, 1, 256]
-    - [478, 4432.86]
+    - [496, 4432.76]
   - - [1408, 2368, 1, 3328]
-    - [478, 8449.18]
+    - [496, 8449.08]
   - - [2944, 4, 1, 3328]
-    - [424, 673.94]
+    - [442, 673.84]
   - - [128, 1408, 1, 3328]
-    - [443, 6582.47]
+    - [461, 6582.37]
   - - [2944, 1856, 1, 128]
-    - [461, 4827.54]
+    - [479, 4827.44]
   - - [256, 2944, 1, 128]
-    - [464, 2416.66]
+    - [482, 2416.56]
   - - [256, 6784, 1, 128]
-    - [464, 3118.76]
+    - [482, 3118.66]
   - - [2368, 4, 1, 128]
-    - [482, 22.7197]
+    - [500, 22.6197]
   - - [1408, 256, 1, 3328]
-    - [469, 3733.82]
+    - [487, 3733.72]
   - - [1856, 4, 1, 128]
-    - [481, 7.20009]
+    - [499, 7.10009]
   - - [1024, 16, 1, 512]
-    - [437, 1165.18]
+    - [455, 1165.08]
   - - [5056, 6784, 1, 128]
-    - [465, 4949.13]
+    - [483, 4949.03]
   - - [4288, 5056, 1, 128]
-    - [464, 4966.9]
+    - [482, 4966.8]
   - - [1856, 5888, 1, 128]
-    - [460, 4351.76]
+    - [478, 4351.66]
   - - [2944, 5888, 1, 256]
-    - [480, 8460.99]
+    - [498, 8460.89]
   - - [3584, 1856, 1, 256]
-    - [475, 8876.7]
+    - [493, 8876.6]
   - - [4288, 3584, 1, 1280]
-    - [468, 9603.7]
+    - [486, 9603.6]
   - - [2368, 448, 1, 256]
-    - [469, 6604.7]
+    - [487, 6604.6]
   - - [4288, 256, 1, 3328]
-    - [469, 7619.89]
+    - [487, 7619.79]
   - - [1856, 704, 1, 128]
-    - [461, 3629.61]
+    - [479, 3629.51]
   - - [1408, 64, 1, 256]
-    - [425, 2168.21]
+    - [443, 2168.11]
   - - [64, 1856, 1, 128]
-    - [401, 979.762]
+    - [419, 979.662]
   - - [4, 256, 1, 128]
-    - [482, 5.23595]
+    - [500, 5.13595]
   - - [704, 4288, 1, 3328]
-    - [475, 9014.52]
+    - [493, 9014.42]
   - - [704, 5888, 1, 128]
-    - [462, 4221.77]
+    - [480, 4221.67]
   - - [6784, 3584, 1, 128]
-    - [460, 5360.73]
+    - [478, 5360.63]
   - - [1024, 64, 1, 256]
-    - [420, 1588.85]
+    - [438, 1588.75]
   - - [64, 2368, 1, 256]
-    - [475, 2552.55]
+    - [493, 2552.45]
   - - [4288, 5056, 1, 3328]
-    - [474, 8193.38]
+    - [492, 8193.28]
   - - [4, 1856, 1, 1280]
-    - [424, 499.192]
+    - [442, 499.092]
   - - [4288, 128, 1, 128]
-    - [461, 2373.57]
+    - [479, 2373.47]
   - - [1408, 1408, 1, 128]
-    - [464, 3753.88]
+    - [482, 3753.78]
   - - [1024, 128, 1, 3328]
-    - [446, 5656.32]
+    - [464, 5656.22]
   - - [1856, 128, 1, 128]
-    - [397, 1617.58]
+    - [415, 1617.48]
   - - [5056, 2368, 1, 256]
-    - [480, 5553.41]
+    - [498, 5553.31]
   - - [4288, 704, 1, 3328]
-    - [468, 6962.06]
+    - [486, 6961.96]
   - - [448, 3584, 1, 256]
-    - [478, 5981.5]
+    - [496, 5981.4]
   - - [64, 128, 1, 128]
-    - [415, 74.9983]
+    - [433, 74.8983]
   - - [2368, 64, 1, 1280]
-    - [451, 5041.33]
+    - [469, 5041.23]
   - - [2368, 1024, 1, 1280]
-    - [476, 7740.97]
+    - [494, 7740.87]
   - - [2944, 1408, 1, 3328]
-    - [478, 9204.65]
+    - [496, 9204.55]
   - - [1408, 448, 1, 256]
-    - [475, 5954.4]
+    - [493, 5954.3]
   - - [1024, 1408, 1, 3328]
-    - [472, 8161.54]
+    - [490, 8161.44]
   - - [2560, 7133, 1, 2560]
-    - [467, 9636.69]
+    - [485, 9636.59]
   - - [1408, 4, 1, 1280]
-    - [419, 520.979]
+    - [437, 520.879]
   - - [5888, 3584, 1, 256]
-    - [480, 9225.26]
+    - [498, 9225.16]
   - - [128, 1024, 1, 1280]
-    - [422, 4755.55]
+    - [440, 4755.45]
   - - [1408, 1856, 1, 3328]
-    - [472, 9130.87]
+    - [490, 9130.77]
   - - [4, 4, 1, 3328]
-    - [492, 7.03333]
+    - [510, 6.93333]
   - - [6784, 1408, 1, 1280]
-    - [469, 9346.91]
+    - [487, 9346.81]
   - - [4, 1024, 1, 1280]
-    - [419, 422.913]
+    - [437, 422.813]
   - - [704, 2944, 1, 256]
-    - [475, 8332.06]
+    - [493, 8331.96]
   - - [704, 4288, 1, 128]
-    - [461, 4371.14]
+    - [479, 4371.04]
   - - [2368, 4288, 1, 128]
-    - [461, 3988.89]
+    - [479, 3988.79]
   - - [64, 4288, 1, 1280]
-    - [451, 5407.63]
+    - [469, 5407.53]
   - - [6784, 64, 1, 1280]
-    - [431, 5708.25]
+    - [449, 5708.15]
   - - [3584, 128, 1, 128]
-    - [397, 2463.2]
+    - [415, 2463.1]
   - - [1024, 6784, 1, 128]
-    - [462, 3862.12]
+    - [480, 3862.02]
   - - [4, 1856, 1, 128]
-    - [482, 30.6362]
+    - [500, 30.5362]
   - - [1408, 64, 1, 3328]
-    - [451, 6095.48]
+    - [469, 6095.38]
   - - [6784, 4, 1, 256]
-    - [484, 487.938]
+    - [502, 487.838]
   - - [1408, 1408, 1, 1280]
-    - [480, 8640.63]
+    - [498, 8640.53]
   - - [256, 2368, 1, 256]
-    - [472, 4282.36]
+    - [490, 4282.26]
   - - [448, 4288, 1, 3328]
-    - [469, 8516.13]
+    - [487, 8516.03]
   - - [2368, 1408, 1, 256]
-    - [475, 8632.19]
+    - [493, 8632.09]
   - - [5888, 5056, 1, 128]
-    - [461, 5091.11]
+    - [479, 5091.01]
   - - [704, 2368, 1, 256]
-    - [475, 7664.8]
+    - [493, 7664.7]
   - - [2944, 448, 1, 1280]
-    - [475, 7618.35]
+    - [493, 7618.25]
   - - [5888, 2368, 1, 3328]
-    - [478, 9343.48]
+    - [496, 9343.38]
   - - [64, 2944, 1, 1280]
-    - [443, 5162.18]
+    - [461, 5162.08]
   - - [448, 1856, 1, 1280]
-    - [469, 7028.0]
+    - [487, 7027.9]
   - - [4288, 448, 1, 1280]
-    - [469, 5855.76]
+    - [487, 5855.66]
   - - [5888, 704, 1, 3328]
-    - [478, 9190.91]
+    - [496, 9190.81]
   - - [5056, 256, 1, 128]
-    - [464, 3235.94]
+    - [482, 3235.84]
   - - [1856, 256, 1, 128]
-    - [462, 1849.78]
+    - [480, 1849.68]
   - - [5056, 128, 1, 256]
-    - [475, 6109.06]
+    - [493, 6108.96]
   - - [704, 4, 1, 256]
-    - [435, 125.256]
+    - [453, 125.156]
   - - [1408, 5888, 1, 128]
-    - [461, 5055.16]
+    - [479, 5055.06]
   - - [4288, 4, 1, 128]
-    - [481, 95.7209]
+    - [499, 95.6209]
   - - [1408, 1024, 1, 256]
-    - [469, 7370.28]
+    - [487, 7370.18]
   - - [1024, 1856, 1, 128]
-    - [461, 2966.8]
+    - [479, 2966.7]
   - - [256, 704, 1, 128]
-    - [463, 528.229]
+    - [481, 528.129]
   - - [256, 1024, 1, 128]
-    - [461, 1171.69]
+    - [479, 1171.59]
   - - [448, 1024, 1, 256]
-    - [475, 5624.65]
+    - [493, 5624.55]
   - - [128, 4, 1, 3328]
-    - [492, 191.985]
+    - [510, 191.885]
   - - [5056, 6784, 1, 1280]
-    - [469, 9544.07]
+    - [487, 9543.97]
   - - [704, 5056, 1, 3328]
-    - [476, 8790.35]
+    - [494, 8790.25]
   - - [64, 1408, 1, 1280]
-    - [443, 4505.7]
+    - [461, 4505.6]
   - - [3584, 5056, 1, 3328]
-    - [474, 9073.52]
+    - [492, 9073.42]
   - - [1856, 4, 1, 3328]
-    - [492, 612.875]
+    - [510, 612.775]
   - - [4, 2944, 1, 128]
-    - [481, 72.0145]
+    - [499, 71.9145]
   - - [2368, 2944, 1, 3328]
-    - [467, 9314.68]
+    - [485, 9314.58]
   - - [448, 448, 1, 1280]
-    - [451, 5129.91]
+    - [469, 5129.81]
   - - [2368, 3584, 1, 256]
-    - [469, 8998.8]
+    - [487, 8998.7]
   - - [5056, 3584, 1, 1280]
-    - [470, 9345.17]
+    - [488, 9345.07]
   - - [448, 4, 1, 3328]
-    - [492, 487.337]
+    - [510, 487.237]
   - - [1856, 2944, 1, 1280]
-    - [480, 8438.79]
+    - [498, 8438.69]
   - - [3584, 2368, 1, 1280]
-    - [475, 9298.9]
+    - [493, 9298.8]
   - - [128, 1024, 1, 256]
-    - [427, 2356.45]
+    - [445, 2356.35]
   - - [2944, 1408, 1, 256]
-    - [467, 5440.82]
+    - [485, 5440.72]
   - - [4288, 1408, 1, 3328]
-    - [467, 9386.09]
+    - [485, 9385.99]
   - - [3584, 64, 1, 3328]
-    - [423, 6310.97]
+    - [441, 6310.87]
   - - [1408, 128, 1, 256]
-    - [469, 2942.53]
+    - [487, 2942.43]
   - - [2944, 1024, 1, 128]
-    - [464, 3927.99]
+    - [482, 3927.89]
   - - [4288, 5056, 1, 1280]
-    - [471, 8328.58]
+    - [489, 8328.48]
   - - [5888, 6784, 1, 1280]
-    - [480, 9757.44]
+    - [498, 9757.34]
   - - [6784, 5056, 1, 128]
-    - [460, 5101.4]
+    - [478, 5101.3]
   - - [256, 1024, 1, 3328]
-    - [469, 6475.87]
+    - [487, 6475.77]
   - - [3584, 4, 1, 256]
-    - [485, 420.973]
+    - [503, 420.873]
   - - [1856, 64, 1, 3328]
-    - [451, 6409.2]
+    - [469, 6409.1]
   - - [64, 6784, 1, 128]
-    - [399, 2387.32]
+    - [417, 2387.22]
   - - [5888, 1408, 1, 3328]
-    - [474, 9655.89]
+    - [492, 9655.79]
   - - [5888, 64, 1, 1280]
-    - [469, 5870.86]
+    - [487, 5870.76]
   - - [256, 5056, 1, 256]
-    - [472, 6109.06]
+    - [490, 6108.96]
   - - [128, 3584, 1, 128]
-    - [402, 2383.23]
+    - [420, 2383.13]
   - - [448, 3584, 1, 3328]
-    - [467, 7092.28]
+    - [485, 7092.18]
   - - [704, 2368, 1, 128]
-    - [461, 3741.08]
+    - [479, 3740.98]
   - - [5888, 256, 1, 128]
-    - [462, 2977.54]
+    - [480, 2977.44]
   - - [4, 5056, 1, 128]
-    - [481, 132.72]
+    - [499, 132.62]
   - - [448, 256, 1, 256]
-    - [433, 2308.29]
+    - [451, 2308.19]
   - - [704, 4, 1, 3328]
-    - [438, 552.674]
+    - [456, 552.574]
   - - [1408, 256, 1, 256]
-    - [469, 4577.22]
+    - [487, 4577.12]
   - - [3584, 1856, 1, 128]
-    - [461, 4571.86]
+    - [479, 4571.76]
   - - [4288, 4288, 1, 128]
-    - [464, 5284.65]
+    - [482, 5284.55]
   - - [1856, 1024, 1, 3328]
-    - [475, 6362.25]
+    - [493, 6362.15]
   - - [128, 5888, 1, 3328]
-    - [445, 7040.83]
+    - [463, 7040.73]
   - - [1024, 5056, 1, 256]
-    - [480, 7855.7]
+    - [498, 7855.6]
   - - [2368, 1408, 1, 3328]
-    - [475, 9205.66]
+    - [493, 9205.56]
   - - [5888, 448, 1, 256]
-    - [472, 5538.84]
+    - [490, 5538.74]
   - - [5888, 6784, 1, 128]
-    - [460, 4500.85]
+    - [478, 4500.75]
   - - [2368, 4, 1, 3328]
-    - [438, 642.898]
+    - [456, 642.798]
   - - [6784, 5056, 1, 1280]
-    - [476, 9249.23]
+    - [494, 9249.13]
   - - [5056, 704, 1, 1280]
-    - [475, 8883.37]
+    - [493, 8883.27]
   - - [1408, 256, 1, 1280]
-    - [469, 5632.1]
+    - [487, 5632.0]
   - - [4288, 6784, 1, 1280]
-    - [475, 8843.31]
+    - [493, 8843.21]
   - - [128, 704, 1, 256]
-    - [433, 2045.19]
+    - [451, 2045.09]
   - - [448, 128, 1, 1280]
-    - [443, 3807.17]
+    - [461, 3807.07]
   - - [6784, 4, 1, 3328]
-    - [486, 684.671]
+    - [504, 684.571]
   - - [4288, 4, 1, 1280]
-    - [435, 601.925]
+    - [453, 601.825]
   - - [1024, 64, 1, 3328]
-    - [447, 3928.48]
+    - [465, 3928.38]
   - - [1856, 4, 1, 256]
-    - [485, 293.394]
+    - [503, 293.294]
   - - [64, 3584, 1, 1280]
-    - [469, 5265.55]
+    - [487, 5265.45]
   - - [6784, 1408, 1, 256]
-    - [469, 9059.36]
+    - [487, 9059.26]
   - - [3584, 5888, 1, 128]
-    - [461, 5084.29]
+    - [479, 5084.19]
   - - [5056, 5888, 1, 256]
-    - [480, 8590.09]
+    - [498, 8589.99]
   - - [2368, 1024, 1, 256]
-    - [472, 4493.13]
+    - [490, 4493.03]
   - - [2944, 1856, 1, 256]
-    - [478, 5202.41]
+    - [496, 5202.31]
   - - [1856, 6784, 1, 1280]
-    - [476, 9071.48]
+    - [494, 9071.38]
   - - [64, 5056, 1, 128]
-    - [399, 2038.42]
+    - [417, 2038.32]
   - - [5888, 64, 1, 128]
-    - [398, 2016.59]
+    - [416, 2016.49]
   - - [448, 704, 1, 128]
-    - [462, 1173.65]
+    - [480, 1173.55]
   - - [4, 1024, 1, 128]
-    - [481, 8.89685]
+    - [499, 8.79685]
   - - [4288, 3584, 1, 256]
-    - [475, 9080.26]
+    - [493, 9080.16]
   - - [1408, 704, 1, 128]
-    - [461, 3165.71]
+    - [479, 3165.61]
   - - [64, 256, 1, 3328]
-    - [455, 3126.59]
+    - [473, 3126.49]
   - - [5056, 1856, 1, 1280]
-    - [472, 8857.55]
+    - [490, 8857.45]
   - - [1408, 1024, 1, 3328]
-    - [478, 8177.12]
+    - [496, 8177.02]
   - - [2368, 256, 1, 3328]
-    - [469, 6810.31]
+    - [487, 6810.21]
   - - [5888, 3584, 1, 1280]
-    - [467, 9535.55]
+    - [485, 9535.45]
   - - [1856, 3584, 1, 3328]
-    - [469, 9281.91]
+    - [487, 9281.81]
   - - [5888, 128, 1, 1280]
-    - [475, 8136.82]
+    - [493, 8136.72]
   - - [1024, 2944, 1, 256]
-    - [467, 7247.96]
+    - [485, 7247.86]
   - - [448, 6784, 1, 1280]
-    - [475, 7014.04]
+    - [493, 7013.94]
   - - [256, 3584, 1, 1280]
-    - [469, 7738.64]
+    - [487, 7738.54]
   - - [448, 128, 1, 128]
-    - [399, 496.048]
+    - [417, 495.948]
   - - [704, 5056, 1, 256]
-    - [475, 8609.44]
+    - [493, 8609.34]
   - - [3584, 1024, 1, 3328]
-    - [468, 7765.73]
+    - [486, 7765.63]
   - - [2944, 1856, 1, 1280]
-    - [480, 7776.03]
+    - [498, 7775.93]
   - - [128, 256, 1, 128]
-    - [412, 296.308]
+    - [430, 296.208]
   - - [5056, 256, 1, 256]
-    - [469, 7829.73]
+    - [487, 7829.63]
   - - [2368, 3584, 1, 3328]
-    - [468, 8896.08]
+    - [486, 8895.98]
   - - [2944, 704, 1, 1280]
-    - [478, 6855.83]
+    - [496, 6855.73]
   - - [128, 4, 1, 256]
-    - [487, 24.9242]
+    - [505, 24.8242]
   - - [2944, 3584, 1, 1280]
-    - [480, 9049.22]
+    - [498, 9049.12]
   - - [1856, 5888, 1, 1280]
-    - [475, 9432.06]
+    - [493, 9431.96]
   - - [256, 256, 1, 1280]
-    - [440, 3942.12]
+    - [458, 3942.02]
   - - [5056, 448, 1, 3328]
-    - [480, 4587.83]
+    - [498, 4587.73]
   - - [4288, 1408, 1, 256]
-    - [480, 5408.83]
+    - [498, 5408.73]
   - - [3584, 64, 1, 256]
-    - [449, 2496.71]
+    - [467, 2496.61]
   - - [64, 1856, 1, 3328]
-    - [422, 5896.78]
+    - [440, 5896.68]
   - - [256, 1408, 1, 128]
-    - [461, 1643.17]
+    - [479, 1643.07]
   - - [5888, 1408, 1, 128]
-    - [460, 4436.37]
+    - [478, 4436.27]
   - - [4288, 2368, 1, 1280]
-    - [469, 9433.04]
+    - [487, 9432.94]
   - - [4, 4288, 1, 256]
-    - [484, 442.732]
+    - [502, 442.632]
   - - [256, 4288, 1, 128]
-    - [461, 2814.79]
+    - [479, 2814.69]
   - - [256, 128, 1, 3328]
-    - [450, 3951.26]
+    - [468, 3951.16]
   - - [6784, 2368, 1, 256]
-    - [469, 9169.99]
+    - [487, 9169.89]
   - - [5888, 128, 1, 128]
-    - [398, 3156.81]
+    - [416, 3156.71]
   - - [4288, 1856, 1, 256]
-    - [475, 5658.23]
+    - [493, 5658.13]
   - - [1856, 256, 1, 3328]
-    - [469, 7646.37]
+    - [487, 7646.27]
   - - [1856, 2944, 1, 256]
-    - [476, 6444.98]
+    - [494, 6444.88]
   - - [5056, 1024, 1, 128]
-    - [460, 4607.3]
+    - [478, 4607.2]
   - - [64, 5888, 1, 1280]
-    - [475, 5842.46]
+    - [493, 5842.36]
   - - [1760, 7133, 1, 1760]
-    - [468, 9097.84]
+    - [486, 9097.74]
   - - [6784, 256, 1, 128]
-    - [461, 3685.41]
+    - [479, 3685.31]
   - - [5888, 704, 1, 128]
-    - [460, 3656.23]
+    - [478, 3656.13]
   - - [6784, 64, 1, 128]
-    - [411, 2191.52]
+    - [429, 2191.42]
   - - [1024, 4288, 1, 1280]
-    - [475, 9199.32]
+    - [493, 9199.22]
   - - [2368, 5056, 1, 3328]
-    - [471, 9072.88]
+    - [489, 9072.78]
   - - [448, 4, 1, 128]
-    - [482, 5.42937]
+    - [500, 5.32937]
   - - [4, 256, 1, 3328]
-    - [492, 311.037]
+    - [510, 310.937]
   - - [4288, 1024, 1, 3328]
-    - [473, 8660.33]
+    - [491, 8660.23]
   - - [1024, 5056, 1, 3328]
-    - [469, 8886.76]
+    - [487, 8886.66]
   - - [1024, 1856, 1, 3328]
-    - [474, 8426.24]
+    - [492, 8426.14]
   - - [704, 704, 1, 1280]
-    - [469, 7661.8]
+    - [487, 7661.7]
   - - [128, 2368, 1, 1280]
-    - [443, 5746.15]
+    - [461, 5746.05]
   - - [1408, 128, 1, 3328]
-    - [451, 6530.87]
+    - [469, 6530.77]
   - - [3584, 256, 1, 1280]
-    - [475, 7634.04]
+    - [493, 7633.94]
   - - [4, 128, 1, 128]
-    - [482, 2.07874]
+    - [500, 1.97874]
   - - [704, 6784, 1, 128]
-    - [464, 4589.59]
+    - [482, 4589.49]
   - - [3584, 128, 1, 1280]
-    - [469, 7078.24]
+    - [487, 7078.14]
   - - [4, 256, 1, 1280]
-    - [438, 178.187]
+    - [456, 178.087]
   - - [128, 704, 1, 3328]
-    - [443, 5959.81]
+    - [461, 5959.71]
   - - [4288, 6784, 1, 256]
-    - [469, 9326.54]
+    - [487, 9326.44]
   - - [3584, 2944, 1, 3328]
-    - [471, 9114.16]
+    - [489, 9114.06]
   - - [128, 1856, 1, 256]
-    - [475, 3672.65]
+    - [493, 3672.55]
   - - [64, 4288, 1, 256]
-    - [469, 3457.51]
+    - [487, 3457.41]
   - - [4, 3584, 1, 3328]
-    - [418, 694.37]
+    - [436, 694.27]
   - - [64, 4, 1, 3328]
-    - [438, 71.5738]
+    - [456, 71.4738]
   - - [4, 64, 1, 3328]
-    - [438, 91.9069]
+    - [456, 91.8069]
   - - [5888, 2944, 1, 256]
-    - [468, 7241.55]
+    - [486, 7241.45]
   - - [2368, 6784, 1, 128]
-    - [464, 5229.63]
+    - [482, 5229.53]
   - - [448, 4288, 1, 1280]
-    - [469, 8416.4]
+    - [487, 8416.3]
   - - [448, 1856, 1, 3328]
-    - [469, 7161.56]
+    - [487, 7161.46]
   - - [4, 1024, 1, 256]
-    - [435, 187.346]
+    - [453, 187.246]
   - - [5056, 4288, 1, 256]
-    - [480, 8947.26]
+    - [498, 8947.16]
   - - [1024, 448, 1, 256]
-    - [475, 5318.96]
+    - [493, 5318.86]
   - - [1024, 3584, 1, 256]
-    - [470, 6152.04]
+    - [488, 6151.94]
   - - [2944, 128, 1, 1280]
-    - [451, 6053.63]
+    - [469, 6053.53]
   - - [1856, 5056, 1, 128]
-    - [461, 5091.42]
+    - [479, 5091.32]
   - - [64, 256, 1, 256]
-    - [424, 771.112]
+    - [442, 771.012]
   - - [1408, 4, 1, 128]
-    - [481, 40.8758]
+    - [499, 40.7758]
   - - [128, 2368, 1, 128]
-    - [409, 1520.37]
+    - [427, 1520.27]
   - - [256, 704, 1, 1280]
-    - [469, 4329.81]
+    - [487, 4329.71]
   - - [64, 2368, 1, 128]
-    - [400, 1212.52]
+    - [418, 1212.42]
   - - [6784, 6784, 1, 3328]
-    - [480, 8310.67]
+    - [498, 8310.57]
   - - [448, 5888, 1, 1280]
-    - [475, 8502.33]
+    - [493, 8502.23]
   - - [5056, 448, 1, 128]
-    - [461, 4161.0]
+    - [479, 4160.9]
   - - [3584, 2944, 1, 128]
-    - [461, 4363.51]
+    - [479, 4363.41]
   - - [6784, 256, 1, 1280]
-    - [475, 8629.67]
+    - [493, 8629.57]
   - - [256, 2944, 1, 1280]
-    - [475, 7277.48]
+    - [493, 7277.38]
   - - [64, 4288, 1, 128]
-    - [400, 1822.06]
+    - [418, 1821.96]
   - - [2368, 5888, 1, 3328]
-    - [469, 9017.52]
+    - [487, 9017.42]
   - - [4, 64, 1, 256]
-    - [435, 16.1627]
+    - [453, 16.0627]
   - - [704, 1024, 1, 3328]
-    - [475, 8059.55]
+    - [493, 8059.45]
   - - [2368, 1856, 1, 1280]
-    - [475, 8813.24]
+    - [493, 8813.14]
   - - [128, 448, 1, 128]
-    - [396, 588.244]
+    - [414, 588.144]
   - - [128, 6784, 1, 256]
-    - [475, 6538.28]
+    - [493, 6538.18]
   - - [3584, 4288, 1, 128]
-    - [461, 5025.46]
+    - [479, 5025.36]
   - - [64, 448, 1, 128]
-    - [413, 231.793]
+    - [431, 231.693]
   - - [5888, 4288, 1, 3328]
-    - [469, 9515.88]
+    - [487, 9515.78]
   - - [2368, 704, 1, 256]
-    - [475, 7642.84]
+    - [493, 7642.74]
   - - [256, 1856, 1, 3328]
-    - [475, 6547.17]
+    - [493, 6547.07]
   - - [1856, 128, 1, 256]
-    - [469, 3782.28]
+    - [487, 3782.18]
   - - [6784, 128, 1, 128]
-    - [403, 2835.54]
+    - [421, 2835.44]
   - - [3584, 1408, 1, 128]
-    - [460, 3049.21]
+    - [478, 3049.11]
   - - [1856, 5056, 1, 1280]
-    - [476, 8863.3]
+    - [494, 8863.2]
   - - [2944, 1024, 1, 1280]
-    - [480, 8873.25]
+    - [498, 8873.15]
   - - [5056, 4, 1, 256]
-    - [416, 494.121]
+    - [434, 494.021]
   - - [3584, 5888, 1, 3328]
-    - [468, 9585.25]
+    - [486, 9585.15]
   - - [2368, 4288, 1, 256]
-    - [480, 6419.05]
+    - [498, 6418.95]
   - - [1024, 2368, 1, 3328]
-    - [475, 8645.36]
+    - [493, 8645.26]
   - - [64, 704, 1, 3328]
-    - [457, 4399.93]
+    - [475, 4399.83]
   - - [704, 1408, 1, 256]
-    - [469, 7428.54]
+    - [487, 7428.44]
   - - [6784, 1856, 1, 3328]
-    - [480, 9163.66]
+    - [498, 9163.56]
   - - [1024, 2944, 1, 128]
-    - [464, 3551.98]
+    - [482, 3551.88]
   - - [1024, 3584, 1, 1280]
-    - [478, 9112.47]
+    - [496, 9112.37]
   - - [4288, 5888, 1, 3328]
-    - [468, 8524.05]
+    - [486, 8523.95]
   - - [4288, 4, 1, 3328]
-    - [435, 620.016]
+    - [453, 619.916]
   - - [256, 1408, 1, 256]
-    - [469, 4505.7]
+    - [487, 4505.6]
   - - [448, 2944, 1, 1280]
-    - [469, 7612.87]
+    - [487, 7612.77]
   - - [4, 5888, 1, 128]
-    - [481, 174.564]
+    - [499, 174.464]
   - - [1024, 2944, 1, 3328]
-    - [474, 9136.74]
+    - [492, 9136.64]
   - - [3584, 6784, 1, 256]
-    - [474, 7253.89]
+    - [492, 7253.79]
   - - [256, 6784, 1, 1280]
-    - [469, 8637.72]
+    - [487, 8637.62]
   - - [1856, 3584, 1, 256]
-    - [475, 8199.67]
+    - [493, 8199.57]
   - - [128, 448, 1, 3328]
-    - [456, 4799.92]
+    - [474, 4799.82]
   - - [6784, 1856, 1, 128]
-    - [461, 5185.62]
+    - [479, 5185.52]
   - - [4, 448, 1, 256]
-    - [435, 86.9848]
+    - [453, 86.8848]
   - - [2944, 704, 1, 128]
-    - [464, 3798.64]
+    - [482, 3798.54]
   - - [256, 5888, 1, 1280]
-    - [469, 8678.47]
+    - [487, 8678.37]
   - - [4, 128, 1, 1280]
-    - [438, 102.5]
+    - [456, 102.4]
   - - [4288, 6784, 1, 3328]
-    - [474, 8209.4]
+    - [492, 8209.3]
   - - [6784, 128, 1, 1280]
-    - [451, 6562.99]
+    - [469, 6562.89]
   - - [64, 1408, 1, 256]
-    - [441, 2059.8]
+    - [459, 2059.7]
   - - [7680, 5481, 1, 2560]
-    - [480, 9426.79]
+    - [498, 9426.69]
   - - [2368, 1408, 1, 128]
-    - [461, 4532.5]
+    - [479, 4532.4]
   - - [1856, 448, 1, 256]
-    - [469, 6275.48]
+    - [487, 6275.38]
   - - [1408, 1024, 1, 128]
-    - [461, 3604.58]
+    - [479, 3604.48]
   - - [128, 64, 1, 128]
-    - [396, 87.4813]
+    - [414, 87.3813]
   - - [6784, 3584, 1, 3328]
-    - [476, 8991.92]
+    - [494, 8991.82]
   - - [2944, 64, 1, 3328]
-    - [445, 6043.36]
+    - [463, 6043.26]
   - - [64, 64, 1, 128]
-    - [401, 36.309]
+    - [419, 36.209]
   - - [2368, 5056, 1, 1280]
-    - [475, 9438.48]
+    - [493, 9438.38]
   - - [64, 4, 1, 1280]
-    - [438, 40.2569]
+    - [456, 40.1569]
   - - [1408, 2368, 1, 1280]
-    - [471, 7738.16]
+    - [489, 7738.06]
   - - [128, 1408, 1, 1280]
-    - [443, 4937.74]
+    - [461, 4937.64]
   - - [256, 64, 1, 3328]
-    - [453, 2683.46]
+    - [471, 2683.36]
   - - [2944, 4288, 1, 128]
-    - [461, 5173.81]
+    - [479, 5173.71]
   - - [2944, 2944, 1, 256]
-    - [469, 8943.92]
+    - [487, 8943.82]
   - - [2944, 4, 1, 1280]
-    - [418, 617.857]
+    - [436, 617.757]
   - - [5888, 4, 1, 256]
-    - [484, 483.218]
+    - [502, 483.118]
   - - [6784, 256, 1, 256]
-    - [475, 7916.7]
+    - [493, 7916.6]
   - - [256, 5056, 1, 3328]
-    - [469, 8953.25]
+    - [487, 8953.15]
   - - [128, 4288, 1, 1280]
-    - [422, 6015.05]
+    - [440, 6014.95]
   - - [5056, 1856, 1, 128]
-    - [463, 4221.15]
+    - [481, 4221.05]
   - - [5888, 1408, 1, 256]
-    - [474, 9144.85]
+    - [492, 9144.75]
   - - [128, 128, 1, 256]
-    - [424, 759.938]
+    - [442, 759.838]
   - - [5056, 4, 1, 3328]
-    - [484, 642.818]
+    - [502, 642.718]
   - - [4288, 3584, 1, 3328]
-    - [470, 9300.05]
+    - [488, 9299.95]
   - - [448, 704, 1, 3328]
-    - [476, 4481.08]
+    - [494, 4480.98]
   - - [448, 448, 1, 128]
-    - [400, 1360.81]
+    - [418, 1360.71]
   - - [1024, 2368, 1, 1280]
-    - [469, 8570.29]
+    - [487, 8570.19]
   - - [1856, 704, 1, 3328]
-    - [469, 8448.26]
+    - [487, 8448.16]
   - - [4, 2368, 1, 128]
-    - [481, 64.5902]
+    - [499, 64.4902]
   - - [5888, 6784, 1, 3328]
-    - [476, 9447.12]
+    - [494, 9447.02]
   - - [704, 4288, 1, 1280]
-    - [478, 7476.87]
+    - [496, 7476.77]
   - - [704, 256, 1, 256]
-    - [469, 2957.62]
+    - [487, 2957.52]
   - - [6784, 448, 1, 3328]
-    - [472, 8886.22]
+    - [490, 8886.12]
   - - [4288, 1024, 1, 128]
-    - [460, 3864.49]
+    - [478, 3864.39]
   - - [49, 512, 128, 2048]
-    - [503, 7112.78]
+    - [521, 7112.68]
   - - [196, 256, 256, 1024]
-    - [497, 8302.7]
+    - [515, 8302.6]
   - - [784, 512, 256, 128]
-    - [495, 9061.36]
+    - [513, 9061.26]
   - - [49, 2048, 128, 512]
-    - [493, 6963.36]
+    - [511, 6963.26]
   - - [784, 128, 128, 512]
-    - [502, 8983.63]
-  - - [196, 256, 64, 1024]
-    - [501, 7823.5]
+    - [520, 8983.53]
   - - [3136, 256, 256, 64]
-    - [498, 9051.38]
+    - [516, 9051.28]
   - - [3136, 64, 128, 64]
-    - [494, 8581.35]
+    - [512, 8581.25]
   - - [49, 2048, 256, 512]
-    - [493, 7049.64]
+    - [511, 7049.54]
   - - [784, 128, 256, 512]
-    - [504, 9102.99]
+    - [522, 9102.89]
   - - [196, 256, 128, 1024]
-    - [496, 8085.89]
+    - [514, 8085.79]
   - - [3136, 64, 128, 256]
-    - [500, 9381.39]
+    - [518, 9381.29]
   - - [3136, 256, 128, 64]
-    - [498, 8982.64]
+    - [516, 8982.54]
   - - [784, 512, 128, 128]
-    - [495, 8965.99]
+    - [513, 8965.89]
   - - [3136, 64, 256, 256]
-    - [500, 9566.43]
+    - [518, 9566.33]
   - - [3136, 64, 256, 64]
-    - [494, 8743.8]
+    - [512, 8743.7]
   - - [196, 1024, 128, 256]
-    - [497, 8119.43]
+    - [515, 8119.33]
   - - [49, 512, 256, 2048]
-    - [506, 7166.41]
+    - [524, 7166.31]
   - - [196, 1024, 256, 256]
-    - [497, 8210.66]
+    - [515, 8210.56]
   - - [5329, 160, 64, 64]
-    - [513, 8156.89]
-  - - [1225, 288, 64, 48]
-    - [517, 6926.23]
-  - - [1225, 192, 64, 64]
-    - [519, 7840.1]
-  - - [64, 1280, 64, 384]
-    - [520, 9276.11]
+    - [531, 8156.79]
   - - [1225, 384, 64, 192]
-    - [510, 9162.35]
-  - - [1225, 288, 64, 64]
-    - [511, 7495.27]
-  - - [5329, 64, 64, 80]
-    - [512, 8480.13]
+    - [528, 9162.25]
   - - [289, 1024, 64, 256]
-    - [510, 8483.83]
-  - - [289, 768, 64, 192]
-    - [516, 8234.84]
-  - - [289, 768, 64, 128]
-    - [516, 7988.81]
+    - [528, 8483.73]
   - - [64, 1536, 64, 384]
-    - [520, 9323.65]
+    - [538, 9323.55]
   - - [1225, 384, 64, 64]
-    - [519, 8158.8]
-  - - [64, 2048, 64, 192]
-    - [516, 8818.61]
-  - - [64, 1280, 64, 320]
-    - [512, 9202.17]
+    - [537, 8158.7]
   - - [1225, 384, 64, 96]
-    - [510, 8540.7]
-  - - [64, 1280, 64, 448]
-    - [516, 9317.82]
-  - - [289, 768, 64, 160]
-    - [520, 8128.81]
-  - - [1225, 192, 64, 32]
-    - [519, 6495.37]
+    - [528, 8540.6]
   - - [64, 1536, 64, 256]
-    - [516, 9143.0]
-  - - [1225, 256, 64, 48]
-    - [514, 7545.36]
-  - - [1225, 256, 64, 64]
-    - [515, 7972.45]
-  - - [1225, 192, 64, 48]
-    - [518, 7348.9]
+    - [534, 9142.9]
   - - [289, 1024, 64, 384]
-    - [508, 8725.66]
+    - [526, 8725.56]
   - - [289, 1024, 64, 192]
-    - [510, 8313.16]
-  - - [64, 1280, 64, 192]
-    - [512, 8768.68]
-  - - [64, 2048, 64, 320]
-    - [509, 9147.98]
-  - - [64, 2048, 64, 448]
-    - [507, 9304.16]
-  - - [64, 2048, 64, 384]
-    - [509, 9235.28]
+    - [528, 8313.06]
   - - [289, 1024, 64, 128]
-    - [516, 7989.51]
+    - [534, 7989.41]
   - - [4096, 1024, 1, 2984]
-    - [555, 9846.39]
+    - [573, 9846.29]
   - - [1024, 4096, 1, 3437]
-    - [556, 9915.8]
+    - [574, 9915.7]
   - - [1024, 4096, 1, 3235]
-    - [549, 9914.02]
+    - [567, 9913.92]
   - - [4096, 1024, 1, 4032]
-    - [555, 9926.06]
+    - [573, 9925.96]
   - - [1024, 4096, 1, 3334]
-    - [556, 9918.27]
+    - [574, 9918.17]
   - - [4096, 1024, 1, 3288]
-    - [556, 9854.67]
+    - [574, 9854.57]
   - - [1024, 4096, 1, 3515]
-    - [556, 9924.03]
+    - [574, 9923.93]
   - - [4096, 1024, 1, 3437]
-    - [556, 9869.63]
+    - [574, 9869.53]
   - - [1024, 4096, 1, 3259]
-    - [556, 9907.65]
+    - [574, 9907.55]
   - - [1024, 4096, 1, 3384]
-    - [548, 9921.21]
+    - [566, 9921.11]
   - - [64, 92, 688, 92]
-    - [526, 6137.89]
+    - [544, 6137.79]
   - - [4096, 1024, 1, 3458]
-    - [555, 9887.69]
+    - [573, 9887.59]
   - - [1024, 4096, 1, 3412]
-    - [555, 9930.56]
+    - [573, 9930.46]
   - - [1024, 4096, 1, 3529]
-    - [549, 9924.54]
+    - [567, 9924.44]
   - - [1024, 4096, 1, 4032]
-    - [556, 9963.48]
+    - [574, 9963.38]
   - - [4096, 1024, 1, 3999]
-    - [556, 9895.0]
+    - [574, 9894.9]
   - - [1024, 4096, 1, 3079]
-    - [549, 9894.58]
+    - [567, 9894.48]
   - - [1024, 4096, 1, 3876]
-    - [548, 9949.39]
+    - [566, 9949.29]
   - - [1024, 4096, 1, 3450]
-    - [556, 9915.65]
+    - [574, 9915.55]
   - - [1024, 4096, 1, 3256]
-    - [556, 9911.18]
+    - [574, 9911.08]
   - - [4096, 1024, 1, 3403]
-    - [555, 9858.93]
+    - [573, 9858.83]
   - - [1024, 1024, 1, 3975]
-    - [546, 8990.81]
+    - [564, 8990.71]
   - - [1024, 4096, 1, 3359]
-    - [556, 9915.0]
+    - [574, 9914.9]
   - - [4096, 1024, 1, 3549]
-    - [555, 9870.66]
+    - [573, 9870.56]
   - - [4096, 1024, 1, 3176]
-    - [556, 9855.92]
+    - [574, 9855.82]
   - - [1024, 4096, 1, 3504]
-    - [548, 9934.17]
+    - [566, 9934.07]
   - - [4096, 1024, 1, 3314]
-    - [555, 9873.9]
+    - [573, 9873.8]
   - - [4096, 1024, 1, 3183]
-    - [555, 9843.84]
+    - [573, 9843.74]
   - - [1024, 4096, 1, 3209]
-    - [549, 9904.97]
+    - [567, 9904.87]
   - - [1024, 4096, 1, 3720]
-    - [548, 9934.16]
+    - [566, 9934.06]
   - - [1024, 4096, 1, 3859]
-    - [548, 9952.53]
+    - [566, 9952.43]
   - - [1024, 33708, 1, 4059]
-    - [548, 10321.5]
+    - [566, 10321.4]
   - - [1024, 4096, 1, 3968]
-    - [548, 9955.96]
+    - [566, 9955.86]
   - - [64, 123, 528, 123]
-    - [521, 6916.21]
+    - [539, 6916.11]
   - - [4096, 1024, 1, 3477]
-    - [556, 9872.03]
+    - [574, 9871.93]
   - - [4096, 1024, 1, 3233]
-    - [556, 9862.35]
+    - [574, 9862.25]
   - - [4096, 1024, 1, 3409]
-    - [556, 9876.86]
+    - [574, 9876.76]
   - - [4096, 1024, 1, 3564]
-    - [556, 9870.49]
+    - [574, 9870.39]
   - - [64, 102, 624, 100]
-    - [521, 5773.16]
+    - [539, 5773.06]
   - - [4096, 1024, 1, 3190]
-    - [555, 9850.97]
+    - [573, 9850.87]
   - - [64, 112, 576, 111]
-    - [521, 6517.35]
+    - [539, 6517.25]
   - - [1024, 4096, 1, 3288]
-    - [555, 9911.9]
+    - [573, 9911.8]
   - - [4096, 1024, 1, 3451]
-    - [555, 9859.61]
+    - [573, 9859.51]
   - - [1024, 4096, 1, 3348]
-    - [548, 9915.47]
+    - [566, 9915.37]
   - - [64, 102, 624, 102]
-    - [521, 5783.7]
+    - [539, 5783.6]
   - - [1024, 4096, 1, 3465]
-    - [549, 9913.12]
+    - [567, 9913.02]
   - - [1024, 33708, 1, 4032]
-    - [548, 10340.4]
+    - [566, 10340.3]
   - - [1024, 33708, 1, 3840]
-    - [548, 10341.8]
+    - [566, 10341.7]
   - - [4096, 1024, 1, 3391]
-    - [556, 9861.77]
+    - [574, 9861.67]
   - - [1024, 4096, 1, 3530]
-    - [548, 9920.44]
+    - [566, 9920.34]
   - - [4096, 1024, 1, 3209]
-    - [555, 9847.0]
+    - [573, 9846.9]
   - - [1024, 4096, 1, 3457]
-    - [549, 9917.29]
+    - [567, 9917.19]
   - - [1024, 4096, 1, 3386]
-    - [548, 9917.65]
+    - [566, 9917.55]
   - - [4096, 1024, 1, 3350]
-    - [555, 9884.54]
+    - [573, 9884.44]
   - - [1024, 4096, 1, 3184]
-    - [556, 9925.98]
+    - [574, 9925.88]
   - - [1024, 4096, 1, 3093]
-    - [555, 9902.55]
+    - [573, 9902.45]
   - - [64, 133, 480, 135]
-    - [538, 6205.97]
+    - [556, 6205.87]
   - - [1024, 4096, 1, 3400]
-    - [548, 9917.1]
+    - [566, 9917.0]
   - - [1024, 1024, 1, 4026]
-    - [554, 9014.39]
+    - [572, 9014.29]
   - - [1024, 4096, 1, 3214]
-    - [548, 9895.94]
+    - [566, 9895.84]
   - - [4096, 1024, 1, 3406]
-    - [556, 9857.82]
+    - [574, 9857.72]
   - - [1024, 4096, 1, 3565]
-    - [555, 9919.37]
+    - [573, 9919.27]
   - - [4096, 1024, 1, 3536]
-    - [556, 9889.06]
+    - [574, 9888.96]
   - - [1024, 4096, 1, 3183]
-    - [555, 9907.55]
+    - [573, 9907.45]
   - - [1024, 4096, 1, 3462]
-    - [556, 9922.4]
+    - [574, 9922.3]
   - - [4096, 1024, 1, 3130]
-    - [549, 9846.04]
+    - [567, 9845.94]
   - - [4096, 1024, 1, 3381]
-    - [556, 9868.27]
+    - [574, 9868.17]
   - - [4096, 1024, 1, 3298]
-    - [555, 9870.54]
+    - [573, 9870.44]
   - - [1024, 4096, 1, 3292]
-    - [548, 9906.3]
+    - [566, 9906.2]
   - - [4096, 1024, 1, 3289]
-    - [555, 9856.55]
+    - [573, 9856.45]
   - - [64, 160, 400, 159]
-    - [541, 7427.84]
+    - [559, 7427.74]
   - - [1024, 4096, 1, 3379]
-    - [548, 9917.09]
+    - [566, 9916.99]
   - - [1024, 4096, 1, 3990]
-    - [549, 9947.37]
+    - [567, 9947.27]
   - - [1024, 4096, 1, 3540]
-    - [556, 9935.76]
+    - [574, 9935.66]
   - - [4096, 1024, 1, 3412]
-    - [556, 9867.56]
+    - [574, 9867.46]
   - - [1024, 1024, 1, 3780]
-    - [551, 9036.26]
+    - [569, 9036.16]
   - - [1024, 4096, 1, 3555]
-    - [555, 9927.37]
+    - [573, 9927.27]
   - - [1024, 4096, 1, 3518]
-    - [549, 9925.55]
+    - [567, 9925.45]
   - - [4096, 1024, 1, 3189]
-    - [555, 9861.24]
+    - [573, 9861.14]
   - - [1024, 4096, 1, 3298]
-    - [549, 9923.22]
+    - [567, 9923.12]
   - - [4096, 1024, 1, 3072]
-    - [555, 9872.08]
+    - [573, 9871.98]
   - - [1024, 4096, 1, 3393]
-    - [556, 9929.28]
+    - [574, 9929.18]
   - - [1024, 4096, 1, 3207]
-    - [548, 9912.81]
+    - [566, 9912.71]
   - - [64, 228, 272, 232]
-    - [544, 7350.14]
+    - [562, 7350.04]
   - - [64, 23, 2720, 23]
-    - [525, 2640.25]
+    - [543, 2640.15]
   - - [4096, 1024, 1, 3487]
-    - [556, 9860.91]
+    - [574, 9860.81]
   - - [1024, 1024, 1, 3822]
-    - [554, 8993.96]
+    - [572, 8993.86]
   - - [64, 77, 816, 77]
-    - [526, 5273.19]
+    - [544, 5273.09]
   - - [4096, 1024, 1, 3431]
-    - [556, 9867.53]
+    - [574, 9867.43]
   - - [4096, 1024, 1, 3378]
-    - [555, 9888.14]
+    - [573, 9888.04]
   - - [4096, 1024, 1, 3529]
-    - [549, 9879.5]
+    - [567, 9879.4]
   - - [4096, 1024, 1, 3460]
-    - [556, 9877.25]
+    - [574, 9877.15]
   - - [1024, 4096, 1, 3336]
-    - [548, 9912.41]
+    - [566, 9912.31]
   - - [1024, 4096, 1, 3501]
-    - [549, 9914.4]
+    - [567, 9914.3]
   - - [64, 159, 400, 159]
-    - [539, 7016.51]
+    - [557, 7016.41]
   - - [1024, 4096, 1, 3584]
-    - [556, 9940.59]
+    - [574, 9940.49]
   - - [64, 135, 480, 134]
-    - [539, 6241.39]
+    - [557, 6241.29]
   - - [64, 99, 624, 99]
-    - [530, 5617.39]
+    - [548, 5617.29]
   - - [4096, 1024, 1, 2499]
-    - [555, 9813.57]
+    - [573, 9813.47]
   - - [1024, 1024, 1, 3942]
-    - [551, 9060.01]
+    - [569, 9059.91]
   - - [4096, 1024, 1, 3352]
-    - [555, 9867.12]
+    - [573, 9867.02]
   - - [1024, 4096, 1, 3543]
-    - [556, 9928.77]
+    - [574, 9928.67]
   - - [1024, 4096, 1, 3476]
-    - [555, 9931.58]
+    - [573, 9931.48]
   - - [1024, 33708, 1, 3822]
-    - [548, 10324.7]
+    - [566, 10324.6]
   - - [1024, 4096, 1, 3436]
-    - [548, 9917.28]
+    - [566, 9917.18]
   - - [1024, 1024, 1, 3861]
-    - [547, 8998.49]
+    - [565, 8998.39]
   - - [1024, 1024, 1, 4000]
-    - [552, 9058.3]
+    - [570, 9058.2]
   - - [1024, 4096, 1, 3594]
-    - [548, 9927.88]
+    - [566, 9927.78]
   - - [4096, 1024, 1, 3514]
-    - [556, 9872.3]
+    - [574, 9872.2]
   - - [1024, 4096, 1, 3064]
-    - [555, 9907.1]
+    - [573, 9907.0]
   - - [4096, 1024, 1, 3371]
-    - [548, 9857.74]
+    - [566, 9857.64]
   - - [4096, 1024, 1, 3558]
-    - [556, 9876.31]
+    - [574, 9876.21]
   - - [4096, 1024, 1, 3517]
-    - [555, 9866.45]
+    - [573, 9866.35]
   - - [4096, 1024, 1, 3144]
-    - [555, 9846.36]
+    - [573, 9846.26]
   - - [1024, 4096, 1, 3312]
-    - [548, 9932.85]
+    - [566, 9932.75]
   - - [4096, 1024, 1, 3079]
-    - [555, 9851.1]
+    - [573, 9851.0]
   - - [1024, 4096, 1, 3415]
-    - [548, 9919.47]
+    - [566, 9919.37]
   - - [1024, 4096, 1, 3221]
-    - [555, 9908.18]
+    - [573, 9908.08]
   - - [1024, 4096, 1, 3978]
-    - [549, 9944.41]
+    - [567, 9944.31]
   - - [4096, 1024, 1, 3876]
-    - [555, 9898.99]
+    - [573, 9898.89]
   - - [1024, 4096, 1, 3528]
-    - [548, 9919.6]
+    - [566, 9919.5]
   - - [1024, 4096, 1, 3181]
-    - [556, 9894.86]
+    - [574, 9894.76]
   - - [4096, 1024, 1, 3445]
-    - [555, 9878.54]
+    - [573, 9878.44]
   - - [4096, 1024, 1, 3450]
-    - [548, 9864.82]
+    - [566, 9864.72]
   - - [4096, 1024, 1, 3377]
-    - [555, 9879.69]
+    - [573, 9879.59]
   - - [1024, 4096, 1, 3532]
-    - [549, 9928.19]
+    - [567, 9928.09]
   - - [1024, 33708, 1, 3944]
-    - [548, 10329.7]
+    - [566, 10329.6]
   - - [4096, 1024, 1, 3483]
-    - [555, 9861.83]
+    - [573, 9861.73]
   - - [1024, 4096, 1, 3358]
-    - [548, 9903.69]
+    - [566, 9903.59]
   - - [4096, 1024, 1, 3464]
-    - [555, 9876.84]
+    - [573, 9876.74]
   - - [4096, 1024, 1, 3282]
-    - [548, 9859.23]
+    - [566, 9859.13]
   - - [4096, 1024, 1, 3256]
-    - [556, 9855.1]
+    - [574, 9855.0]
   - - [1024, 4096, 1, 3057]
-    - [555, 9910.75]
+    - [573, 9910.65]
   - - [4096, 1024, 1, 3481]
-    - [555, 9866.29]
+    - [573, 9866.19]
   - - [4096, 1024, 1, 3340]
-    - [555, 9862.25]
+    - [573, 9862.15]
   - - [1024, 1024, 1, 3870]
-    - [554, 9082.45]
+    - [572, 9082.35]
   - - [1024, 4096, 1, 3273]
-    - [548, 9916.29]
+    - [566, 9916.19]
   - - [64, 65, 992, 65]
-    - [539, 4683.01]
+    - [557, 4682.91]
   - - [4096, 1024, 1, 3392]
-    - [549, 9881.12]
+    - [567, 9881.02]
   - - [4096, 1024, 1, 3337]
-    - [555, 9864.5]
+    - [573, 9864.4]
   - - [4096, 1024, 1, 3359]
-    - [555, 9874.42]
+    - [573, 9874.32]
   - - [4096, 1024, 1, 3498]
-    - [556, 9864.35]
+    - [574, 9864.25]
   - - [4096, 1024, 1, 3169]
-    - [555, 9851.1]
+    - [573, 9851.0]
   - - [1024, 33708, 1, 3859]
-    - [549, 10332.6]
+    - [567, 10332.5]
   - - [64, 19, 3264, 19]
-    - [525, 2182.14]
+    - [543, 2182.04]
   - - [1024, 4096, 1, 3103]
-    - [548, 9898.9]
+    - [566, 9898.8]
   - - [4096, 1024, 1, 3900]
-    - [555, 9897.12]
+    - [573, 9897.02]
   - - [1024, 4096, 1, 3442]
-    - [555, 9938.97]
+    - [573, 9938.87]
   - - [1024, 4096, 1, 3248]
-    - [555, 9939.92]
+    - [573, 9939.82]
   - - [1024, 4096, 1, 3351]
-    - [556, 9923.23]
+    - [574, 9923.13]
   - - [4096, 1024, 1, 3593]
-    - [555, 9894.36]
+    - [573, 9894.26]
   - - [1024, 4096, 1, 3780]
-    - [555, 9941.96]
+    - [573, 9941.86]
   - - [64, 133, 480, 133]
-    - [539, 6180.79]
+    - [557, 6180.69]
   - - [1024, 33708, 1, 3681]
-    - [548, 10332.3]
+    - [566, 10332.2]
   - - [4096, 1024, 1, 3374]
-    - [549, 9859.36]
+    - [567, 9859.26]
   - - [1024, 4096, 1, 3557]
-    - [548, 9928.2]
+    - [566, 9928.1]
   - - [4096, 1024, 1, 3906]
-    - [555, 9907.07]
+    - [573, 9906.97]
   - - [4096, 1024, 1, 3504]
-    - [555, 9886.05]
+    - [573, 9885.95]
   - - [1024, 4096, 1, 3270]
-    - [555, 9916.37]
+    - [573, 9916.27]
   - - [4096, 1024, 1, 3098]
-    - [548, 9854.76]
+    - [566, 9854.66]
   - - [64, 232, 272, 232]
-    - [544, 7394.1]
+    - [562, 7394.0]
   - - [4096, 1024, 1, 3216]
-    - [556, 9876.57]
+    - [574, 9876.47]
   - - [64, 148, 432, 148]
-    - [541, 6663.85]
+    - [559, 6663.75]
   - - [1024, 4096, 1, 3550]
-    - [555, 9920.28]
+    - [573, 9920.18]
   - - [4096, 1024, 1, 3449]
-    - [549, 9870.57]
+    - [567, 9870.47]
   - - [1024, 4096, 1, 3403]
-    - [556, 9908.21]
+    - [574, 9908.11]
   - - [1024, 4096, 1, 3523]
-    - [555, 9932.71]
+    - [573, 9932.61]
   - - [1024, 4096, 1, 3486]
-    - [555, 9917.46]
+    - [573, 9917.36]
   - - [1024, 4096, 1, 3564]
-    - [555, 9923.44]
+    - [573, 9923.34]
   - - [1024, 33708, 1, 4005]
-    - [548, 10339.5]
+    - [566, 10339.4]
   - - [4096, 1024, 1, 3296]
-    - [555, 9879.78]
+    - [573, 9879.68]
   - - [1024, 4096, 1, 3263]
-    - [548, 9907.17]
+    - [566, 9907.07]
   - - [64, 25, 2512, 25]
-    - [525, 2848.17]
+    - [543, 2848.07]
   - - [1024, 4096, 1, 3130]
-    - [556, 9900.1]
+    - [574, 9900.0]
   - - [1024, 4096, 1, 3295]
-    - [556, 9895.45]
+    - [574, 9895.35]
   - - [1024, 33708, 1, 3925]
-    - [549, 10342.3]
+    - [567, 10342.2]
   - - [1024, 4096, 1, 3378]
-    - [548, 9921.37]
+    - [566, 9921.27]
   - - [4096, 1024, 1, 3720]
-    - [556, 9885.82]
+    - [574, 9885.72]
   - - [4096, 1024, 1, 3399]
-    - [555, 9880.65]
+    - [573, 9880.55]
   - - [4096, 1024, 1, 3543]
-    - [556, 9870.73]
+    - [574, 9870.63]
   - - [64, 9, 6544, 9]
-    - [528, 955.17]
+    - [546, 955.07]
   - - [4096, 1024, 1, 3497]
-    - [555, 9868.43]
+    - [573, 9868.33]
   - - [4096, 1024, 1, 3594]
-    - [556, 9876.88]
+    - [574, 9876.78]
   - - [1024, 4096, 1, 3144]
-    - [556, 9901.96]
+    - [574, 9901.86]
   - - [1024, 4096, 1, 3975]
-    - [549, 9950.19]
+    - [567, 9950.09]
   - - [4096, 1024, 1, 3205]
-    - [556, 9856.07]
+    - [574, 9855.97]
   - - [1024, 33708, 1, 3995]
-    - [548, 10331.1]
+    - [566, 10331.0]
   - - [1024, 4096, 1, 3392]
-    - [548, 9935.78]
+    - [566, 9935.68]
   - - [1024, 4096, 1, 3055]
-    - [556, 9893.25]
+    - [574, 9893.15]
   - - [1024, 4096, 1, 4026]
-    - [556, 9940.22]
+    - [574, 9940.12]
   - - [4096, 1024, 1, 3557]
-    - [555, 9884.0]
+    - [573, 9883.9]
   - - [4096, 1024, 1, 3515]
-    - [555, 9871.94]
+    - [573, 9871.84]
   - - [4096, 1024, 1, 3486]
-    - [556, 9860.74]
+    - [574, 9860.64]
   - - [4096, 1024, 1, 3457]
-    - [556, 9885.37]
+    - [574, 9885.27]
   - - [1024, 4096, 1, 3511]
-    - [548, 9928.24]
+    - [566, 9928.14]
   - - [4096, 1024, 1, 3138]
-    - [555, 9854.06]
+    - [573, 9853.96]
   - - [1024, 4096, 1, 3339]
-    - [549, 9912.89]
+    - [567, 9912.79]
   - - [1024, 4096, 1, 3939]
-    - [549, 9952.26]
+    - [567, 9952.16]
   - - [4096, 1024, 1, 3500]
-    - [549, 9863.62]
+    - [567, 9863.52]
   - - [4096, 1024, 1, 3395]
-    - [556, 9883.82]
+    - [574, 9883.72]
   - - [4096, 1024, 1, 3968]
-    - [556, 9920.36]
+    - [574, 9920.26]
   - - [4096, 1024, 1, 4020]
-    - [556, 9912.81]
+    - [574, 9912.71]
   - - [4096, 1024, 1, 3942]
-    - [555, 9910.17]
+    - [573, 9910.07]
   - - [1024, 1024, 1, 4032]
-    - [545, 9024.74]
+    - [563, 9024.64]
   - - [4096, 1024, 1, 3349]
-    - [556, 9866.04]
+    - [574, 9865.94]
   - - [1024, 4096, 1, 3322]
-    - [549, 9908.43]
+    - [567, 9908.33]
   - - [4096, 1024, 1, 3452]
-    - [555, 9872.69]
+    - [573, 9872.59]
   - - [1024, 4096, 1, 3417]
-    - [555, 9912.64]
+    - [573, 9912.54]
   - - [1024, 1024, 1, 4012]
-    - [553, 9085.47]
+    - [571, 9085.37]
   - - [1024, 4096, 1, 3526]
-    - [549, 9920.36]
+    - [567, 9920.26]
   - - [4096, 1024, 1, 3485]
-    - [549, 9861.64]
+    - [567, 9861.54]
   - - [1024, 1024, 1, 3681]
-    - [553, 8991.46]
+    - [571, 8991.36]
   - - [4096, 1024, 1, 3303]
-    - [556, 9861.3]
+    - [574, 9861.2]
   - - [4096, 1024, 1, 3344]
-    - [556, 9892.44]
+    - [574, 9892.34]
   - - [1024, 4096, 1, 3479]
-    - [556, 9921.77]
+    - [574, 9921.67]
   - - [4096, 1024, 1, 3300]
-    - [555, 9868.64]
+    - [573, 9868.54]
   - - [1024, 4096, 1, 3439]
-    - [549, 9918.29]
+    - [567, 9918.19]
   - - [4096, 1024, 1, 3280]
-    - [556, 9875.29]
+    - [574, 9875.19]
   - - [1024, 4096, 1, 3245]
-    - [548, 9910.49]
+    - [566, 9910.39]
   - - [1024, 4096, 1, 3328]
-    - [548, 9941.6]
+    - [566, 9941.5]
   - - [4096, 1024, 1, 3418]
-    - [548, 9870.76]
+    - [566, 9870.66]
   - - [1024, 4096, 1, 3493]
-    - [556, 9938.45]
+    - [574, 9938.35]
   - - [1024, 4096, 1, 3500]
-    - [548, 9916.93]
+    - [566, 9916.83]
   - - [1024, 4096, 1, 3166]
-    - [548, 9898.12]
+    - [566, 9898.02]
   - - [4096, 1024, 1, 3126]
-    - [549, 9847.04]
+    - [567, 9846.94]
   - - [1024, 4096, 1, 3277]
-    - [556, 9898.66]
+    - [574, 9898.56]
   - - [1024, 4096, 1, 3315]
-    - [555, 9923.11]
+    - [573, 9923.01]
   - - [1024, 1024, 1, 3927]
-    - [546, 8987.71]
+    - [564, 8987.61]
   - - [1024, 4096, 1, 3414]
-    - [548, 9916.01]
+    - [566, 9915.91]
   - - [4096, 1024, 1, 3531]
-    - [555, 9871.92]
+    - [573, 9871.82]
   - - [4096, 1024, 1, 3484]
-    - [548, 9867.86]
+    - [566, 9867.76]
   - - [1024, 4096, 1, 3180]
-    - [555, 9904.09]
+    - [573, 9903.99]
   - - [4096, 1024, 1, 3360]
-    - [555, 9879.57]
+    - [573, 9879.47]
   - - [1024, 33708, 1, 3990]
-    - [548, 10335.0]
+    - [566, 10334.9]
   - - [4096, 1024, 1, 3466]
-    - [555, 9875.02]
+    - [573, 9874.92]
   - - [1024, 4096, 1, 3428]
-    - [548, 9916.02]
+    - [566, 9915.92]
   - - [1024, 4096, 1, 3137]
-    - [555, 9913.27]
+    - [573, 9913.17]
   - - [4096, 1024, 1, 4059]
-    - [555, 9901.86]
+    - [573, 9901.76]
   - - [1024, 4096, 1, 3353]
-    - [555, 9914.6]
+    - [573, 9914.5]
   - - [1024, 4096, 1, 3942]
-    - [555, 9944.5]
+    - [573, 9944.4]
   - - [4096, 1024, 1, 3506]
-    - [548, 9875.75]
+    - [566, 9875.65]
   - - [1024, 1024, 1, 3894]
-    - [546, 8946.55]
+    - [564, 8946.45]
   - - [4096, 1024, 1, 3508]
-    - [556, 9877.67]
+    - [574, 9877.57]
   - - [64, 132, 480, 135]
-    - [539, 6164.86]
+    - [557, 6164.76]
   - - [4096, 1024, 1, 3956]
-    - [548, 9907.83]
+    - [566, 9907.73]
   - - [64, 7, 8192, 7]
-    - [527, 813.078]
+    - [545, 812.978]
   - - [1024, 4096, 1, 3272]
-    - [549, 9909.82]
+    - [567, 9909.72]
   - - [1024, 4096, 1, 3443]
-    - [556, 9929.83]
+    - [574, 9929.73]
   - - [1024, 4096, 1, 3375]
-    - [556, 9909.23]
+    - [574, 9909.13]
   - - [1024, 4096, 1, 3525]
-    - [556, 9929.27]
+    - [574, 9929.17]
   - - [4096, 1024, 1, 3472]
-    - [555, 9889.97]
+    - [573, 9889.87]
   - - [1024, 4096, 1, 3520]
-    - [548, 9947.79]
+    - [566, 9947.69]
   - - [4096, 1024, 1, 3322]
-    - [555, 9862.98]
+    - [573, 9862.88]
   - - [4096, 1024, 1, 3387]
-    - [555, 9861.62]
+    - [573, 9861.52]
   - - [64, 8, 7280, 8]
-    - [533, 1024.1]
+    - [551, 1024.0]
   - - [1024, 33708, 1, 3939]
-    - [548, 10339.9]
+    - [566, 10339.8]
   - - [4096, 1024, 1, 3345]
-    - [556, 9873.68]
+    - [574, 9873.58]
   - - [4096, 1024, 1, 2967]
-    - [555, 9839.21]
+    - [573, 9839.11]
   - - [1024, 4096, 1, 3453]
-    - [548, 9905.81]
+    - [566, 9905.71]
   - - [1024, 4096, 1, 3640]
-    - [555, 9934.05]
+    - [573, 9933.95]
   - - [4096, 1024, 1, 3291]
-    - [549, 9860.84]
+    - [567, 9860.74]
   - - [1024, 4096, 1, 3350]
-    - [556, 9918.03]
+    - [574, 9917.93]
   - - [4096, 1024, 1, 3417]
-    - [555, 9864.61]
+    - [573, 9864.51]
   - - [64, 135, 480, 135]
-    - [539, 6265.45]
+    - [557, 6265.35]
   - - [1024, 4096, 1, 3467]
-    - [549, 9906.95]
+    - [567, 9906.85]
   - - [1024, 4096, 1, 3491]
-    - [555, 9933.3]
+    - [573, 9933.2]
   - - [1024, 4096, 1, 3822]
-    - [555, 9938.75]
+    - [573, 9938.65]
   - - [4096, 1024, 1, 3292]
-    - [555, 9849.21]
+    - [573, 9849.11]
   - - [1024, 4096, 1, 3231]
-    - [548, 9905.82]
+    - [566, 9905.72]
   - - [1024, 4096, 1, 3364]
-    - [549, 9930.32]
+    - [567, 9930.22]
   - - [1024, 4096, 1, 3995]
-    - [549, 9943.76]
+    - [567, 9943.66]
   - - [1024, 4096, 1, 3545]
-    - [548, 9928.53]
+    - [566, 9928.43]
   - - [1024, 1024, 1, 3876]
-    - [546, 9003.04]
+    - [564, 9002.94]
   - - [1024, 4096, 1, 3186]
-    - [548, 9921.01]
+    - [566, 9920.91]
   - - [4096, 1024, 1, 3432]
-    - [555, 9875.29]
+    - [573, 9875.19]
   - - [64, 84, 752, 85]
-    - [526, 5704.51]
+    - [544, 5704.41]
   - - [4096, 1024, 1, 3367]
-    - [549, 9868.06]
+    - [567, 9867.96]
   - - [4096, 1024, 1, 3503]
-    - [556, 9871.01]
+    - [574, 9870.91]
   - - [1024, 4096, 1, 3095]
-    - [549, 9902.9]
+    - [567, 9902.8]
   - - [4096, 1024, 1, 3465]
-    - [556, 9872.17]
+    - [574, 9872.07]
   - - [1024, 4096, 1, 3402]
-    - [555, 9914.66]
+    - [573, 9914.56]
   - - [4096, 1024, 1, 3140]
-    - [555, 9847.95]
+    - [573, 9847.85]
   - - [1024, 1024, 1, 4050]
-    - [552, 9055.75]
+    - [570, 9055.65]
   - - [4096, 1024, 1, 3424]
-    - [549, 9894.62]
+    - [567, 9894.52]
   - - [4096, 1024, 1, 3257]
-    - [548, 9860.97]
+    - [566, 9860.87]
   - - [4096, 1024, 1, 2917]
-    - [555, 9845.91]
+    - [573, 9845.81]
   - - [1024, 33708, 1, 3640]
-    - [548, 10321.7]
+    - [566, 10321.6]
   - - [1024, 4096, 1, 3456]
-    - [548, 9950.35]
+    - [566, 9950.25]
   - - [1024, 4096, 1, 3014]
-    - [548, 9907.97]
+    - [566, 9907.87]
   - - [4096, 1024, 1, 3372]
-    - [556, 9868.37]
+    - [574, 9868.27]
   - - [64, 132, 480, 132]
-    - [539, 6121.62]
+    - [557, 6121.52]
   - - [1024, 4096, 1, 3294]
-    - [556, 9903.23]
+    - [574, 9903.13]
   - - [4096, 1024, 1, 3446]
-    - [556, 9871.69]
+    - [574, 9871.59]
   - - [1024, 4096, 1, 3389]
-    - [549, 9909.27]
+    - [567, 9909.17]
   - - [4096, 1024, 1, 3259]
-    - [555, 9860.76]
+    - [573, 9860.66]
   - - [4096, 1024, 1, 3544]
-    - [555, 9878.76]
+    - [573, 9878.66]
   - - [4096, 1024, 1, 3479]
-    - [556, 9873.97]
+    - [574, 9873.87]
   - - [4096, 1024, 1, 3542]
-    - [555, 9878.97]
+    - [573, 9878.87]
   - - [4096, 1024, 1, 3321]
-    - [548, 9861.13]
+    - [566, 9861.03]
   - - [1024, 4096, 1, 3147]
-    - [548, 9894.77]
+    - [566, 9894.67]
   - - [1024, 4096, 1, 3944]
-    - [548, 9950.51]
+    - [566, 9950.41]
   - - [4096, 1024, 1, 3870]
-    - [556, 9881.74]
+    - [574, 9881.64]
   - - [1024, 4096, 1, 3308]
-    - [548, 9907.26]
+    - [566, 9907.16]
   - - [4096, 1024, 1, 3401]
-    - [555, 9864.59]
+    - [573, 9864.49]
   - - [1024, 4096, 1, 3395]
-    - [548, 9929.03]
+    - [566, 9928.93]
   - - [64, 99, 624, 102]
-    - [524, 5651.36]
+    - [542, 5651.26]
   - - [1024, 4096, 1, 3563]
-    - [555, 9922.76]
+    - [573, 9922.66]
   - - [1024, 33708, 1, 3870]
-    - [548, 10325.4]
+    - [566, 10325.3]
   - - [4096, 1024, 1, 3494]
-    - [555, 9875.37]
+    - [573, 9875.27]
   - - [1024, 4096, 1, 3271]
-    - [548, 9913.09]
+    - [566, 9912.99]
   - - [1024, 33708, 1, 3910]
-    - [548, 10341.5]
+    - [566, 10341.4]
   - - [1024, 4096, 1, 3287]
-    - [556, 9924.87]
+    - [574, 9924.77]
   - - [1024, 33708, 1, 3860]
-    - [548, 10330.7]
+    - [566, 10330.6]
   - - [64, 143, 432, 148]
-    - [541, 6571.78]
+    - [559, 6571.68]
   - - [1024, 1024, 1, 3584]
-    - [553, 8975.31]
+    - [571, 8975.21]
   - - [64, 162, 400, 162]
-    - [543, 6822.26]
+    - [561, 6822.16]
   - - [4096, 1024, 1, 3341]
-    - [555, 9854.66]
+    - [573, 9854.56]
   - - [1024, 4096, 1, 3136]
-    - [548, 9926.86]
+    - [566, 9926.76]
   - - [4096, 1024, 1, 3439]
-    - [555, 9854.33]
+    - [573, 9854.23]
   - - [64, 148, 432, 147]
-    - [539, 6677.61]
+    - [557, 6677.51]
   - - [1024, 4096, 1, 3751]
-    - [555, 9938.48]
+    - [573, 9938.38]
   - - [1024, 4096, 1, 3301]
-    - [555, 9919.15]
+    - [573, 9919.05]
   - - [4096, 1024, 1, 3468]
-    - [556, 9859.83]
+    - [574, 9859.73]
   - - [1024, 4096, 1, 3416]
-    - [556, 9918.52]
+    - [574, 9918.42]
   - - [4096, 1024, 1, 3163]
-    - [555, 9854.65]
+    - [573, 9854.55]
   - - [1024, 4096, 1, 3230]
-    - [549, 9897.54]
+    - [567, 9897.44]
   - - [1024, 4096, 1, 3581]
-    - [549, 9915.48]
+    - [567, 9915.38]
   - - [1024, 1024, 1, 3960]
-    - [551, 9045.86]
+    - [569, 9045.76]
   - - [4096, 1024, 1, 3463]
-    - [556, 9884.74]
+    - [574, 9884.64]
   - - [1024, 4096, 1, 3478]
-    - [549, 9927.02]
+    - [567, 9926.92]
   - - [4096, 1024, 1, 3262]
-    - [555, 9852.22]
+    - [573, 9852.12]
   - - [1024, 4096, 1, 3438]
-    - [555, 9912.68]
+    - [573, 9912.58]
   - - [1024, 4096, 1, 3244]
-    - [548, 9900.51]
+    - [566, 9900.41]
   - - [1024, 4096, 1, 3445]
-    - [548, 9920.32]
+    - [566, 9920.22]
   - - [4096, 1024, 1, 3328]
-    - [555, 9888.07]
+    - [573, 9887.97]
   - - [1024, 4096, 1, 3492]
-    - [549, 9937.22]
+    - [567, 9937.12]
   - - [4096, 1024, 1, 3211]
-    - [549, 9847.95]
+    - [567, 9847.85]
   - - [1024, 4096, 1, 3910]
-    - [556, 9946.57]
+    - [574, 9946.47]
   - - [1024, 4096, 1, 3314]
-    - [548, 9932.6]
+    - [566, 9932.5]
   - - [4096, 1024, 1, 3859]
-    - [555, 9902.84]
+    - [573, 9902.74]
   - - [4096, 1024, 1, 3383]
-    - [555, 9875.2]
+    - [573, 9875.1]
   - - [1024, 4096, 1, 3409]
-    - [556, 9926.79]
+    - [574, 9926.69]
   - - [1024, 4096, 1, 4020]
-    - [548, 9941.8]
+    - [566, 9941.7]
   - - [4096, 1024, 1, 3530]
-    - [555, 9872.81]
+    - [573, 9872.71]
   - - [4096, 1024, 1, 3411]
-    - [556, 9875.02]
+    - [574, 9874.92]
   - - [1024, 4096, 1, 3566]
-    - [556, 9921.1]
+    - [574, 9921.0]
   - - [4096, 1024, 1, 3493]
-    - [548, 9875.74]
+    - [566, 9875.64]
   - - [4096, 1024, 1, 3184]
-    - [555, 9873.14]
+    - [573, 9873.04]
   - - [1024, 4096, 1, 3072]
-    - [548, 9923.79]
+    - [566, 9923.69]
   - - [1024, 4096, 1, 3431]
-    - [549, 9911.03]
+    - [567, 9910.93]
   - - [4096, 1024, 1, 3306]
-    - [556, 9853.42]
+    - [574, 9853.32]
   - - [1024, 4096, 1, 3352]
-    - [556, 9913.32]
+    - [574, 9913.22]
   - - [4096, 1024, 1, 3295]
-    - [555, 9862.68]
+    - [573, 9862.58]
   - - [64, 123, 528, 122]
-    - [521, 6950.25]
+    - [539, 6950.15]
   - - [1024, 4096, 1, 3517]
-    - [549, 9920.06]
+    - [567, 9919.96]
   - - [64, 102, 624, 101]
-    - [529, 5791.49]
+    - [547, 5791.39]
   - - [4096, 1024, 1, 3426]
-    - [555, 9891.14]
+    - [573, 9891.04]
   - - [4096, 1024, 1, 3385]
-    - [555, 9868.41]
+    - [573, 9868.31]
   - - [1024, 1024, 1, 3978]
-    - [546, 9008.48]
+    - [564, 9008.38]
   - - [4096, 1024, 1, 3572]
-    - [548, 9884.81]
+    - [566, 9884.71]
   - - [4096, 1024, 1, 3459]
-    - [555, 9892.17]
+    - [573, 9892.07]
   - - [1024, 4096, 1, 3374]
-    - [556, 9908.52]
+    - [574, 9908.42]
   - - [4096, 1024, 1, 3166]
-    - [555, 9832.45]
+    - [573, 9832.35]
   - - [4096, 1024, 1, 3093]
-    - [556, 9841.25]
+    - [574, 9841.15]
   - - [4096, 1024, 1, 3523]
-    - [549, 9879.05]
+    - [567, 9878.95]
   - - [4096, 1024, 1, 3413]
-    - [549, 9880.81]
+    - [567, 9880.71]
   - - [1024, 4096, 1, 3996]
-    - [548, 9948.14]
+    - [566, 9948.04]
   - - [1024, 4096, 1, 3452]
-    - [556, 9915.97]
+    - [574, 9915.87]
   - - [4096, 1024, 1, 3232]
-    - [556, 9876.54]
+    - [574, 9876.44]
   - - [4096, 1024, 1, 3400]
-    - [548, 9867.15]
+    - [566, 9867.05]
   - - [4096, 1024, 1, 3334]
-    - [555, 9868.99]
+    - [573, 9868.89]
   - - [1024, 4096, 1, 3345]
-    - [548, 9920.6]
+    - [566, 9920.5]
   - - [1024, 4096, 1, 3538]
-    - [555, 9933.34]
+    - [573, 9933.24]
   - - [1024, 4096, 1, 3466]
-    - [555, 9920.85]
+    - [573, 9920.75]
   - - [4096, 1024, 1, 3315]
-    - [555, 9876.87]
+    - [573, 9876.77]
   - - [4096, 1024, 1, 3214]
-    - [556, 9847.93]
+    - [574, 9847.83]
   - - [1024, 33708, 1, 3900]
-    - [548, 10331.7]
+    - [566, 10331.6]
   - - [64, 160, 400, 160]
-    - [541, 7440.61]
+    - [559, 7440.51]
   - - [1024, 4096, 1, 3367]
-    - [555, 9926.32]
+    - [573, 9926.22]
   - - [1024, 4096, 1, 2917]
-    - [556, 9904.57]
+    - [574, 9904.47]
   - - [1024, 1024, 1, 3995]
-    - [547, 9000.33]
+    - [565, 9000.23]
   - - [64, 132, 480, 134]
-    - [539, 6146.88]
+    - [557, 6146.78]
   - - [1024, 4096, 1, 3544]
-    - [556, 9924.14]
+    - [574, 9924.04]
   - - [4096, 1024, 1, 3414]
-    - [556, 9867.9]
+    - [574, 9867.8]
   - - [4096, 1024, 1, 3565]
-    - [549, 9870.13]
+    - [567, 9870.03]
   - - [1024, 4096, 1, 3512]
-    - [555, 9919.84]
+    - [573, 9919.74]
   - - [1024, 4096, 1, 3191]
-    - [556, 9914.79]
+    - [574, 9914.69]
   - - [64, 27, 2336, 27]
-    - [523, 3054.71]
+    - [541, 3054.61]
   - - [1024, 4096, 1, 3289]
-    - [556, 9917.2]
+    - [574, 9917.1]
   - - [4096, 1024, 1, 3290]
-    - [555, 9858.41]
+    - [573, 9858.31]
   - - [1024, 4096, 1, 3211]
-    - [556, 9897.16]
+    - [574, 9897.06]
   - - [1024, 33708, 1, 3969]
-    - [549, 10336.1]
+    - [567, 10336.0]
   - - [4096, 1024, 1, 3566]
-    - [555, 9863.0]
+    - [573, 9862.9]
   - - [64, 111, 576, 111]
-    - [529, 6400.91]
+    - [547, 6400.81]
   - - [1024, 4096, 1, 3459]
-    - [555, 9923.03]
+    - [573, 9922.93]
   - - [1024, 4096, 1, 3372]
-    - [548, 9909.86]
+    - [566, 9909.76]
   - - [4096, 1024, 1, 3339]
-    - [555, 9859.3]
+    - [573, 9859.2]
   - - [4096, 1024, 1, 3425]
-    - [555, 9889.34]
+    - [573, 9889.24]
   - - [4096, 1024, 1, 3388]
-    - [555, 9871.67]
+    - [573, 9871.57]
   - - [1024, 4096, 1, 3531]
-    - [548, 9919.0]
+    - [566, 9918.9]
   - - [4096, 1024, 1, 3286]
-    - [556, 9868.42]
+    - [574, 9868.32]
   - - [4096, 1024, 1, 3462]
-    - [555, 9881.88]
+    - [573, 9881.78]
   - - [1024, 4096, 1, 3388]
-    - [548, 9904.69]
+    - [566, 9904.59]
   - - [4096, 1024, 1, 3165]
-    - [548, 9836.33]
+    - [566, 9836.23]
   - - [4096, 1024, 1, 3304]
-    - [555, 9857.55]
+    - [573, 9857.45]
   - - [1024, 4096, 1, 2736]
-    - [555, 9901.07]
+    - [573, 9900.97]
   - - [4096, 1024, 1, 3397]
-    - [555, 9872.1]
+    - [573, 9872.0]
   - - [64, 38, 1680, 38]
-    - [522, 3459.52]
+    - [540, 3459.42]
   - - [1024, 4096, 1, 3311]
-    - [556, 9908.32]
+    - [574, 9908.22]
   - - [1024, 4096, 1, 3394]
-    - [556, 9929.43]
+    - [574, 9929.33]
   - - [4096, 1024, 1, 2736]
-    - [555, 9833.88]
+    - [573, 9833.78]
   - - [1024, 4096, 1, 3559]
-    - [549, 9925.33]
+    - [567, 9925.23]
   - - [4096, 1024, 1, 3180]
-    - [555, 9838.05]
+    - [573, 9837.95]
   - - [1024, 4096, 1, 3480]
-    - [548, 9922.46]
+    - [566, 9922.36]
   - - [4096, 1024, 1, 3318]
-    - [555, 9867.87]
+    - [573, 9867.77]
   - - [4096, 1024, 1, 3213]
-    - [555, 9846.02]
+    - [573, 9845.92]
   - - [1024, 4096, 1, 3286]
-    - [555, 9912.14]
+    - [573, 9912.04]
   - - [4096, 1024, 1, 3471]
-    - [555, 9874.24]
+    - [573, 9874.14]
   - - [1024, 4096, 1, 3381]
-    - [556, 9922.96]
+    - [574, 9922.86]
   - - [64, 100, 624, 100]
-    - [530, 5705.24]
+    - [548, 5705.14]
   - - [4096, 1024, 1, 3502]
-    - [555, 9872.44]
+    - [573, 9872.34]
   - - [64, 16, 3840, 16]
-    - [536, 2091.67]
+    - [554, 2091.57]
   - - [1024, 4096, 1, 3552]
-    - [548, 9943.89]
+    - [566, 9943.79]
   - - [4096, 1024, 1, 3519]
-    - [556, 9869.95]
+    - [574, 9869.85]
   - - [1024, 4096, 1, 3300]
-    - [549, 9916.15]
+    - [567, 9916.05]
   - - [1024, 4096, 1, 3419]
-    - [548, 9914.06]
+    - [566, 9913.96]
   - - [4096, 1024, 1, 4030]
-    - [549, 9893.73]
+    - [567, 9893.63]
   - - [4096, 1024, 1, 3976]
-    - [556, 9898.35]
+    - [574, 9898.25]
   - - [1024, 4096, 1, 3473]
-    - [556, 9928.42]
+    - [574, 9928.32]
   - - [1024, 1024, 1, 3977]
-    - [553, 9009.33]
+    - [571, 9009.23]
   - - [4096, 1024, 1, 3428]
-    - [555, 9876.79]
+    - [573, 9876.69]
   - - [1024, 4096, 1, 3433]
-    - [549, 9923.92]
+    - [567, 9923.82]
   - - [4096, 1024, 1, 3534]
-    - [549, 9864.0]
+    - [567, 9863.9]
   - - [4096, 1024, 1, 3461]
-    - [555, 9873.12]
+    - [573, 9873.02]
   - - [4096, 1024, 1, 3681]
-    - [555, 9898.57]
+    - [573, 9898.47]
   - - [4096, 1024, 1, 3495]
-    - [556, 9876.08]
+    - [574, 9875.98]
   - - [4096, 1024, 1, 3351]
-    - [555, 9879.71]
+    - [573, 9879.61]
   - - [1024, 4096, 1, 4059]
-    - [548, 9948.61]
+    - [566, 9948.51]
   - - [4096, 1024, 1, 3990]
-    - [555, 9900.76]
+    - [573, 9900.66]
   - - [1024, 4096, 1, 3325]
-    - [549, 9903.3]
+    - [567, 9903.2]
   - - [1024, 4096, 1, 3408]
-    - [555, 9932.15]
+    - [573, 9932.05]
   - - [64, 59, 1088, 59]
-    - [529, 5343.77]
+    - [547, 5343.67]
   - - [4096, 1024, 1, 3394]
-    - [556, 9878.17]
+    - [574, 9878.07]
   - - [1024, 4096, 1, 3573]
-    - [556, 9935.3]
+    - [574, 9935.2]
   - - [4096, 1024, 1, 3386]
-    - [555, 9866.38]
+    - [573, 9866.28]
   - - [4096, 1024, 1, 3540]
-    - [555, 9882.33]
+    - [573, 9882.23]
   - - [1024, 4096, 1, 3182]
-    - [549, 9894.45]
+    - [567, 9894.35]
   - - [1024, 4096, 1, 3430]
-    - [548, 9915.24]
+    - [566, 9915.14]
   - - [1024, 4096, 1, 3236]
-    - [556, 9920.56]
+    - [574, 9920.46]
   - - [4096, 1024, 1, 2977]
-    - [555, 9848.08]
+    - [573, 9847.98]
   - - [1024, 4096, 1, 3355]
-    - [555, 9908.78]
+    - [573, 9908.68]
   - - [4096, 1024, 1, 3139]
-    - [555, 9850.71]
+    - [573, 9850.61]
   - - [4096, 1024, 1, 3516]
-    - [549, 9874.21]
+    - [567, 9874.11]
   - - [4096, 1024, 1, 3368]
-    - [549, 9872.64]
+    - [567, 9872.54]
   - - [4096, 1024, 1, 3559]
-    - [548, 9884.32]
+    - [566, 9884.22]
   - - [64, 11, 5456, 11]
-    - [536, 1382.67]
+    - [554, 1382.57]
   - - [1024, 4096, 1, 3506]
-    - [555, 9937.69]
+    - [573, 9937.59]
   - - [1024, 4096, 1, 3145]
-    - [548, 9905.11]
+    - [566, 9905.01]
   - - [1024, 4096, 1, 3369]
-    - [555, 9912.71]
+    - [573, 9912.61]
   - - [64, 112, 576, 112]
-    - [521, 6583.56]
+    - [539, 6583.46]
   - - [4096, 1024, 1, 3522]
-    - [555, 9889.47]
+    - [573, 9889.37]
   - - [1024, 33708, 1, 3894]
-    - [548, 10337.5]
+    - [566, 10337.4]
   - - [64, 159, 400, 162]
-    - [539, 7057.09]
+    - [557, 7056.99]
   - - [4096, 1024, 1, 3336]
-    - [555, 9867.67]
+    - [573, 9867.57]
   - - [1024, 4096, 1, 3382]
-    - [549, 9915.9]
+    - [567, 9915.8]
   - - [4096, 1024, 1, 3533]
-    - [555, 9878.56]
+    - [573, 9878.46]
   - - [4096, 1024, 1, 4050]
-    - [556, 9916.82]
+    - [574, 9916.72]
   - - [4096, 1024, 1, 3480]
-    - [549, 9869.32]
+    - [567, 9869.22]
   - - [1024, 4096, 1, 3344]
-    - [548, 9935.61]
+    - [566, 9935.51]
   - - [64, 122, 528, 122]
-    - [521, 6871.14]
+    - [539, 6871.04]
   - - [1024, 4096, 1, 3509]
-    - [549, 9925.8]
+    - [567, 9925.7]
   - - [1024, 4096, 1, 3956]
-    - [548, 9958.26]
+    - [566, 9958.16]
   - - [4096, 1024, 1, 3616]
-    - [555, 9904.63]
+    - [573, 9904.53]
   - - [1024, 4096, 1, 3366]
-    - [548, 9919.47]
+    - [566, 9919.37]
   - - [4096, 1024, 1, 2935]
-    - [548, 9833.23]
+    - [566, 9833.13]
   - - [4096, 1024, 1, 3393]
-    - [555, 9877.45]
+    - [573, 9877.35]
   - - [4096, 1024, 1, 3547]
-    - [549, 9865.1]
+    - [567, 9865.0]
   - - [1024, 4096, 1, 3499]
-    - [556, 9912.49]
+    - [574, 9912.39]
   - - [4096, 1024, 1, 3357]
-    - [555, 9855.28]
+    - [573, 9855.18]
   - - [4096, 1024, 1, 3272]
-    - [555, 9861.97]
+    - [573, 9861.87]
   - - [4096, 1024, 1, 3207]
-    - [555, 9847.78]
+    - [573, 9847.68]
   - - [4096, 1024, 1, 3894]
-    - [555, 9918.86]
+    - [573, 9918.76]
   - - [1024, 4096, 1, 3444]
-    - [555, 9932.71]
+    - [573, 9932.61]
   - - [4096, 1024, 1, 3561]
-    - [555, 9872.61]
+    - [573, 9872.51]
   - - [4096, 1024, 1, 3376]
-    - [555, 9885.59]
+    - [573, 9885.49]
   - - [1024, 4096, 1, 3458]
-    - [555, 9929.39]
+    - [573, 9929.29]
   - - [4096, 1024, 1, 3231]
-    - [549, 9847.08]
+    - [567, 9846.98]
   - - [64, 228, 272, 228]
-    - [550, 7302.69]
+    - [568, 7302.59]
   - - [1024, 4096, 1, 3505]
-    - [556, 9931.63]
+    - [574, 9931.53]
   - - [4096, 1024, 1, 3277]
-    - [555, 9857.2]
+    - [573, 9857.1]
   - - [64, 21, 2976, 21]
-    - [525, 2436.14]
+    - [543, 2436.04]
   - - [1024, 4096, 1, 3391]
-    - [555, 9911.25]
+    - [573, 9911.15]
   - - [64, 32, 1984, 32]
-    - [537, 3572.17]
+    - [555, 3572.07]
   - - [1024, 4096, 1, 3536]
-    - [556, 9946.9]
+    - [574, 9946.8]
   - - [1024, 4096, 1, 3063]
-    - [555, 9906.92]
+    - [573, 9906.82]
   - - [1024, 1024, 1, 3925]
-    - [547, 9011.45]
+    - [565, 9011.35]
   - - [1024, 4096, 1, 3189]
-    - [549, 9900.95]
+    - [567, 9900.85]
   - - [1024, 4096, 1, 2505]
-    - [555, 9854.85]
+    - [573, 9854.75]
   - - [4096, 1024, 1, 3454]
-    - [548, 9864.96]
+    - [566, 9864.86]
   - - [1024, 4096, 1, 3405]
-    - [556, 9906.33]
+    - [574, 9906.23]
   - - [1024, 33708, 1, 4050]
-    - [549, 10343.7]
+    - [567, 10343.6]
   - - [4096, 1024, 1, 3520]
-    - [555, 9887.03]
+    - [573, 9886.93]
   - - [64, 93, 688, 93]
-    - [532, 6222.86]
+    - [550, 6222.76]
   - - [1024, 4096, 1, 3487]
-    - [556, 9918.69]
+    - [574, 9918.59]
   - - [1024, 4096, 1, 3558]
-    - [556, 9930.99]
+    - [574, 9930.89]
   - - [4096, 1024, 1, 3297]
-    - [555, 9874.31]
+    - [573, 9874.21]
   - - [1024, 1024, 1, 3840]
-    - [551, 9075.42]
+    - [569, 9075.32]
   - - [1024, 4096, 1, 3483]
-    - [555, 9915.38]
+    - [573, 9915.28]
   - - [1024, 1024, 1, 3956]
-    - [554, 9010.03]
+    - [572, 9009.93]
   - - [1024, 33708, 1, 3751]
-    - [549, 10325.9]
+    - [567, 10325.8]
   - - [4096, 1024, 1, 3380]
-    - [555, 9888.47]
+    - [573, 9888.37]
   - - [1024, 4096, 1, 3380]
-    - [548, 9927.25]
+    - [566, 9927.15]
   - - [1024, 4096, 1, 3396]
-    - [556, 9931.96]
+    - [574, 9931.86]
   - - [1024, 4096, 1, 3497]
-    - [549, 9914.86]
+    - [567, 9914.76]
   - - [1024, 4096, 1, 3502]
-    - [556, 9921.52]
+    - [574, 9921.42]
   - - [1024, 1024, 1, 3976]
-    - [551, 9060.3]
+    - [569, 9060.2]
   - - [1024, 4096, 1, 3138]
-    - [549, 9908.66]
+    - [567, 9908.56]
   - - [4096, 1024, 1, 3939]
-    - [548, 9910.23]
+    - [566, 9910.13]
   - - [1024, 4096, 1, 3303]
-    - [549, 9916.64]
+    - [567, 9916.54]
   - - [64, 111, 576, 112]
-    - [529, 6495.19]
+    - [547, 6495.09]
   - - [1024, 4096, 1, 3418]
-    - [555, 9913.35]
+    - [573, 9913.25]
   - - [1024, 4096, 1, 3224]
-    - [549, 9904.05]
+    - [567, 9903.95]
   - - [4096, 1024, 1, 3978]
-    - [555, 9896.28]
+    - [573, 9896.18]
   - - [1024, 4096, 1, 3472]
-    - [548, 9937.48]
+    - [566, 9937.38]
   - - [4096, 1024, 1, 3353]
-    - [556, 9863.97]
+    - [574, 9863.87]
   - - [4096, 1024, 1, 3362]
-    - [555, 9871.06]
+    - [573, 9870.96]
   - - [1024, 33708, 1, 3978]
-    - [548, 10325.4]
+    - [566, 10325.3]
   - - [64, 100, 624, 102]
-    - [524, 5695.67]
+    - [542, 5695.57]
   - - [1024, 4096, 1, 3432]
-    - [556, 9915.56]
+    - [574, 9915.46]
   - - [1024, 4096, 1, 3139]
-    - [555, 9914.21]
+    - [573, 9914.11]
   - - [1024, 4096, 1, 3341]
-    - [556, 9912.1]
+    - [574, 9912.0]
   - - [1024, 4096, 1, 3494]
-    - [549, 9924.6]
+    - [567, 9924.5]
   - - [1024, 4096, 1, 3969]
-    - [548, 9952.28]
+    - [566, 9952.18]
   - - [1024, 4096, 1, 3163]
-    - [556, 9911.79]
+    - [574, 9911.69]
   - - [1024, 1024, 1, 3955]
-    - [546, 9097.86]
+    - [564, 9097.76]
   - - [4096, 1024, 1, 3405]
-    - [555, 9853.84]
+    - [573, 9853.74]
   - - [1024, 1024, 1, 4030]
-    - [546, 9083.86]
+    - [564, 9083.76]
   - - [4096, 1024, 1, 3453]
-    - [555, 9858.88]
+    - [573, 9858.78]
   - - [1024, 4096, 1, 3411]
-    - [556, 9926.54]
+    - [574, 9926.44]
   - - [1024, 4096, 1, 3527]
-    - [549, 9922.65]
+    - [567, 9922.55]
   - - [4096, 1024, 1, 3474]
-    - [555, 9878.49]
+    - [573, 9878.39]
   - - [1024, 4096, 1, 3572]
-    - [555, 9932.0]
+    - [573, 9931.9]
   - - [4096, 1024, 1, 3293]
-    - [555, 9848.26]
+    - [573, 9848.16]
   - - [4096, 1024, 1, 3247]
-    - [555, 9861.45]
+    - [573, 9861.35]
   - - [64, 15, 4096, 15]
-    - [536, 1955.75]
+    - [554, 1955.65]
   - - [1024, 4096, 1, 3425]
-    - [556, 9936.4]
+    - [574, 9936.3]
   - - [1024, 4096, 1, 3354]
-    - [548, 9917.55]
+    - [566, 9917.45]
   - - [4096, 1024, 1, 3382]
-    - [555, 9885.49]
+    - [573, 9885.39]
   - - [4096, 1024, 1, 3236]
-    - [555, 9860.6]
+    - [573, 9860.5]
   - - [1024, 4096, 1, 3519]
-    - [556, 9919.3]
+    - [574, 9919.2]
   - - [4096, 1024, 1, 3354]
-    - [555, 9854.75]
+    - [573, 9854.65]
   - - [4096, 1024, 1, 3501]
-    - [556, 9869.62]
+    - [574, 9869.52]
   - - [1024, 1024, 1, 3906]
-    - [554, 9104.99]
+    - [572, 9104.89]
   - - [4096, 1024, 1, 3266]
-    - [555, 9873.97]
+    - [573, 9873.87]
   - - [64, 101, 624, 102]
-    - [524, 5765.52]
+    - [542, 5765.42]
   - - [1024, 4096, 1, 3368]
-    - [555, 9909.77]
+    - [573, 9909.67]
   - - [1024, 4096, 1, 4030]
-    - [556, 9940.27]
+    - [574, 9940.17]
   - - [1024, 4096, 1, 3533]
-    - [549, 9916.64]
+    - [567, 9916.54]
   - - [4096, 1024, 1, 3332]
-    - [556, 9876.45]
+    - [574, 9876.35]
   - - [4096, 1024, 1, 3584]
-    - [555, 9896.6]
+    - [573, 9896.5]
   - - [1024, 4096, 1, 3616]
-    - [555, 9957.18]
+    - [573, 9957.08]
   - - [4096, 1024, 1, 3265]
-    - [555, 9877.78]
+    - [573, 9877.68]
   - - [4096, 1024, 1, 3361]
-    - [555, 9888.61]
+    - [573, 9888.51]
   - - [4096, 1024, 1, 3467]
-    - [555, 9863.4]
+    - [573, 9863.3]
   - - [1024, 4096, 1, 3454]
-    - [549, 9904.89]
+    - [567, 9904.79]
   - - [1024, 4096, 1, 3101]
-    - [556, 9893.12]
+    - [574, 9893.02]
   - - [1024, 4096, 1, 3508]
-    - [556, 9931.54]
+    - [574, 9931.44]
   - - [4096, 1024, 1, 3267]
-    - [555, 9864.48]
+    - [573, 9864.38]
   - - [64, 54, 1184, 54]
-    - [521, 4906.02]
+    - [539, 4905.92]
   - - [4096, 1024, 1, 3419]
-    - [555, 9872.56]
+    - [573, 9872.46]
   - - [4096, 1024, 1, 3822]
-    - [555, 9892.63]
+    - [573, 9892.53]
   - - [1024, 4096, 1, 3266]
-    - [555, 9918.58]
+    - [573, 9918.48]
   - - [4096, 1024, 1, 3440]
-    - [556, 9890.16]
+    - [574, 9890.06]
   - - [1024, 4096, 1, 3361]
-    - [555, 9930.97]
+    - [573, 9930.87]
   - - [1024, 4096, 1, 3546]
-    - [549, 9926.56]
+    - [567, 9926.46]
   - - [4096, 1024, 1, 3473]
-    - [555, 9889.06]
+    - [573, 9888.96]
   - - [4096, 1024, 1, 3546]
-    - [556, 9872.27]
+    - [574, 9872.17]
   - - [1024, 4096, 1, 3088]
-    - [549, 9918.03]
+    - [567, 9917.93]
   - - [1024, 4096, 1, 3535]
-    - [556, 9921.2]
+    - [574, 9921.1]
   - - [1024, 4096, 1, 3447]
-    - [556, 9920.63]
+    - [574, 9920.53]
   - - [1024, 4096, 1, 3560]
-    - [555, 9925.48]
+    - [573, 9925.38]
   - - [1024, 4096, 1, 3422]
-    - [549, 9922.21]
+    - [567, 9922.11]
   - - [1024, 4096, 1, 3469]
-    - [548, 9906.18]
+    - [566, 9906.08]
   - - [4096, 1024, 1, 3488]
-    - [555, 9903.26]
+    - [573, 9903.16]
   - - [1024, 4096, 1, 3110]
-    - [555, 9906.76]
+    - [573, 9906.66]
   - - [1024, 4096, 1, 3265]
-    - [556, 9916.69]
+    - [574, 9916.59]
   - - [1024, 4096, 1, 3291]
-    - [555, 9902.73]
+    - [573, 9902.63]
   - - [1024, 4096, 1, 3390]
-    - [556, 9907.22]
+    - [574, 9907.12]
   - - [4096, 1024, 1, 3046]
-    - [555, 9847.68]
+    - [573, 9847.58]
   - - [1024, 4096, 1, 3539]
-    - [556, 9933.49]
+    - [574, 9933.39]
   - - [4096, 1024, 1, 3221]
-    - [556, 9860.74]
+    - [574, 9860.64]
   - - [4096, 1024, 1, 3433]
-    - [555, 9872.74]
+    - [573, 9872.64]
   - - [4096, 1024, 1, 3364]
-    - [556, 9881.91]
+    - [574, 9881.81]
   - - [4096, 1024, 1, 3470]
-    - [555, 9858.56]
+    - [573, 9858.46]
   - - [1024, 4096, 1, 3404]
-    - [548, 9907.27]
+    - [566, 9907.17]
   - - [1024, 33708, 1, 3968]
-    - [549, 10350.3]
+    - [567, 10350.2]
   - - [4096, 1024, 1, 3088]
-    - [555, 9869.06]
+    - [573, 9868.96]
   - - [1024, 4096, 1, 3247]
-    - [555, 9901.02]
+    - [573, 9900.92]
   - - [1024, 33708, 1, 3996]
-    - [548, 10328.5]
+    - [566, 10328.4]
   - - [4096, 1024, 1, 3482]
-    - [556, 9866.99]
+    - [574, 9866.89]
   - - [1024, 1024, 1, 3796]
-    - [551, 9031.68]
+    - [569, 9031.58]
   - - [4096, 1024, 1, 3995]
-    - [556, 9896.78]
+    - [574, 9896.68]
   - - [1024, 1024, 1, 3859]
-    - [553, 9097.36]
+    - [571, 9097.26]
   - - [1024, 4096, 1, 3280]
-    - [549, 9934.05]
+    - [567, 9933.95]
   - - [4096, 1024, 1, 3271]
-    - [556, 9860.09]
+    - [574, 9859.99]
   - - [64, 10, 5952, 10]
-    - [536, 1221.02]
+    - [554, 1220.92]
   - - [4096, 1024, 1, 3545]
-    - [555, 9877.35]
+    - [573, 9877.25]
   - - [4096, 1024, 1, 3476]
-    - [548, 9882.57]
+    - [566, 9882.47]
   - - [4096, 1024, 1, 3496]
-    - [549, 9880.5]
+    - [567, 9880.4]
   - - [4096, 1024, 1, 3191]
-    - [549, 9858.7]
+    - [567, 9858.6]
   - - [4096, 1024, 1, 3311]
-    - [556, 9853.2]
+    - [574, 9853.1]
   - - [1024, 4096, 1, 3302]
-    - [556, 9919.32]
+    - [574, 9919.22]
   - - [1024, 4096, 1, 3681]
-    - [555, 9944.99]
+    - [573, 9944.89]
   - - [4096, 1024, 1, 3582]
-    - [548, 9869.77]
+    - [566, 9869.67]
   - - [4096, 1024, 1, 3421]
-    - [556, 9856.08]
+    - [574, 9855.98]
   - - [4096, 1024, 1, 3560]
-    - [549, 9884.48]
+    - [567, 9884.38]
   - - [1024, 4096, 1, 3495]
-    - [556, 9930.13]
+    - [574, 9930.03]
   - - [4096, 1024, 1, 3186]
-    - [555, 9870.59]
+    - [573, 9870.49]
   - - [4096, 1024, 1, 3925]
-    - [555, 9904.0]
+    - [573, 9903.9]
   - - [64, 71, 896, 71]
-    - [540, 5004.79]
+    - [558, 5004.69]
   - - [1024, 4096, 1, 3435]
-    - [556, 9916.58]
+    - [574, 9916.48]
   - - [4096, 1024, 1, 3434]
-    - [555, 9871.29]
+    - [573, 9871.19]
   - - [1024, 33708, 1, 4012]
-    - [548, 10332.5]
+    - [566, 10332.4]
   - - [1024, 4096, 1, 3340]
-    - [548, 9918.11]
+    - [566, 9918.01]
   - - [1024, 1024, 1, 3860]
-    - [546, 8999.36]
+    - [564, 8999.26]
   - - [4096, 1024, 1, 3489]
-    - [555, 9882.02]
+    - [573, 9881.92]
   - - [1024, 4096, 1, 3162]
-    - [556, 9906.28]
+    - [574, 9906.18]
   - - [4096, 1024, 1, 3436]
-    - [555, 9858.12]
+    - [573, 9858.02]
   - - [1024, 1024, 1, 4005]
-    - [552, 9043.06]
+    - [570, 9042.96]
   - - [64, 84, 752, 84]
-    - [525, 5629.93]
+    - [543, 5629.83]
   - - [4096, 1024, 1, 3574]
-    - [555, 9886.7]
+    - [573, 9886.6]
   - - [4096, 1024, 1, 3469]
-    - [548, 9856.26]
+    - [566, 9856.16]
   - - [1024, 4096, 1, 3410]
-    - [549, 9924.74]
+    - [567, 9924.64]
   - - [1024, 4096, 1, 3216]
-    - [548, 9930.67]
+    - [566, 9930.57]
   - - [4096, 1024, 1, 3095]
-    - [555, 9847.01]
+    - [573, 9846.91]
   - - [1024, 1024, 1, 3990]
-    - [554, 9089.04]
+    - [572, 9088.94]
   - - [4096, 1024, 1, 3448]
-    - [555, 9863.94]
+    - [573, 9863.84]
   - - [1024, 4096, 1, 3176]
-    - [556, 9914.01]
+    - [574, 9913.91]
   - - [64, 49, 1296, 49]
-    - [521, 4437.46]
+    - [539, 4437.36]
   - - [4096, 1024, 1, 2918]
-    - [555, 9830.93]
+    - [573, 9830.83]
   - - [64, 14, 4368, 14]
-    - [535, 1802.47]
+    - [553, 1802.37]
   - - [1024, 4096, 1, 3424]
-    - [555, 9934.05]
+    - [573, 9933.95]
   - - [4096, 1024, 1, 3402]
-    - [548, 9863.12]
+    - [566, 9863.02]
   - - [4096, 1024, 1, 3145]
-    - [549, 9856.56]
+    - [567, 9856.46]
   - - [64, 134, 480, 134]
-    - [541, 6184.05]
+    - [559, 6183.95]
   - - [1024, 33708, 1, 3976]
-    - [549, 10330.1]
+    - [567, 10330.0]
   - - [4096, 1024, 1, 3518]
-    - [548, 9856.07]
+    - [566, 9855.97]
   - - [4096, 1024, 1, 3110]
-    - [555, 9856.46]
+    - [573, 9856.36]
   - - [4096, 1024, 1, 3325]
-    - [555, 9852.36]
+    - [573, 9852.26]
   - - [1024, 33708, 1, 3999]
-    - [548, 10329.7]
+    - [566, 10329.6]
   - - [4096, 1024, 1, 2985]
-    - [555, 9837.3]
+    - [573, 9837.2]
   - - [1024, 4096, 1, 3371]
-    - [548, 9913.03]
+    - [566, 9912.93]
   - - [4096, 1024, 1, 3342]
-    - [555, 9863.16]
+    - [573, 9863.06]
   - - [4096, 1024, 1, 3141]
-    - [549, 9849.91]
+    - [567, 9849.81]
   - - [4096, 1024, 1, 3532]
-    - [549, 9866.3]
+    - [567, 9866.2]
   - - [64, 78, 816, 78]
-    - [526, 5316.88]
+    - [544, 5316.78]
   - - [1024, 4096, 1, 3169]
-    - [556, 9910.45]
+    - [574, 9910.35]
   - - [1024, 4096, 1, 3514]
-    - [555, 9918.0]
+    - [573, 9917.9]
   - - [4096, 1024, 1, 3780]
-    - [556, 9899.75]
+    - [574, 9899.65]
   - - [1024, 4096, 1, 3098]
-    - [548, 9901.62]
+    - [566, 9901.52]
   - - [1024, 4096, 1, 3449]
-    - [556, 9919.85]
+    - [574, 9919.75]
   - - [1024, 4096, 1, 3222]
-    - [548, 9917.66]
+    - [566, 9917.56]
   - - [1024, 4096, 1, 3346]
-    - [549, 9912.91]
+    - [567, 9912.81]
   - - [4096, 1024, 1, 3064]
-    - [556, 9848.79]
+    - [574, 9848.69]
   - - [4096, 1024, 1, 3511]
-    - [555, 9873.39]
+    - [573, 9873.29]
   - - [4096, 1024, 1, 3384]
-    - [555, 9870.98]
+    - [573, 9870.88]
   - - [4096, 1024, 1, 3356]
-    - [549, 9853.45]
+    - [567, 9853.35]
   - - [1024, 4096, 1, 3796]
-    - [548, 9940.66]
+    - [566, 9940.56]
   - - [4096, 1024, 1, 3427]
-    - [555, 9883.14]
+    - [573, 9883.04]
   - - [4096, 1024, 1, 3390]
-    - [555, 9863.79]
+    - [573, 9863.69]
   - - [4096, 1024, 1, 3573]
-    - [556, 9886.02]
+    - [574, 9885.92]
   - - [4096, 1024, 1, 3456]
-    - [549, 9890.61]
+    - [567, 9890.51]
   - - [1024, 4096, 1, 3360]
-    - [556, 9938.1]
+    - [574, 9938.0]
   - - [1024, 33708, 1, 3977]
-    - [549, 10327.2]
+    - [567, 10327.1]
   - - [1024, 4096, 1, 2918]
-    - [548, 9902.84]
+    - [566, 9902.74]
   - - [4096, 1024, 1, 3975]
-    - [555, 9905.27]
+    - [573, 9905.17]
   - - [4096, 1024, 1, 3525]
-    - [556, 9879.91]
+    - [574, 9879.81]
   - - [4096, 1024, 1, 3398]
-    - [548, 9873.91]
+    - [566, 9873.81]
   - - [4096, 1024, 1, 3640]
-    - [555, 9885.16]
+    - [573, 9885.06]
   - - [1024, 1024, 1, 3999]
-    - [547, 8995.42]
+    - [565, 8995.32]
   - - [4096, 1024, 1, 3014]
-    - [555, 9841.32]
+    - [573, 9841.22]
   - - [1024, 4096, 1, 3446]
-    - [548, 9917.21]
+    - [566, 9917.11]
   - - [1024, 33708, 1, 3796]
-    - [548, 10339.0]
+    - [566, 10338.9]
   - - [4096, 1024, 1, 3101]
-    - [548, 9827.34]
+    - [566, 9827.24]
   - - [4096, 1024, 1, 3563]
-    - [556, 9863.03]
+    - [574, 9862.93]
   - - [4096, 1024, 1, 3539]
-    - [548, 9889.54]
+    - [566, 9889.44]
   - - [4096, 1024, 1, 3182]
-    - [555, 9833.79]
+    - [573, 9833.69]
   - - [1024, 4096, 1, 3468]
-    - [549, 9913.05]
+    - [567, 9912.95]
   - - [4096, 1024, 1, 3312]
-    - [555, 9889.85]
+    - [573, 9889.75]
   - - [4096, 1024, 1, 3215]
-    - [555, 9853.88]
+    - [573, 9853.78]
   - - [4096, 1024, 1, 3910]
-    - [555, 9894.72]
+    - [573, 9894.62]
   - - [1024, 33708, 1, 3780]
-    - [549, 10332.0]
+    - [567, 10331.9]
   - - [1024, 4096, 1, 3290]
-    - [555, 9915.08]
+    - [573, 9914.98]
   - - [1024, 4096, 1, 4012]
-    - [555, 9942.65]
+    - [573, 9942.55]
   - - [1024, 4096, 1, 3385]
-    - [555, 9915.83]
+    - [573, 9915.73]
   - - [1024, 33708, 1, 3975]
-    - [548, 10330.1]
+    - [566, 10330.0]
   - - [4096, 1024, 1, 3996]
-    - [555, 9891.31]
+    - [573, 9891.21]
   - - [4096, 1024, 1, 2765]
-    - [556, 9800.38]
+    - [574, 9800.28]
   - - [4096, 1024, 1, 3538]
-    - [556, 9886.22]
+    - [574, 9886.12]
   - - [4096, 1024, 1, 3415]
-    - [556, 9874.6]
+    - [574, 9874.5]
   - - [1024, 4096, 1, 3554]
-    - [555, 9931.99]
+    - [573, 9931.89]
   - - [4096, 1024, 1, 3513]
-    - [549, 9874.25]
+    - [567, 9874.15]
   - - [1024, 4096, 1, 3304]
-    - [549, 9907.73]
+    - [567, 9907.63]
   - - [4096, 1024, 1, 3294]
-    - [555, 9851.25]
+    - [573, 9851.15]
   - - [4096, 1024, 1, 3396]
-    - [556, 9880.7]
+    - [574, 9880.6]
   - - [1024, 4096, 1, 3213]
-    - [549, 9891.12]
+    - [567, 9891.02]
   - - [4096, 1024, 1, 3137]
-    - [549, 9857.41]
+    - [567, 9857.31]
   - - [4096, 1024, 1, 3552]
-    - [555, 9904.22]
+    - [573, 9904.12]
   - - [1024, 1024, 1, 4020]
-    - [554, 9098.87]
+    - [572, 9098.77]
   - - [64, 13, 4672, 13]
-    - [536, 1693.54]
+    - [554, 1693.44]
   - - [1024, 4096, 1, 3461]
-    - [555, 9918.45]
+    - [573, 9918.35]
   - - [4096, 1024, 1, 3263]
-    - [548, 9843.89]
+    - [566, 9843.79]
   - - [4096, 1024, 1, 3430]
-    - [555, 9885.26]
+    - [573, 9885.16]
   - - [4096, 1024, 1, 3389]
-    - [555, 9859.23]
+    - [573, 9859.13]
   - - [4096, 1024, 1, 3528]
-    - [555, 9873.01]
+    - [573, 9872.91]
   - - [1024, 4096, 1, 3463]
-    - [556, 9929.61]
+    - [574, 9929.51]
   - - [4096, 1024, 1, 3526]
-    - [556, 9876.9]
+    - [574, 9876.8]
   - - [4096, 1024, 1, 3154]
-    - [555, 9858.25]
+    - [573, 9858.15]
   - - [4096, 1024, 1, 3499]
-    - [556, 9862.92]
+    - [574, 9862.82]
   - - [1024, 1024, 1, 3939]
-    - [554, 9107.41]
+    - [572, 9107.31]
   - - [4096, 1024, 1, 3955]
-    - [556, 9906.28]
+    - [574, 9906.18]
   - - [1024, 4096, 1, 3297]
-    - [549, 9925.34]
+    - [567, 9925.24]
   - - [1024, 4096, 1, 3233]
-    - [555, 9920.65]
+    - [573, 9920.55]
   - - [1024, 4096, 1, 3226]
-    - [555, 9911.35]
+    - [573, 9911.25]
   - - [4096, 1024, 1, 3404]
-    - [555, 9867.28]
+    - [573, 9867.18]
   - - [4096, 1024, 1, 3355]
-    - [555, 9862.66]
+    - [573, 9862.56]
   - - [1024, 4096, 1, 3542]
-    - [555, 9926.49]
+    - [573, 9926.39]
   - - [4096, 1024, 1, 3181]
-    - [556, 9831.86]
+    - [574, 9831.76]
   - - [1024, 4096, 1, 3474]
-    - [555, 9928.03]
+    - [573, 9927.93]
   - - [4096, 1024, 1, 3319]
-    - [555, 9870.28]
+    - [573, 9870.18]
   - - [1024, 4096, 1, 3434]
-    - [548, 9917.51]
+    - [566, 9917.41]
   - - [1024, 4096, 1, 3860]
-    - [555, 9945.32]
+    - [573, 9945.22]
   - - [1024, 4096, 1, 3343]
-    - [548, 9914.66]
+    - [566, 9914.56]
   - - [64, 77, 816, 78]
-    - [526, 5276.97]
+    - [544, 5276.87]
   - - [1024, 4096, 1, 3488]
-    - [555, 9945.81]
+    - [573, 9945.71]
   - - [1024, 4096, 1, 3046]
-    - [555, 9908.78]
+    - [573, 9908.68]
   - - [1024, 4096, 1, 3141]
-    - [556, 9909.18]
+    - [574, 9909.08]
   - - [1024, 4096, 1, 3516]
-    - [556, 9911.38]
+    - [574, 9911.28]
   - - [4096, 1024, 1, 3147]
-    - [555, 9840.47]
+    - [573, 9840.37]
   - - [1024, 1024, 1, 4059]
-    - [547, 9009.78]
+    - [565, 9009.68]
   - - [1024, 1024, 1, 3944]
-    - [547, 9006.17]
+    - [565, 9006.07]
   - - [1024, 4096, 1, 3421]
-    - [556, 9919.86]
+    - [574, 9919.76]
   - - [4096, 1024, 1, 3944]
-    - [549, 9899.53]
+    - [567, 9899.43]
   - - [64, 45, 1424, 45]
-    - [534, 4068.67]
+    - [552, 4068.57]
   - - [1024, 4096, 1, 3574]
-    - [549, 9930.19]
+    - [567, 9930.09]
   - - [1024, 4096, 1, 3977]
-    - [548, 9944.28]
+    - [566, 9944.18]
   - - [1024, 1024, 1, 3968]
-    - [553, 9045.22]
+    - [571, 9045.12]
   - - [1024, 4096, 1, 2985]
-    - [555, 9887.65]
+    - [573, 9887.55]
   - - [64, 193, 320, 193]
-    - [542, 6631.35]
+    - [560, 6631.25]
   - - [1024, 4096, 1, 3427]
-    - [556, 9933.41]
+    - [574, 9933.31]
   - - [64, 12, 5040, 12]
-    - [536, 1552.53]
+    - [554, 1552.43]
   - - [1024, 4096, 1, 3482]
-    - [556, 9942.22]
+    - [574, 9942.12]
   - - [1024, 4096, 1, 3332]
-    - [548, 9923.58]
+    - [566, 9923.48]
   - - [1024, 1024, 1, 3720]
-    - [552, 9039.56]
+    - [570, 9039.46]
   - - [4096, 1024, 1, 3308]
-    - [556, 9852.66]
+    - [574, 9852.56]
   - - [1024, 4096, 1, 3513]
-    - [556, 9919.99]
+    - [574, 9919.89]
   - - [1024, 4096, 1, 3154]
-    - [549, 9908.46]
+    - [567, 9908.36]
   - - [1024, 4096, 1, 3955]
-    - [556, 9950.01]
+    - [574, 9949.91]
   - - [1024, 4096, 1, 2967]
-    - [556, 9897.44]
+    - [574, 9897.34]
   - - [1024, 33708, 1, 3942]
-    - [548, 10336.1]
+    - [566, 10336.0]
   - - [1024, 4096, 1, 3319]
-    - [556, 9912.45]
+    - [574, 9912.35]
   - - [4096, 1024, 1, 3860]
-    - [555, 9909.29]
+    - [573, 9909.19]
   - - [1024, 4096, 1, 3548]
-    - [548, 9924.21]
+    - [566, 9924.11]
   - - [4096, 1024, 1, 3977]
-    - [556, 9891.44]
+    - [574, 9891.34]
   - - [4096, 1024, 1, 3535]
-    - [555, 9867.84]
+    - [573, 9867.74]
   - - [1024, 4096, 1, 3541]
-    - [556, 9923.16]
+    - [574, 9923.06]
   - - [1024, 1024, 1, 3910]
-    - [553, 9080.4]
+    - [571, 9080.3]
   - - [1024, 33708, 1, 3584]
-    - [548, 10333.0]
+    - [566, 10332.9]
   - - [1024, 4096, 1, 3168]
-    - [549, 9926.27]
+    - [567, 9926.17]
   - - [1024, 4096, 1, 3448]
-    - [556, 9922.42]
+    - [574, 9922.32]
   - - [4096, 1024, 1, 3343]
-    - [555, 9857.23]
+    - [573, 9857.13]
   - - [64, 35, 1808, 35]
-    - [538, 3175.44]
+    - [556, 3175.34]
   - - [1024, 4096, 1, 3357]
-    - [549, 9902.41]
+    - [567, 9902.31]
   - - [64, 143, 432, 143]
-    - [539, 6489.7]
+    - [557, 6489.6]
   - - [4096, 1024, 1, 3510]
-    - [555, 9867.4]
+    - [573, 9867.3]
   - - [4096, 1024, 1, 3369]
-    - [555, 9863.44]
+    - [573, 9863.34]
   - - [64, 92, 688, 93]
-    - [526, 6188.3]
+    - [544, 6188.2]
   - - [4096, 1024, 1, 3379]
-    - [555, 9870.12]
+    - [573, 9870.02]
   - - [1024, 4096, 1, 3276]
-    - [555, 9904.77]
+    - [573, 9904.67]
   - - [1024, 4096, 1, 3363]
-    - [555, 9925.13]
+    - [573, 9925.03]
   - - [4096, 1024, 1, 3055]
-    - [555, 9831.92]
+    - [573, 9831.82]
   - - [1024, 4096, 1, 3524]
-    - [548, 9923.79]
+    - [566, 9923.69]
   - - [4096, 1024, 1, 3057]
-    - [555, 9852.87]
+    - [573, 9852.77]
   - - [1024, 33708, 1, 3720]
-    - [549, 10327.1]
+    - [567, 10327.0]
   - - [1024, 4096, 1, 3383]
-    - [548, 9919.39]
+    - [566, 9919.29]
   - - [1024, 4096, 1, 3522]
-    - [549, 9932.56]
+    - [567, 9932.46]
   - - [1024, 33708, 1, 3956]
-    - [548, 10333.8]
+    - [566, 10333.7]
   - - [1024, 4096, 1, 3481]
-    - [548, 9922.08]
+    - [566, 9921.98]
   - - [4096, 1024, 1, 3562]
-    - [556, 9874.86]
+    - [574, 9874.76]
   - - [4096, 1024, 1, 3299]
-    - [555, 9872.97]
+    - [573, 9872.87]
   - - [1024, 4096, 1, 3262]
-    - [549, 9924.83]
+    - [567, 9924.73]
   - - [1024, 4096, 1, 3840]
-    - [548, 9961.84]
+    - [566, 9961.74]
   - - [1024, 33708, 1, 4026]
-    - [548, 10334.3]
+    - [566, 10334.2]
   - - [4096, 1024, 1, 3168]
-    - [549, 9878.45]
+    - [567, 9878.35]
   - - [64, 101, 624, 101]
-    - [529, 5734.72]
+    - [547, 5734.62]
   - - [1024, 4096, 1, 3999]
-    - [548, 9947.1]
+    - [566, 9947.0]
   - - [1024, 4096, 1, 3549]
-    - [548, 9923.3]
+    - [566, 9923.2]
   - - [4096, 1024, 1, 3375]
-    - [555, 9868.89]
+    - [573, 9868.79]
   - - [1024, 4096, 1, 3496]
-    - [556, 9928.67]
+    - [574, 9928.57]
   - - [64, 29, 2176, 29]
-    - [525, 3290.02]
+    - [543, 3289.92]
   - - [1024, 4096, 1, 3190]
-    - [556, 9897.61]
+    - [574, 9897.51]
   - - [4096, 1024, 1, 3273]
-    - [556, 9853.65]
+    - [574, 9853.55]
   - - [1024, 4096, 1, 3406]
-    - [555, 9907.04]
+    - [573, 9906.94]
   - - [4096, 1024, 1, 4005]
-    - [548, 9907.97]
+    - [566, 9907.87]
   - - [4096, 1024, 1, 3555]
-    - [555, 9878.96]
+    - [573, 9878.86]
   - - [4096, 1024, 1, 2505]
-    - [555, 9785.1]
+    - [573, 9785.0]
   - - [1024, 4096, 1, 3460]
-    - [555, 9930.24]
+    - [573, 9930.14]
   - - [64, 17, 3632, 17]
-    - [526, 1917.27]
+    - [544, 1917.17]
   - - [1024, 4096, 1, 3579]
-    - [549, 9920.94]
+    - [567, 9920.84]
   - - [1024, 33708, 1, 4030]
-    - [549, 10327.7]
+    - [567, 10327.6]
   - - [1024, 4096, 1, 3510]
-    - [549, 9931.31]
+    - [567, 9931.21]
   - - [1024, 1024, 1, 3969]
-    - [546, 9020.83]
+    - [564, 9020.73]
   - - [1024, 4096, 1, 3282]
-    - [556, 9920.05]
+    - [574, 9919.95]
   - - [1024, 4096, 1, 3377]
-    - [548, 9927.34]
+    - [566, 9927.24]
   - - [1024, 4096, 1, 2935]
-    - [556, 9903.48]
+    - [574, 9903.38]
   - - [64, 41, 1552, 41]
-    - [526, 3740.48]
+    - [544, 3740.38]
   - - [1024, 4096, 1, 3498]
-    - [548, 9915.01]
+    - [566, 9914.91]
   - - [1024, 4096, 1, 3593]
-    - [555, 9925.64]
+    - [573, 9925.54]
   - - [1024, 1024, 1, 3948]
-    - [554, 9009.03]
+    - [572, 9008.93]
   - - [4096, 1024, 1, 3226]
-    - [556, 9854.75]
+    - [574, 9854.65]
   - - [1024, 4096, 1, 2499]
-    - [555, 9904.82]
+    - [573, 9904.72]
   - - [1024, 4096, 1, 3296]
-    - [548, 9926.89]
+    - [566, 9926.79]
   - - [1024, 4096, 1, 3455]
-    - [555, 9917.52]
+    - [573, 9917.42]
   - - [1024, 4096, 1, 3399]
-    - [549, 9919.7]
+    - [567, 9919.6]
   - - [1024, 4096, 1, 3205]
-    - [548, 9917.74]
+    - [566, 9917.64]
   - - [4096, 1024, 1, 4026]
-    - [556, 9897.81]
+    - [574, 9897.71]
   - - [1024, 4096, 1, 3484]
-    - [548, 9915.53]
+    - [566, 9915.43]
   - - [4096, 1024, 1, 3302]
-    - [556, 9862.8]
+    - [574, 9862.7]
   - - [1024, 4096, 1, 3485]
-    - [556, 9913.0]
+    - [574, 9912.9]
   - - [1024, 1024, 1, 3996]
-    - [554, 9008.77]
+    - [572, 9008.67]
   - - [1024, 4096, 1, 3126]
-    - [549, 9910.16]
+    - [567, 9910.06]
   - - [1024, 4096, 1, 4050]
-    - [548, 9951.21]
+    - [566, 9951.11]
   - - [4096, 1024, 1, 3235]
-    - [549, 9870.74]
+    - [567, 9870.64]
   - - [1024, 33708, 1, 3955]
-    - [548, 10336.1]
+    - [566, 10336.0]
   - - [1024, 4096, 1, 3342]
-    - [548, 9903.85]
+    - [566, 9903.75]
   - - [1024, 1024, 1, 3900]
-    - [553, 9082.92]
+    - [571, 9082.82]
   - - [1024, 4096, 1, 3397]
-    - [556, 9922.7]
+    - [574, 9922.6]
   - - [4096, 1024, 1, 3491]
-    - [556, 9880.75]
+    - [574, 9880.65]
   - - [1024, 4096, 1, 3503]
-    - [548, 9923.28]
+    - [566, 9923.18]
   - - [1024, 4096, 1, 3140]
-    - [549, 9908.41]
+    - [567, 9908.31]
   - - [4096, 1024, 1, 3121]
-    - [555, 9860.32]
+    - [573, 9860.22]
   - - [4096, 1024, 1, 3276]
-    - [555, 9854.19]
+    - [573, 9854.09]
   - - [1024, 4096, 1, 3321]
-    - [556, 9917.86]
+    - [574, 9917.76]
   - - [1024, 4096, 1, 3870]
-    - [556, 9931.07]
+    - [574, 9930.97]
   - - [4096, 1024, 1, 3475]
-    - [555, 9877.58]
+    - [573, 9877.48]
   - - [1024, 4096, 1, 2984]
-    - [555, 9895.59]
+    - [573, 9895.49]
   - - [4096, 1024, 1, 3363]
-    - [549, 9873.44]
+    - [567, 9873.34]
   - - [1024, 4096, 1, 3582]
-    - [555, 9920.87]
+    - [573, 9920.77]
   - - [4096, 1024, 1, 3509]
-    - [555, 9886.86]
+    - [573, 9886.76]
   - - [1024, 4096, 1, 3426]
-    - [548, 9928.86]
+    - [566, 9928.76]
   - - [4096, 1024, 1, 3136]
-    - [555, 9872.61]
+    - [573, 9872.51]
   - - [1024, 4096, 1, 3232]
-    - [556, 9926.29]
+    - [574, 9926.19]
   - - [4096, 1024, 1, 3103]
-    - [555, 9839.03]
+    - [573, 9838.93]
   - - [1024, 4096, 1, 3335]
-    - [549, 9913.37]
+    - [567, 9913.27]
   - - [1024, 4096, 1, 3900]
-    - [548, 9938.01]
+    - [566, 9937.91]
   - - [4096, 1024, 1, 3512]
-    - [549, 9877.26]
+    - [567, 9877.16]
   - - [4096, 1024, 1, 3222]
-    - [555, 9859.77]
+    - [573, 9859.67]
   - - [1024, 4096, 1, 3165]
-    - [555, 9899.71]
+    - [573, 9899.61]
   - - [4096, 1024, 1, 3408]
-    - [555, 9899.68]
+    - [573, 9899.58]
   - - [4096, 1024, 1, 3751]
-    - [555, 9891.49]
+    - [573, 9891.39]
   - - [1024, 4096, 1, 3318]
-    - [548, 9913.42]
+    - [566, 9913.32]
   - - [4096, 1024, 1, 3442]
-    - [556, 9880.21]
+    - [574, 9880.11]
   - - [1024, 4096, 1, 3413]
-    - [555, 9921.9]
+    - [573, 9921.8]
   - - [4096, 1024, 1, 3524]
-    - [555, 9879.22]
+    - [573, 9879.12]
   - - [1024, 4096, 1, 3976]
-    - [556, 9945.57]
+    - [574, 9945.47]
   - - [1024, 4096, 1, 3475]
-    - [556, 9932.51]
+    - [574, 9932.41]
   - - [1024, 4096, 1, 3534]
-    - [548, 9911.49]
+    - [566, 9911.39]
   - - [4096, 1024, 1, 3301]
-    - [555, 9872.75]
+    - [573, 9872.65]
   - - [4096, 1024, 1, 3248]
-    - [555, 9878.22]
+    - [573, 9878.12]
   - - [1024, 4096, 1, 2977]
-    - [549, 9899.93]
+    - [567, 9899.83]
   - - [4096, 1024, 1, 3346]
-    - [555, 9876.07]
+    - [573, 9875.97]
   - - [1024, 4096, 1, 3451]
-    - [548, 9920.16]
+    - [566, 9920.06]
   - - [1024, 4096, 1, 3257]
-    - [549, 9905.02]
+    - [567, 9904.92]
   - - [1024, 1024, 1, 3640]
-    - [547, 8983.39]
+    - [565, 8983.29]
   - - [1024, 4096, 1, 3356]
-    - [548, 9904.48]
+    - [566, 9904.38]
   - - [4096, 1024, 1, 3348]
-    - [556, 9872.53]
+    - [574, 9872.43]
   - - [4096, 1024, 1, 3335]
-    - [555, 9865.82]
+    - [573, 9865.72]
   - - [4096, 1024, 1, 3505]
-    - [555, 9888.88]
+    - [573, 9888.78]
   - - [1024, 4096, 1, 3490]
-    - [548, 9938.0]
+    - [566, 9937.9]
   - - [4096, 1024, 1, 3447]
-    - [555, 9865.39]
+    - [573, 9865.29]
   - - [1024, 4096, 1, 3267]
-    - [556, 9919.32]
+    - [574, 9919.22]
   - - [4096, 1024, 1, 3230]
-    - [555, 9853.2]
+    - [573, 9853.1]
   - - [4096, 1024, 1, 3455]
-    - [555, 9862.44]
+    - [573, 9862.34]
   - - [1024, 4096, 1, 3925]
-    - [548, 9945.64]
+    - [566, 9945.54]
   - - [1024, 4096, 1, 3362]
-    - [549, 9921.63]
+    - [567, 9921.53]
   - - [4096, 1024, 1, 3969]
-    - [556, 9911.98]
+    - [574, 9911.88]
   - - [4096, 1024, 1, 3527]
-    - [555, 9882.87]
+    - [573, 9882.77]
   - - [1024, 4096, 1, 3585]
-    - [549, 9946.52]
+    - [567, 9946.42]
   - - [4096, 1024, 1, 3063]
-    - [555, 9854.03]
+    - [573, 9853.93]
   - - [4096, 1024, 1, 3435]
-    - [555, 9867.13]
+    - [573, 9867.03]
   - - [4096, 1024, 1, 3366]
-    - [556, 9864.02]
+    - [574, 9863.92]
   - - [4096, 1024, 1, 3581]
-    - [548, 9868.57]
+    - [566, 9868.47]
   - - [1024, 33708, 1, 3906]
-    - [548, 10339.3]
+    - [566, 10339.2]
   - - [1024, 4096, 1, 3464]
-    - [556, 9916.21]
+    - [574, 9916.11]
   - - [1024, 4096, 1, 3440]
-    - [555, 9945.25]
+    - [573, 9945.15]
   - - [4096, 1024, 1, 3143]
-    - [555, 9846.76]
+    - [573, 9846.66]
   - - [1024, 4096, 1, 3349]
-    - [549, 9912.83]
+    - [567, 9912.73]
   - - [4096, 1024, 1, 3416]
-    - [555, 9885.13]
+    - [573, 9885.03]
   - - [4096, 1024, 1, 3365]
-    - [555, 9876.0]
+    - [573, 9875.9]
   - - [1024, 4096, 1, 3470]
-    - [556, 9914.98]
+    - [574, 9914.88]
   - - [4096, 1024, 1, 3287]
-    - [555, 9860.69]
+    - [573, 9860.59]
   - - [1024, 4096, 1, 3441]
-    - [556, 9928.98]
+    - [574, 9928.88]
   - - [4096, 1024, 1, 3224]
-    - [555, 9857.83]
+    - [573, 9857.73]
   - - [1024, 4096, 1, 3387]
-    - [548, 9911.72]
+    - [566, 9911.62]
   - - [1024, 4096, 1, 3547]
-    - [548, 9920.36]
+    - [566, 9920.26]
   - - [4096, 1024, 1, 3478]
-    - [549, 9882.9]
+    - [567, 9882.8]
   - - [4096, 1024, 1, 3548]
-    - [556, 9869.45]
+    - [574, 9869.35]
   - - [1024, 33708, 1, 4020]
-    - [548, 10345.3]
+    - [566, 10345.2]
   - - [4096, 1024, 1, 3320]
-    - [555, 9863.74]
+    - [573, 9863.64]
   - - [1024, 4096, 1, 3906]
-    - [555, 9942.67]
+    - [573, 9942.57]
   - - [4096, 1024, 1, 3796]
-    - [555, 9899.13]
+    - [573, 9899.03]
   - - [1024, 4096, 1, 3306]
-    - [548, 9902.4]
+    - [566, 9902.3]
   - - [1024, 4096, 1, 3401]
-    - [556, 9913.95]
+    - [574, 9913.85]
   - - [64, 147, 432, 147]
-    - [539, 6626.6]
+    - [557, 6626.5]
   - - [1024, 4096, 1, 3215]
-    - [556, 9911.24]
+    - [574, 9911.14]
   - - [4096, 1024, 1, 4012]
-    - [556, 9898.2]
+    - [574, 9898.1]
   - - [1024, 4096, 1, 2765]
-    - [556, 9863.73]
+    - [574, 9863.63]
   - - [4096, 1024, 1, 3554]
-    - [549, 9883.52]
+    - [567, 9883.42]
   - - [4096, 1024, 1, 3423]
-    - [555, 9866.72]
+    - [573, 9866.62]
   - - [1024, 1024, 1, 3751]
-    - [553, 9006.36]
+    - [571, 9006.26]
   - - [1024, 4096, 1, 3562]
-    - [549, 9922.08]
+    - [567, 9921.98]
   - - [1024, 4096, 1, 3489]
-    - [548, 9936.78]
+    - [566, 9936.68]
   - - [4096, 1024, 1, 3358]
-    - [555, 9858.22]
+    - [573, 9858.12]
   - - [4096, 1024, 1, 3270]
-    - [556, 9850.84]
+    - [574, 9850.74]
   - - [1024, 4096, 1, 3293]
-    - [548, 9905.33]
+    - [566, 9905.23]
   - - [1024, 4096, 1, 3376]
-    - [548, 9934.98]
+    - [566, 9934.88]
   - - [4096, 1024, 1, 3245]
-    - [555, 9852.52]
+    - [573, 9852.42]
   - - [4096, 1024, 1, 3541]
-    - [555, 9887.22]
+    - [573, 9887.12]
   - - [4096, 1024, 1, 3443]
-    - [555, 9871.73]
+    - [573, 9871.63]
   - - [4096, 1024, 1, 3438]
-    - [556, 9863.86]
+    - [574, 9863.76]
   - - [4096, 1024, 1, 3244]
-    - [555, 9859.76]
+    - [573, 9859.66]
   - - [1024, 4096, 1, 3365]
-    - [555, 9922.1]
+    - [573, 9922.0]
   - - [1024, 4096, 1, 3299]
-    - [549, 9923.38]
+    - [567, 9923.28]
   - - [4096, 1024, 1, 3840]
-    - [555, 9914.75]
+    - [573, 9914.65]
   - - [1024, 4096, 1, 3471]
-    - [556, 9918.38]
+    - [574, 9918.28]
   - - [1024, 4096, 1, 3398]
-    - [548, 9918.99]
+    - [566, 9918.89]
   - - [4096, 1024, 1, 3162]
-    - [555, 9843.93]
+    - [573, 9843.83]
   - - [1024, 4096, 1, 4005]
-    - [549, 9947.87]
+    - [567, 9947.77]
   - - [4096, 1024, 1, 3579]
-    - [555, 9868.25]
+    - [573, 9868.15]
   - - [64, 18, 3440, 18]
-    - [531, 2059.33]
+    - [549, 2059.23]
   - - [64, 177, 352, 177]
-    - [550, 7315.4]
+    - [568, 7315.3]
   - - [1024, 4096, 1, 3121]
-    - [556, 9930.34]
+    - [574, 9930.24]
   - - [4096, 1024, 1, 3441]
-    - [555, 9883.28]
+    - [573, 9883.18]
   - - [4096, 1024, 1, 3422]
-    - [555, 9858.41]
+    - [573, 9858.31]
   - - [4096, 1024, 1, 3444]
-    - [555, 9887.03]
+    - [573, 9886.93]
   - - [1024, 4096, 1, 3337]
-    - [549, 9911.45]
+    - [567, 9911.35]
   - - [4096, 1024, 1, 3550]
-    - [548, 9871.87]
+    - [566, 9871.77]
   - - [1024, 4096, 1, 3477]
-    - [548, 9930.65]
+    - [566, 9930.55]
   - - [4096, 1024, 1, 3490]
-    - [555, 9878.45]
+    - [573, 9878.35]
   - - [4096, 1024, 1, 3585]
-    - [555, 9893.63]
+    - [573, 9893.53]
   - - [1024, 4096, 1, 3143]
-    - [548, 9901.19]
+    - [566, 9901.09]
   - - [1024, 33708, 1, 3876]
-    - [549, 10330.8]
+    - [567, 10330.7]
   - - [1024, 4096, 1, 3320]
-    - [556, 9913.18]
+    - [574, 9913.08]
   - - [1024, 4096, 1, 3423]
-    - [556, 9914.14]
+    - [574, 9914.04]
   - - [1024, 4096, 1, 3894]
-    - [548, 9944.47]
+    - [566, 9944.37]
   - - [4096, 1024, 1, 3410]
-    - [555, 9878.67]
+    - [573, 9878.57]
   - - [1024, 4096, 1, 3561]
-    - [548, 9926.68]
+    - [566, 9926.58]
   - - [4096, 1024, 1, 3492]
-    - [549, 9872.92]
+    - [567, 9872.82]
   - - [64, 85, 752, 85]
-    - [526, 5734.35]
+    - [544, 5734.25]
   - - [36548, 1024, 1, 3712]
-    - [558, 10367.6]
+    - [576, 10367.5]
   - - [4096, 2048, 1, 128]
-    - [559, 8743.93]
+    - [577, 8743.83]
   - - [1024, 1024, 1, 3712]
-    - [560, 9976.29]
+    - [578, 9976.19]
   - - [1024, 1024, 1, 128]
-    - [557, 5765.47]
+    - [575, 5765.37]
   - - [4096, 3072, 1, 128]
-    - [559, 8869.11]
+    - [577, 8869.01]
   - - [768, 3072, 1, 4096]
-    - [571, 10028.8]
+    - [589, 10028.7]
   - - [64, 256, 192, 256]
-    - [565, 8791.65]
+    - [583, 8791.55]
   - - [768, 2, 1, 16]
-    - [568, 5.05484]
+    - [586, 4.95484]
   - - [768, 768, 1, 64]
-    - [564, 3469.65]
+    - [582, 3469.55]
   - - [768, 768, 1, 4096]
-    - [572, 7475.1]
+    - [590, 7475.0]
   - - [768, 30522, 1, 1280]
-    - [575, 10297.0]
+    - [593, 10296.9]
   - - [64, 128, 384, 128]
-    - [565, 7660.93]
+    - [583, 7660.83]
   - - [768, 30522, 1, 320]
-    - [573, 10008.0]
+    - [591, 10007.9]
   - - [768, 768, 1, 32]
-    - [562, 2359.4]
+    - [580, 2359.3]
   - - [3072, 768, 1, 4096]
-    - [571, 10033.8]
+    - [589, 10033.7]
   - - [768, 30522, 1, 640]
-    - [574, 10206.8]
+    - [592, 10206.7]
   - - [64, 64, 768, 64]
-    - [563, 5494.82]
+    - [581, 5494.72]
   - - [768, 768, 1, 640]
-    - [572, 6721.74]
+    - [590, 6721.64]
   - - [768, 768, 1, 16]
-    - [561, 1203.82]
+    - [579, 1203.72]
   - - [768, 768, 1, 1280]
-    - [570, 7138.67]
+    - [588, 7138.57]
   - - [768, 2, 1, 32]
-    - [566, 11.9154]
+    - [584, 11.8154]
   - - [2048, 2048, 1, 512]
-    - [586, 9607.67]
+    - [604, 9607.57]
   - - [512, 32, 1, 200]
-    - [579, 422.368]
+    - [597, 422.268]
   - - [1024, 1, 1, 200]
-    - [582, 24.7154]
+    - [600, 24.6154]
   - - [1600, 1024, 1, 512]
-    - [577, 8116.01]
+    - [595, 8115.91]
   - - [560, 1024, 1, 200]
-    - [576, 4810.84]
+    - [594, 4810.74]
   - - [1024, 1024, 1, 512]
-    - [585, 8614.84]
+    - [603, 8614.74]
   - - [2048, 1, 1, 512]
-    - [580, 81.0086]
+    - [598, 80.9086]
   - - [512, 512, 1, 200]
-    - [578, 4398.49]
+    - [596, 4398.39]
   - - [100, 2048, 1, 512]
-    - [583, 4443.22]
+    - [601, 4443.12]
   - - [1024, 1024, 1, 200]
-    - [584, 6990.61]
+    - [602, 6990.51]
   - - [1024, 64, 1, 512]
-    - [581, 2853.37]
+    - [599, 2853.27]
   - - [1024, 256, 1, 18944]
-    - [605, 9196.51]
+    - [623, 9196.41]
   - - [256, 3328, 1, 8976]
-    - [595, 8299.36]
+    - [613, 8299.26]
   - - [1024, 256, 1, 4352]
-    - [603, 8813.84]
+    - [621, 8813.74]
   - - [256, 9728, 1, 8976]
-    - [598, 9638.58]
+    - [616, 9638.48]
   - - [1024, 256, 1, 3072]
-    - [605, 8640.73]
+    - [623, 8640.63]
   - - [768, 2048, 1, 256]
-    - [597, 8663.03]
+    - [615, 8662.93]
   - - [1024, 256, 1, 19968]
-    - [602, 9220.96]
+    - [620, 9220.86]
   - - [256, 12800, 1, 8976]
-    - [592, 9418.52]
+    - [610, 9418.42]
   - - [1024, 256, 1, 3328]
-    - [606, 8682.58]
+    - [624, 8682.48]
   - - [256, 10240, 1, 8976]
-    - [599, 10137.8]
+    - [617, 10137.7]
   - - [1024, 256, 1, 15104]
-    - [604, 9167.13]
+    - [622, 9167.03]
   - - [256, 10496, 1, 8976]
-    - [592, 9858.48]
+    - [610, 9858.38]
   - - [1024, 256, 1, 2816]
-    - [607, 8575.81]
+    - [625, 8575.71]
   - - [1024, 256, 1, 4608]
-    - [602, 8861.31]
+    - [620, 8861.21]
   - - [256, 11264, 1, 8976]
-    - [589, 9627.79]
+    - [607, 9627.69]
   - - [1024, 256, 1, 6400]
-    - [602, 8985.33]
+    - [620, 8985.23]
   - - [1024, 256, 1, 16128]
-    - [602, 9170.36]
+    - [620, 9170.26]
   - - [256, 44505, 1, 8976]
-    - [596, 10331.9]
+    - [614, 10331.8]
   - - [256, 6144, 1, 8976]
-    - [599, 10395.1]
+    - [617, 10395.0]
   - - [1024, 256, 1, 5120]
-    - [604, 8881.63]
+    - [622, 8881.53]
   - - [1024, 256, 1, 7936]
-    - [607, 9023.24]
+    - [625, 9023.14]
   - - [256, 3840, 1, 8976]
-    - [594, 9541.38]
+    - [612, 9541.28]
   - - [1024, 256, 1, 21248]
-    - [602, 9209.82]
+    - [620, 9209.72]
   - - [1024, 256, 1, 12032]
-    - [604, 9156.27]
+    - [622, 9156.17]
   - - [256, 8192, 1, 8976]
-    - [601, 10374.5]
+    - [619, 10374.4]
   - - [1024, 256, 1, 3584]
-    - [603, 8712.3]
+    - [621, 8712.2]
   - - [1024, 256, 1, 14336]
-    - [604, 9162.61]
+    - [622, 9162.51]
   - - [256, 7168, 1, 8976]
-    - [590, 9554.96]
+    - [608, 9554.86]
   - - [1024, 256, 1, 13568]
-    - [602, 9165.14]
+    - [620, 9165.04]
   - - [256, 4096, 1, 8976]
-    - [594, 10146.7]
+    - [612, 10146.6]
   - - [1024, 256, 1, 4096]
-    - [603, 8783.98]
+    - [621, 8783.88]
   - - [256, 2560, 1, 8976]
-    - [593, 8381.66]
+    - [611, 8381.56]
   - - [256, 20992, 1, 8976]
-    - [592, 9989.96]
+    - [610, 9989.86]
   - - [256, 4352, 1, 8976]
-    - [593, 9635.02]
+    - [611, 9634.92]
   - - [256, 33536, 1, 8976]
-    - [592, 10218.2]
+    - [610, 10218.1]
   - - [256, 3584, 1, 8976]
-    - [594, 8924.6]
+    - [612, 8924.5]
   - - [256, 26112, 1, 8976]
-    - [593, 10272.4]
+    - [611, 10272.3]
   - - [256, 14336, 1, 8976]
-    - [597, 10217.4]
+    - [615, 10217.3]
   - - [1024, 256, 1, 14848]
-    - [604, 9185.29]
+    - [622, 9185.19]
   - - [1024, 256, 1, 8448]
-    - [605, 9025.99]
+    - [623, 9025.89]
   - - [1024, 256, 1, 28672]
-    - [602, 9256.5]
+    - [620, 9256.4]
   - - [1024, 256, 1, 5632]
-    - [602, 8932.79]
+    - [620, 8932.69]
   - - [256, 22016, 1, 8976]
-    - [597, 10152.0]
+    - [615, 10151.9]
   - - [1024, 256, 1, 33536]
-    - [602, 9243.17]
+    - [620, 9243.07]
   - - [256, 5120, 1, 8976]
-    - [588, 9418.15]
+    - [606, 9418.05]
   - - [256, 11520, 1, 8976]
-    - [595, 9701.1]
+    - [613, 9701.0]
   - - [256, 19968, 1, 8976]
-    - [593, 10228.1]
+    - [611, 10228.0]
   - - [1024, 256, 1, 5376]
-    - [604, 8892.62]
+    - [622, 8892.52]
   - - [1024, 256, 1, 22016]
-    - [602, 9244.34]
+    - [620, 9244.24]
   - - [256, 8960, 1, 8976]
-    - [593, 9841.41]
+    - [611, 9841.31]
   - - [1024, 256, 1, 15872]
-    - [602, 9223.25]
+    - [620, 9223.15]
   - - [256, 17408, 1, 8976]
-    - [597, 9785.87]
+    - [615, 9785.77]
   - - [256, 5632, 1, 8976]
-    - [597, 9564.32]
+    - [615, 9564.22]
   - - [256, 32512, 1, 8976]
-    - [596, 10358.0]
+    - [614, 10357.9]
   - - [256, 11008, 1, 8976]
-    - [589, 9445.23]
+    - [607, 9445.13]
   - - [1024, 256, 1, 6144]
-    - [604, 8955.91]
+    - [622, 8955.81]
   - - [256, 4864, 1, 8976]
-    - [589, 8979.45]
+    - [607, 8979.35]
   - - [256, 15104, 1, 8976]
-    - [592, 10007.1]
+    - [610, 10007.0]
   - - [1024, 256, 1, 9984]
-    - [602, 9110.53]
+    - [620, 9110.43]
   - - [256, 1280, 1, 8976]
-    - [588, 5944.44]
+    - [606, 5944.34]
   - - [1024, 256, 1, 1024]
-    - [604, 7005.2]
+    - [622, 7005.1]
   - - [1024, 256, 1, 9728]
-    - [604, 9066.29]
+    - [622, 9066.19]
   - - [1024, 256, 1, 10496]
-    - [602, 9118.15]
+    - [620, 9118.05]
   - - [256, 11776, 1, 8976]
-    - [599, 9911.74]
+    - [617, 9911.64]
   - - [256, 12544, 1, 8976]
-    - [592, 9235.35]
+    - [610, 9235.25]
   - - [1024, 256, 1, 17152]
-    - [602, 9152.31]
+    - [620, 9152.21]
   - - [1024, 256, 1, 11520]
-    - [604, 9146.87]
+    - [622, 9146.77]
   - - [1024, 256, 1, 21504]
-    - [604, 9207.52]
+    - [622, 9207.42]
   - - [256, 17152, 1, 8976]
-    - [591, 9654.81]
+    - [609, 9654.71]
   - - [1024, 256, 1, 17408]
-    - [602, 9181.27]
+    - [620, 9181.17]
   - - [256, 15872, 1, 8976]
-    - [600, 10086.5]
+    - [618, 10086.4]
   - - [256, 18688, 1, 8976]
-    - [593, 9612.57]
+    - [611, 9612.47]
   - - [256, 5888, 1, 8976]
-    - [597, 9988.43]
+    - [615, 9988.33]
   - - [512, 2048, 1, 256]
-    - [587, 7678.46]
+    - [605, 7678.36]
   - - [1024, 256, 1, 7680]
-    - [605, 9033.06]
+    - [623, 9032.96]
   - - [1024, 256, 1, 1280]
-    - [607, 7767.33]
+    - [625, 7767.23]
   - - [256, 14848, 1, 8976]
-    - [593, 9852.76]
+    - [611, 9852.66]
   - - [256, 9984, 1, 8976]
-    - [599, 9908.97]
+    - [617, 9908.87]
   - - [256, 20480, 1, 8976]
-    - [597, 10337.2]
+    - [615, 10337.1]
   - - [1024, 256, 1, 8192]
-    - [604, 9044.42]
+    - [622, 9044.32]
   - - [1024, 256, 1, 19712]
-    - [603, 9184.28]
+    - [621, 9184.18]
   - - [256, 13568, 1, 8976]
-    - [593, 9927.92]
+    - [611, 9927.82]
   - - [256, 13312, 1, 8976]
-    - [592, 9758.01]
+    - [610, 9757.91]
   - - [256, 2816, 1, 8976]
-    - [592, 9191.53]
+    - [610, 9191.43]
   - - [1024, 256, 1, 2304]
-    - [603, 8445.01]
+    - [621, 8444.91]
   - - [256, 21248, 1, 8976]
-    - [593, 10127.6]
+    - [611, 10127.5]
   - - [256, 16128, 1, 8976]
-    - [601, 10238.5]
+    - [619, 10238.4]
   - - [256, 512, 36, 98]
-    - [624, 7994.95]
+    - [642, 7994.85]
   - - [64, 192, 36, 25088]
-    - [693, 8613.99]
+    - [711, 8613.89]
   - - [128, 128, 64, 25]
-    - [623, 2540.25]
+    - [641, 2540.15]
   - - [256, 256, 64, 56]
-    - [624, 6924.66]
+    - [642, 6924.56]
   - - [512, 486, 36, 800]
-    - [631, 8994.94]
+    - [649, 8994.84]
   - - [512, 512, 36, 1568]
-    - [642, 9872.48]
+    - [660, 9872.38]
   - - [64, 192, 64, 3200]
-    - [687, 9295.99]
+    - [705, 9295.89]
   - - [256, 384, 36, 4096]
-    - [687, 9334.71]
+    - [705, 9334.61]
   - - [128, 256, 64, 32]
-    - [626, 4280.0]
+    - [644, 4279.9]
   - - [64, 128, 64, 23104]
-    - [693, 10103.2]
+    - [711, 10103.1]
   - - [128, 256, 64, 9]
-    - [617, 1709.73]
+    - [635, 1709.63]
   - - [256, 512, 36, 784]
-    - [627, 9520.83]
+    - [645, 9520.73]
   - - [256, 324, 36, 32]
-    - [665, 4473.48]
+    - [683, 4473.38]
   - - [512, 512, 36, 33]
-    - [636, 5925.27]
+    - [654, 5925.17]
   - - [16, 32, 36, 5760]
-    - [640, 1448.9]
+    - [658, 1448.8]
   - - [192, 384, 64, 128]
-    - [687, 8618.53]
+    - [705, 8618.43]
   - - [512, 512, 64, 72]
-    - [643, 8260.22]
+    - [661, 8260.12]
   - - [128, 128, 64, 1600]
-    - [616, 9008.48]
+    - [634, 9008.38]
   - - [512, 512, 36, 128]
-    - [687, 8871.72]
+    - [705, 8871.62]
   - - [192, 384, 64, 2304]
-    - [616, 9657.26]
+    - [634, 9657.16]
   - - [384, 256, 64, 450]
-    - [652, 9539.03]
+    - [670, 9538.93]
   - - [3, 64, 36, 6272]
-    - [640, 509.884]
+    - [658, 509.784]
   - - [3, 64, 64, 2888]
-    - [669, 708.721]
+    - [687, 708.621]
   - - [384, 256, 64, 2304]
-    - [652, 10287.6]
+    - [670, 10287.5]
   - - [512, 512, 64, 144]
-    - [687, 9226.8]
+    - [705, 9226.7]
   - - [256, 256, 36, 6272]
-    - [627, 9607.38]
+    - [645, 9607.28]
   - - [80, 192, 64, 4608]
-    - [688, 7348.03]
+    - [706, 7347.93]
   - - [64, 64, 36, 3136]
-    - [675, 5959.15]
+    - [693, 5959.05]
   - - [256, 384, 64, 2304]
-    - [652, 10283.5]
+    - [670, 10283.4]
   - - [512, 512, 36, 66]
-    - [636, 7618.18]
+    - [654, 7618.08]
   - - [128, 256, 64, 800]
-    - [662, 9611.25]
+    - [680, 9611.15]
   - - [64, 128, 36, 30]
-    - [618, 1242.71]
+    - [636, 1242.61]
   - - [192, 256, 36, 512]
-    - [687, 8658.07]
+    - [705, 8657.97]
   - - [256, 512, 64, 200]
-    - [687, 9153.97]
+    - [705, 9153.87]
   - - [256, 512, 64, 25]
-    - [665, 5349.98]
+    - [683, 5349.88]
   - - [3, 64, 64, 46208]
-    - [668, 808.662]
+    - [686, 808.562]
   - - [128, 256, 36, 1568]
-    - [660, 8528.72]
+    - [678, 8528.62]
   - - [64, 128, 64, 11552]
-    - [693, 9997.1]
+    - [711, 9997.0]
   - - [128, 192, 64, 946]
-    - [687, 9198.48]
+    - [705, 9198.38]
   - - [64, 192, 64, 12800]
-    - [648, 9000.76]
+    - [666, 9000.66]
   - - [224, 224, 64, 128]
-    - [625, 6312.17]
+    - [643, 6312.07]
   - - [128, 256, 64, 288]
-    - [687, 8697.97]
+    - [705, 8697.87]
   - - [64, 64, 64, 826]
-    - [630, 6650.31]
+    - [648, 6650.21]
   - - [256, 384, 64, 1152]
-    - [662, 10106.9]
+    - [680, 10106.8]
   - - [3, 64, 64, 92416]
-    - [668, 812.131]
+    - [686, 812.031]
   - - [32, 32, 36, 43808]
-    - [609, 2813.19]
+    - [627, 2813.09]
   - - [160, 320, 64, 288]
-    - [619, 8090.96]
+    - [637, 8090.86]
   - - [1, 16, 36, 23040]
-    - [656, 42.7667]
+    - [674, 42.6667]
   - - [128, 256, 36, 128]
-    - [634, 6049.58]
+    - [652, 6049.48]
   - - [128, 128, 64, 3360]
-    - [687, 9200.06]
+    - [705, 9199.96]
   - - [128, 128, 64, 420]
-    - [687, 8131.6]
+    - [705, 8131.5]
   - - [64, 128, 64, 361]
-    - [624, 6938.08]
+    - [642, 6937.98]
   - - [512, 512, 36, 16]
-    - [680, 3797.76]
+    - [698, 3797.66]
   - - [384, 256, 36, 800]
-    - [621, 9151.75]
+    - [639, 9151.65]
   - - [192, 384, 36, 4096]
-    - [621, 8867.67]
+    - [639, 8867.57]
   - - [64, 64, 64, 1600]
-    - [673, 7931.84]
+    - [691, 7931.74]
   - - [256, 384, 64, 576]
-    - [653, 9745.9]
+    - [671, 9745.8]
   - - [512, 512, 64, 14]
-    - [636, 3638.28]
+    - [654, 3638.18]
   - - [512, 512, 36, 8]
-    - [611, 2279.61]
+    - [629, 2279.51]
   - - [512, 486, 64, 128]
-    - [627, 8337.93]
+    - [645, 8337.83]
   - - [1, 16, 64, 640]
-    - [661, 50.0512]
+    - [679, 49.9512]
   - - [64, 96, 64, 288]
-    - [686, 5708.07]
+    - [704, 5707.97]
   - - [96, 96, 36, 1568]
-    - [655, 6866.85]
+    - [673, 6866.75]
   - - [256, 256, 36, 128]
-    - [659, 7703.92]
+    - [677, 7703.82]
   - - [64, 128, 36, 53824]
-    - [647, 6331.41]
+    - [665, 6331.31]
   - - [256, 256, 36, 32]
-    - [643, 4648.96]
+    - [661, 4648.86]
   - - [192, 256, 64, 288]
-    - [687, 8987.89]
+    - [705, 8987.79]
   - - [256, 256, 36, 16]
-    - [657, 2912.81]
+    - [675, 2912.71]
   - - [128, 256, 36, 3200]
-    - [660, 8680.37]
+    - [678, 8680.27]
   - - [160, 320, 64, 512]
-    - [619, 8449.54]
+    - [637, 8449.44]
   - - [128, 160, 36, 512]
-    - [630, 7215.07]
+    - [648, 7214.97]
   - - [96, 96, 36, 2592]
-    - [625, 7104.89]
+    - [643, 7104.79]
   - - [64, 96, 64, 800]
-    - [655, 7268.42]
+    - [673, 7268.32]
   - - [147, 64, 36, 18816]
-    - [671, 7116.36]
+    - [689, 7116.26]
   - - [160, 320, 36, 512]
-    - [625, 7874.92]
+    - [643, 7874.82]
   - - [256, 512, 36, 4]
-    - [664, 1034.88]
+    - [682, 1034.78]
   - - [96, 128, 64, 946]
-    - [647, 7901.17]
+    - [665, 7901.07]
   - - [256, 324, 64, 1568]
-    - [652, 8589.63]
+    - [670, 8589.53]
   - - [128, 128, 64, 50]
-    - [643, 4070.66]
+    - [661, 4070.56]
   - - [35, 96, 36, 8960]
-    - [637, 4207.4]
+    - [655, 4207.3]
   - - [32, 64, 36, 43808]
-    - [678, 4390.91]
+    - [696, 4390.81]
   - - [160, 224, 36, 128]
-    - [625, 5447.02]
+    - [643, 5446.92]
   - - [64, 64, 64, 81]
-    - [650, 2391.28]
+    - [668, 2391.18]
   - - [256, 256, 36, 3200]
-    - [616, 9559.65]
+    - [634, 9559.55]
   - - [256, 256, 36, 210]
-    - [627, 8414.71]
+    - [645, 8414.61]
   - - [192, 384, 64, 576]
-    - [687, 9468.85]
+    - [705, 9468.75]
   - - [512, 512, 64, 800]
-    - [662, 10096.5]
+    - [680, 10096.4]
   - - [512, 24, 36, 800]
-    - [613, 4761.87]
+    - [631, 4761.77]
   - - [64, 64, 64, 13216]
-    - [674, 8491.51]
+    - [692, 8491.41]
   - - [192, 224, 64, 1152]
-    - [630, 8769.16]
+    - [648, 8769.06]
   - - [256, 256, 64, 1152]
-    - [652, 9988.19]
+    - [670, 9988.09]
   - - [512, 486, 64, 512]
-    - [662, 9254.77]
+    - [680, 9254.67]
   - - [128, 128, 36, 784]
-    - [625, 7468.16]
+    - [643, 7468.06]
   - - [256, 512, 64, 1600]
-    - [649, 10232.6]
+    - [667, 10232.5]
   - - [512, 512, 64, 9]
-    - [643, 2599.88]
+    - [661, 2599.78]
   - - [96, 128, 64, 288]
-    - [655, 6599.53]
+    - [673, 6599.43]
   - - [64, 96, 36, 512]
-    - [655, 5073.85]
+    - [673, 5073.75]
   - - [256, 512, 36, 1568]
-    - [687, 9637.91]
+    - [705, 9637.81]
   - - [128, 128, 64, 400]
-    - [687, 8192.1]
+    - [705, 8192.0]
   - - [128, 128, 64, 800]
-    - [687, 8716.44]
+    - [705, 8716.34]
   - - [96, 128, 36, 512]
-    - [675, 6757.03]
+    - [693, 6756.93]
   - - [16, 32, 36, 360]
-    - [638, 754.136]
+    - [656, 754.036]
   - - [128, 256, 64, 3200]
-    - [652, 10222.6]
+    - [670, 10222.5]
   - - [96, 128, 64, 800]
-    - [655, 7968.0]
+    - [673, 7967.9]
   - - [256, 512, 64, 4]
-    - [617, 1098.09]
+    - [635, 1097.99]
   - - [256, 256, 64, 450]
-    - [662, 9347.55]
+    - [680, 9347.45]
   - - [64, 64, 64, 3200]
-    - [673, 8518.18]
+    - [691, 8518.08]
   - - [192, 224, 64, 128]
-    - [633, 7035.27]
+    - [651, 7035.17]
   - - [128, 128, 64, 288]
-    - [687, 7751.38]
+    - [705, 7751.28]
   - - [256, 256, 64, 72]
-    - [643, 7489.93]
+    - [661, 7489.83]
   - - [96, 208, 36, 512]
-    - [655, 6939.21]
+    - [673, 6939.11]
   - - [128, 256, 36, 3136]
-    - [630, 8669.43]
+    - [648, 8669.33]
   - - [64, 64, 36, 3520]
-    - [625, 6007.57]
+    - [643, 6007.47]
   - - [64, 128, 36, 1568]
-    - [688, 6897.8]
+    - [706, 6897.7]
   - - [160, 320, 64, 242]
-    - [614, 7873.27]
+    - [632, 7873.17]
   - - [192, 192, 36, 512]
-    - [625, 7707.42]
+    - [643, 7707.32]
   - - [512, 512, 36, 512]
-    - [687, 9582.52]
+    - [705, 9582.42]
   - - [1, 16, 64, 10240]
-    - [639, 71.4511]
+    - [657, 71.3511]
   - - [128, 128, 36, 512]
-    - [625, 7149.48]
+    - [643, 7149.38]
   - - [512, 512, 36, 256]
-    - [616, 9384.5]
+    - [634, 9384.4]
   - - [512, 512, 36, 1024]
-    - [610, 9777.99]
+    - [628, 9777.89]
   - - [96, 208, 64, 1152]
-    - [688, 7851.0]
+    - [706, 7850.9]
   - - [128, 192, 64, 3200]
-    - [616, 9490.92]
+    - [634, 9490.82]
   - - [256, 256, 36, 4096]
-    - [621, 9585.56]
+    - [639, 9585.46]
   - - [160, 160, 64, 288]
-    - [655, 7299.9]
+    - [673, 7299.8]
   - - [256, 256, 64, 896]
-    - [652, 9850.43]
+    - [670, 9850.33]
   - - [128, 256, 64, 242]
-    - [687, 8391.48]
+    - [705, 8391.38]
   - - [128, 128, 36, 440]
-    - [630, 6274.82]
+    - [648, 6274.72]
   - - [96, 128, 36, 1568]
-    - [675, 7875.13]
+    - [693, 7875.03]
   - - [192, 384, 36, 1024]
-    - [621, 8715.82]
+    - [639, 8715.72]
   - - [64, 96, 36, 10368]
-    - [692, 7478.69]
+    - [710, 7478.59]
   - - [128, 256, 64, 100]
-    - [636, 7085.07]
+    - [654, 7084.97]
   - - [112, 224, 36, 2048]
-    - [629, 7556.02]
+    - [647, 7555.92]
   - - [384, 256, 64, 1152]
-    - [652, 10102.4]
+    - [670, 10102.3]
   - - [192, 384, 36, 128]
-    - [687, 7543.14]
+    - [705, 7543.04]
   - - [128, 128, 36, 7040]
-    - [660, 7600.7]
+    - [678, 7600.6]
   - - [128, 256, 64, 1568]
-    - [652, 10006.0]
+    - [670, 10005.9]
   - - [128, 128, 36, 1568]
-    - [644, 7848.4]
+    - [662, 7848.3]
   - - [128, 256, 64, 72]
-    - [667, 6553.7]
+    - [685, 6553.6]
   - - [256, 256, 36, 12544]
-    - [681, 9365.14]
+    - [699, 9365.04]
   - - [256, 256, 36, 105]
-    - [643, 7286.16]
+    - [661, 7286.06]
   - - [128, 256, 36, 392]
-    - [630, 7625.79]
+    - [648, 7625.69]
   - - [64, 64, 64, 5408]
-    - [673, 8882.77]
+    - [691, 8882.67]
   - - [3, 64, 36, 25088]
-    - [640, 529.042]
+    - [658, 528.942]
   - - [384, 256, 36, 1024]
-    - [687, 9182.85]
+    - [705, 9182.75]
   - - [35, 96, 36, 13440]
-    - [694, 4110.39]
+    - [712, 4110.29]
   - - [128, 256, 64, 1152]
-    - [652, 9804.97]
+    - [670, 9804.87]
   - - [256, 324, 64, 32]
-    - [665, 5043.73]
+    - [683, 5043.63]
   - - [160, 224, 64, 128]
-    - [679, 6046.25]
+    - [697, 6046.15]
   - - [192, 224, 36, 2592]
-    - [677, 8878.78]
+    - [695, 8878.68]
   - - [96, 96, 64, 1152]
-    - [655, 8035.55]
+    - [673, 8035.45]
   - - [32, 64, 36, 90]
-    - [612, 964.565]
+    - [630, 964.465]
   - - [64, 128, 64, 2888]
-    - [627, 9047.33]
+    - [645, 9047.23]
   - - [256, 384, 36, 800]
-    - [687, 9154.12]
+    - [705, 9154.02]
   - - [512, 512, 64, 4]
-    - [684, 1233.72]
+    - [702, 1233.62]
   - - [192, 320, 36, 128]
-    - [624, 7388.29]
+    - [642, 7388.19]
   - - [64, 128, 36, 480]
-    - [688, 5653.37]
+    - [706, 5653.27]
   - - [192, 384, 64, 242]
-    - [687, 9080.09]
+    - [705, 9079.99]
   - - [256, 486, 64, 32]
-    - [680, 5909.28]
+    - [698, 5909.18]
   - - [147, 64, 64, 9702]
-    - [689, 7319.79]
+    - [707, 7319.69]
   - - [512, 512, 64, 64]
-    - [623, 8179.12]
+    - [641, 8179.02]
   - - [64, 192, 64, 3698]
-    - [616, 9287.99]
+    - [634, 9287.89]
   - - [73, 192, 64, 10439]
-    - [647, 6668.12]
+    - [665, 6668.02]
   - - [1, 16, 36, 1440]
-    - [663, 33.5452]
+    - [681, 33.4452]
   - - [128, 256, 36, 512]
-    - [630, 7989.25]
+    - [648, 7989.15]
   - - [512, 512, 64, 576]
-    - [662, 9951.99]
+    - [680, 9951.89]
   - - [64, 64, 36, 12544]
-    - [678, 5872.87]
+    - [696, 5872.77]
   - - [128, 128, 36, 880]
-    - [675, 7597.36]
+    - [693, 7597.26]
   - - [192, 224, 36, 128]
-    - [633, 6451.3]
+    - [651, 6451.2]
   - - [64, 64, 64, 800]
-    - [673, 6916.83]
+    - [691, 6916.73]
   - - [64, 128, 36, 12544]
-    - [651, 6395.98]
+    - [669, 6395.88]
   - - [64, 64, 36, 1568]
-    - [625, 5536.76]
+    - [643, 5536.66]
   - - [160, 160, 36, 512]
-    - [625, 7345.36]
+    - [643, 7345.26]
   - - [512, 24, 64, 512]
-    - [615, 5242.98]
+    - [633, 5242.88]
   - - [3, 64, 36, 3136]
-    - [640, 475.452]
+    - [658, 475.352]
   - - [256, 256, 64, 9]
-    - [665, 2106.61]
+    - [683, 2106.51]
   - - [3, 64, 64, 11552]
-    - [668, 785.227]
+    - [686, 785.127]
   - - [128, 256, 36, 12544]
-    - [683, 8792.23]
+    - [701, 8792.13]
   - - [128, 128, 36, 3136]
-    - [644, 8098.56]
+    - [662, 8098.46]
   - - [256, 512, 36, 3136]
-    - [627, 9694.49]
+    - [645, 9694.39]
   - - [64, 64, 36, 196]
-    - [641, 2757.86]
+    - [659, 2757.76]
   - - [144, 288, 36, 512]
-    - [675, 7077.99]
+    - [693, 7077.89]
   - - [256, 24, 64, 32]
-    - [654, 1483.93]
+    - [672, 1483.83]
   - - [384, 384, 36, 800]
-    - [616, 9246.6]
+    - [634, 9246.5]
   - - [512, 512, 64, 1600]
-    - [662, 10277.4]
+    - [680, 10277.3]
   - - [112, 224, 36, 512]
-    - [630, 6744.88]
+    - [648, 6744.78]
   - - [128, 128, 36, 49]
-    - [636, 2716.39]
+    - [654, 2716.29]
   - - [512, 512, 36, 4]
-    - [664, 1156.62]
+    - [682, 1156.52]
   - - [35, 96, 64, 4235]
-    - [625, 4631.38]
+    - [643, 4631.28]
   - - [192, 384, 64, 450]
-    - [616, 9372.3]
+    - [634, 9372.2]
   - - [256, 256, 36, 1024]
-    - [687, 9346.74]
+    - [705, 9346.64]
   - - [112, 224, 64, 1152]
-    - [630, 7524.05]
+    - [648, 7523.95]
   - - [256, 512, 64, 400]
-    - [649, 9598.05]
+    - [667, 9597.95]
   - - [149, 32, 36, 19072]
-    - [694, 5811.9]
+    - [712, 5811.8]
   - - [128, 256, 36, 6272]
-    - [630, 8754.78]
+    - [648, 8754.68]
   - - [128, 192, 36, 1568]
-    - [655, 8195.2]
+    - [673, 8195.1]
   - - [256, 256, 36, 512]
-    - [687, 9074.32]
+    - [705, 9074.22]
   - - [256, 256, 64, 112]
-    - [687, 8305.65]
+    - [705, 8305.55]
   - - [512, 512, 64, 18]
-    - [680, 4324.12]
+    - [698, 4324.02]
   - - [256, 256, 64, 18]
-    - [643, 3547.91]
+    - [661, 3547.81]
   - - [256, 256, 64, 1568]
-    - [652, 10141.8]
+    - [670, 10141.7]
   - - [64, 96, 36, 1568]
-    - [673, 6805.76]
+    - [691, 6805.66]
   - - [384, 256, 36, 4096]
-    - [687, 9311.2]
+    - [705, 9311.1]
   - - [256, 512, 64, 800]
-    - [662, 9998.45]
+    - [680, 9998.35]
   - - [256, 384, 36, 2048]
-    - [687, 9285.44]
+    - [705, 9285.34]
   - - [3, 64, 36, 200704]
-    - [669, 547.475]
+    - [687, 547.375]
   - - [384, 384, 64, 2304]
-    - [610, 9901.78]
+    - [628, 9901.68]
   - - [160, 320, 64, 128]
-    - [646, 7113.91]
+    - [664, 7113.81]
   - - [512, 512, 36, 528]
-    - [616, 9567.75]
+    - [634, 9567.65]
   - - [160, 320, 36, 128]
-    - [647, 6411.23]
+    - [665, 6411.13]
   - - [96, 96, 64, 800]
-    - [655, 7690.11]
+    - [673, 7690.01]
   - - [256, 512, 36, 49]
-    - [643, 6721.35]
+    - [661, 6721.25]
   - - [384, 384, 64, 450]
-    - [616, 9523.63]
+    - [634, 9523.53]
   - - [3, 64, 64, 23104]
-    - [668, 801.721]
+    - [686, 801.621]
   - - [256, 256, 64, 3200]
-    - [652, 10300.5]
+    - [670, 10300.4]
   - - [128, 192, 36, 512]
-    - [630, 7499.85]
+    - [648, 7499.75]
   - - [192, 192, 64, 288]
-    - [687, 8774.34]
+    - [705, 8774.24]
   - - [96, 208, 64, 242]
-    - [647, 5902.09]
+    - [665, 5901.99]
   - - [256, 16, 36, 3200]
-    - [676, 3807.87]
+    - [694, 3807.77]
   - - [512, 512, 64, 8]
-    - [654, 2379.85]
+    - [672, 2379.75]
   - - [64, 128, 64, 5776]
-    - [627, 9332.84]
+    - [645, 9332.74]
   - - [512, 512, 64, 288]
-    - [616, 9522.09]
+    - [634, 9521.99]
   - - [256, 16, 36, 32]
-    - [672, 766.105]
+    - [690, 766.005]
   - - [128, 192, 64, 288]
-    - [687, 8527.68]
+    - [705, 8527.58]
   - - [32, 64, 64, 640]
-    - [655, 4660.44]
+    - [673, 4660.34]
   - - [64, 64, 36, 392]
-    - [655, 3686.5]
+    - [673, 3686.4]
   - - [384, 384, 36, 1024]
-    - [621, 9282.58]
+    - [639, 9282.48]
   - - [64, 64, 36, 11552]
-    - [685, 5904.88]
+    - [703, 5904.78]
   - - [96, 128, 36, 6272]
-    - [675, 8351.09]
+    - [693, 8350.99]
   - - [128, 256, 36, 16]
-    - [657, 2144.91]
+    - [675, 2144.81]
   - - [256, 256, 64, 288]
-    - [687, 9140.23]
+    - [705, 9140.13]
   - - [64, 64, 64, 1652]
-    - [673, 7766.63]
+    - [691, 7766.53]
   - - [256, 384, 36, 1024]
-    - [621, 9203.37]
+    - [639, 9203.27]
   - - [96, 128, 64, 3200]
-    - [690, 8866.3]
+    - [708, 8866.2]
   - - [256, 324, 36, 3200]
-    - [629, 8194.35]
+    - [647, 8194.25]
   - - [128, 192, 64, 800]
-    - [687, 9198.13]
+    - [705, 9198.03]
   - - [64, 128, 64, 10]
-    - [628, 851.217]
+    - [646, 851.117]
   - - [96, 208, 64, 288]
-    - [655, 6667.68]
+    - [673, 6667.58]
   - - [64, 96, 36, 2592]
-    - [637, 7216.98]
+    - [655, 7216.88]
   - - [64, 128, 64, 160]
-    - [666, 5191.07]
+    - [684, 5190.97]
   - - [192, 384, 64, 512]
-    - [616, 9446.14]
+    - [634, 9446.04]
   - - [64, 64, 36, 6272]
-    - [625, 6212.11]
+    - [643, 6212.01]
   - - [512, 24, 36, 288]
-    - [622, 3922.57]
+    - [640, 3922.47]
   - - [128, 128, 64, 1568]
-    - [616, 9037.96]
+    - [634, 9037.86]
   - - [112, 224, 64, 242]
-    - [686, 6399.36]
+    - [704, 6399.26]
   - - [128, 256, 64, 1600]
-    - [652, 10010.4]
+    - [670, 10010.3]
   - - [32, 32, 64, 20000]
-    - [620, 4378.51]
+    - [638, 4378.41]
   - - [160, 192, 64, 288]
-    - [647, 7803.73]
+    - [665, 7803.63]
   - - [512, 24, 64, 128]
-    - [608, 3733.9]
+    - [626, 3733.8]
   - - [512, 512, 36, 32]
-    - [643, 5935.44]
+    - [661, 5935.34]
   - - [3, 64, 36, 100352]
-    - [640, 542.883]
+    - [658, 542.783]
   - - [3, 64, 64, 1444]
-    - [669, 674.259]
+    - [687, 674.159]
   - - [512, 512, 36, 3136]
-    - [610, 9921.2]
+    - [628, 9921.1]
   - - [128, 256, 64, 6400]
-    - [670, 10349.4]
+    - [688, 10349.3]
   - - [256, 256, 36, 2048]
-    - [687, 9519.09]
+    - [705, 9518.99]
   - - [128, 160, 64, 288]
-    - [630, 7549.85]
+    - [648, 7549.75]
   - - [256, 256, 64, 6400]
-    - [652, 10392.7]
+    - [670, 10392.6]
   - - [32, 64, 64, 20000]
-    - [678, 6493.96]
+    - [696, 6493.86]
   - - [256, 256, 36, 1680]
-    - [627, 9513.39]
+    - [645, 9513.29]
   - - [128, 128, 64, 210]
-    - [687, 7094.2]
+    - [705, 7094.1]
   - - [192, 384, 36, 2048]
-    - [616, 8818.75]
+    - [634, 8818.65]
   - - [256, 256, 64, 144]
-    - [687, 8608.71]
+    - [705, 8608.61]
   - - [384, 384, 36, 4096]
-    - [621, 9357.04]
+    - [639, 9356.94]
   - - [160, 320, 64, 1152]
-    - [647, 8749.58]
+    - [665, 8749.48]
   - - [384, 256, 36, 2048]
-    - [687, 9279.73]
+    - [705, 9279.63]
   - - [256, 512, 36, 392]
-    - [687, 9252.24]
+    - [705, 9252.14]
   - - [256, 512, 64, 50]
-    - [643, 7511.39]
+    - [661, 7511.29]
   - - [73, 192, 36, 23360]
-    - [691, 5803.03]
+    - [709, 5802.93]
   - - [3, 64, 36, 50176]
-    - [640, 542.137]
+    - [658, 542.037]
   - - [384, 384, 36, 2048]
-    - [616, 9325.9]
+    - [634, 9325.8]
   - - [256, 384, 64, 450]
-    - [662, 9528.76]
+    - [680, 9528.66]
   - - [192, 320, 64, 128]
-    - [621, 8399.91]
+    - [639, 8399.81]
   - - [128, 256, 36, 32]
-    - [636, 3276.9]
+    - [654, 3276.8]
   - - [160, 192, 36, 512]
-    - [675, 7752.44]
+    - [693, 7752.34]
   - - [512, 512, 64, 256]
-    - [627, 9473.74]
+    - [645, 9473.64]
   - - [256, 512, 64, 32]
-    - [665, 6391.42]
+    - [683, 6391.32]
   - - [384, 384, 64, 576]
-    - [616, 9614.89]
+    - [634, 9614.79]
   - - [64, 64, 64, 648]
-    - [673, 6282.25]
+    - [691, 6282.15]
   - - [512, 486, 36, 288]
-    - [687, 8625.03]
+    - [705, 8624.93]
   - - [32, 64, 36, 1440]
-    - [625, 3961.6]
+    - [643, 3961.5]
   - - [144, 288, 64, 242]
-    - [647, 6347.12]
+    - [665, 6347.02]
   - - [384, 256, 64, 576]
-    - [652, 9775.34]
+    - [670, 9775.24]
   - - [512, 512, 36, 64]
-    - [623, 7791.38]
+    - [641, 7791.28]
   - - [448, 384, 64, 128]
-    - [616, 9132.33]
+    - [634, 9132.23]
   - - [64, 128, 64, 722]
-    - [666, 8047.21]
+    - [684, 8047.11]
   - - [144, 288, 64, 288]
-    - [675, 6859.5]
+    - [693, 6859.4]
   - - [512, 512, 64, 224]
-    - [687, 9427.39]
+    - [705, 9427.29]
   - - [112, 224, 64, 288]
-    - [686, 6737.02]
+    - [704, 6736.92]
   - - [384, 384, 64, 1152]
-    - [610, 9820.56]
+    - [628, 9820.46]
   - - [448, 384, 36, 128]
-    - [687, 8761.41]
+    - [705, 8761.31]
   - - [64, 64, 64, 100]
-    - [633, 2708.2]
+    - [651, 2708.1]
   - - [256, 486, 36, 128]
-    - [659, 7640.14]
+    - [677, 7640.04]
   - - [64, 96, 64, 4608]
-    - [688, 8351.59]
+    - [706, 8351.49]
   - - [16, 32, 64, 160]
-    - [612, 736.46]
+    - [630, 736.36]
   - - [64, 192, 36, 6272]
-    - [688, 8041.29]
+    - [706, 8041.19]
   - - [64, 64, 64, 200]
-    - [641, 3924.41]
+    - [659, 3924.31]
   - - [256, 256, 36, 800]
-    - [687, 9299.65]
+    - [705, 9299.55]
   - - [64, 128, 36, 6272]
-    - [685, 6816.46]
+    - [703, 6816.36]
   - - [32, 64, 64, 40]
-    - [632, 885.722]
+    - [650, 885.622]
   - - [256, 16, 64, 32]
-    - [682, 1205.36]
+    - [700, 1205.26]
   - - [192, 384, 36, 800]
-    - [621, 8673.98]
+    - [639, 8673.88]
   - - [128, 128, 36, 3200]
-    - [655, 8538.99]
+    - [673, 8538.89]
   - - [256, 256, 36, 256]
-    - [627, 8454.46]
+    - [645, 8454.36]
   - - [192, 384, 64, 1152]
-    - [616, 9589.11]
+    - [634, 9589.01]
   - - [128, 256, 64, 200]
-    - [626, 8141.22]
+    - [644, 8141.12]
   - - [64, 96, 64, 1152]
-    - [655, 7620.98]
+    - [673, 7620.88]
   - - [128, 128, 36, 392]
-    - [630, 6175.61]
+    - [648, 6175.51]
   - - [80, 192, 36, 10368]
-    - [678, 6497.26]
+    - [696, 6497.16]
   - - [224, 224, 36, 128]
-    - [688, 5826.99]
+    - [706, 5826.89]
   - - [512, 512, 64, 28]
-    - [643, 5728.91]
+    - [661, 5728.81]
   - - [256, 16, 64, 1568]
-    - [658, 4637.3]
+    - [676, 4637.2]
   - - [144, 288, 64, 1152]
-    - [675, 7784.34]
+    - [693, 7784.24]
   - - [256, 256, 64, 576]
-    - [652, 9596.22]
+    - [670, 9596.12]
   - - [64, 128, 36, 784]
-    - [688, 6059.09]
+    - [706, 6058.99]
   - - [256, 24, 36, 128]
-    - [622, 2239.94]
+    - [640, 2239.84]
   - - [256, 256, 64, 2304]
-    - [652, 10225.8]
+    - [670, 10225.7]
   - - [192, 384, 36, 512]
-    - [687, 8549.13]
+    - [705, 8549.03]
   - - [16, 32, 64, 2560]
-    - [640, 2153.23]
+    - [658, 2153.13]
   - - [256, 512, 36, 32]
-    - [665, 5702.33]
+    - [683, 5702.23]
   - - [512, 512, 64, 128]
-    - [687, 9084.21]
+    - [705, 9084.11]
   - - [128, 128, 64, 200]
-    - [624, 6972.01]
+    - [642, 6971.91]
   - - [512, 512, 64, 32]
-    - [636, 6248.6]
+    - [654, 6248.5]
   - - [128, 256, 36, 196]
-    - [636, 6628.86]
+    - [654, 6628.76]
   - - [8, 384, 64, 6600]
-    - [668, 2733.99]
+    - [686, 2733.89]
   - - [149, 32, 64, 8195]
-    - [630, 6051.01]
+    - [648, 6050.91]
   - - [35, 96, 64, 6160]
-    - [675, 4689.45]
+    - [693, 4689.35]
   - - [64, 64, 36, 1760]
-    - [625, 5622.34]
+    - [643, 5622.24]
   - - [196, 528, 32, 32]
-    - [708, 4088.51]
+    - [726, 4088.41]
   - - [5329, 64, 32, 80]
-    - [701, 8331.24]
+    - [719, 8331.14]
   - - [64, 2880, 1, 320]
-    - [752, 4362.7]
+    - [770, 4362.6]
   - - [49, 832, 32, 256]
-    - [715, 5618.73]
-  - - [3136, 64, 64, 64]
-    - [701, 8457.75]
+    - [733, 5618.63]
   - - [196, 512, 32, 24]
-    - [702, 3621.83]
+    - [720, 3621.73]
   - - [289, 1120, 1, 160]
-    - [698, 3302.96]
+    - [716, 3302.86]
   - - [1225, 192, 32, 32]
-    - [706, 6194.67]
+    - [724, 6194.57]
   - - [64, 2048, 32, 384]
-    - [729, 9541.64]
+    - [747, 9541.54]
   - - [1001, 1536, 1, 32]
-    - [700, 3575.77]
+    - [718, 3575.67]
   - - [289, 1792, 1, 320]
-    - [723, 5140.43]
-  - - [3136, 256, 64, 64]
-    - [724, 9310.22]
+    - [741, 5140.33]
   - - [1001, 1024, 1, 32]
-    - [695, 2733.5]
+    - [713, 2733.4]
   - - [196, 480, 32, 64]
-    - [756, 5070.52]
+    - [774, 5070.42]
   - - [64, 1728, 1, 320]
-    - [753, 3205.67]
+    - [771, 3205.57]
   - - [49, 832, 32, 160]
-    - [757, 4988.92]
-  - - [49, 2048, 64, 512]
-    - [727, 7370.41]
+    - [775, 4988.82]
   - - [49, 832, 32, 384]
-    - [715, 5902.05]
+    - [733, 5901.95]
   - - [289, 896, 1, 192]
-    - [741, 3452.69]
+    - [759, 3452.59]
   - - [289, 1024, 32, 384]
-    - [760, 8902.52]
+    - [778, 8902.42]
   - - [784, 192, 32, 96]
-    - [771, 7853.73]
+    - [789, 7853.63]
   - - [50176, 256, 1, 128]
-    - [734, 9041.93]
+    - [752, 9041.83]
   - - [289, 1024, 32, 256]
-    - [769, 8660.82]
+    - [787, 8660.72]
   - - [289, 1024, 32, 192]
-    - [758, 8433.45]
+    - [776, 8433.35]
   - - [12544, 512, 1, 256]
-    - [718, 9187.44]
+    - [736, 9187.34]
   - - [1225, 1728, 1, 192]
-    - [722, 7720.95]
+    - [740, 7720.85]
   - - [196, 480, 32, 96]
-    - [767, 5662.6]
+    - [785, 5662.5]
   - - [196, 512, 32, 144]
-    - [761, 6531.48]
+    - [779, 6531.38]
   - - [784, 400, 1, 32]
-    - [696, 1280.1]
+    - [714, 1280.0]
   - - [289, 768, 32, 128]
-    - [762, 7913.71]
+    - [780, 7913.61]
   - - [5329, 576, 1, 96]
-    - [705, 7563.56]
+    - [723, 7563.46]
   - - [49, 1200, 1, 128]
-    - [749, 1011.71]
+    - [767, 1011.61]
   - - [64, 1536, 32, 256]
-    - [763, 9159.64]
+    - [781, 9159.54]
   - - [289, 2592, 1, 384]
-    - [731, 6002.81]
+    - [749, 6002.71]
   - - [196, 528, 32, 128]
-    - [766, 5987.2]
+    - [784, 5987.1]
   - - [64, 2048, 32, 448]
-    - [729, 9669.97]
-  - - [196, 1024, 64, 256]
-    - [768, 7819.04]
+    - [747, 9669.87]
   - - [5329, 448, 1, 64]
-    - [701, 6201.12]
+    - [719, 6201.02]
   - - [784, 256, 32, 64]
-    - [703, 7623.28]
+    - [721, 7623.18]
   - - [784, 192, 32, 32]
-    - [708, 5874.36]
+    - [726, 5874.26]
   - - [21609, 288, 1, 32]
-    - [721, 5296.6]
+    - [739, 5296.5]
   - - [784, 256, 32, 32]
-    - [699, 6235.56]
+    - [717, 6235.46]
   - - [5041, 720, 1, 192]
-    - [717, 8141.08]
+    - [735, 8140.98]
   - - [289, 2016, 1, 256]
-    - [714, 5404.15]
+    - [732, 5404.05]
   - - [196, 512, 32, 128]
-    - [759, 6366.92]
+    - [777, 6366.82]
   - - [289, 768, 32, 160]
-    - [761, 8253.98]
+    - [779, 8253.88]
   - - [64, 1536, 32, 384]
-    - [732, 9508.6]
+    - [750, 9508.5]
   - - [64, 1280, 32, 320]
-    - [732, 9070.83]
+    - [750, 9070.73]
   - - [289, 896, 1, 128]
-    - [742, 2917.78]
+    - [760, 2917.68]
   - - [289, 3456, 1, 384]
-    - [722, 7275.01]
+    - [740, 7274.91]
   - - [196, 800, 1, 64]
-    - [744, 1393.88]
+    - [762, 1393.78]
   - - [64, 1280, 32, 384]
-    - [728, 9225.11]
+    - [746, 9225.01]
   - - [64, 1344, 1, 512]
-    - [747, 3041.55]
+    - [765, 3041.45]
   - - [1001, 4096, 1, 512]
-    - [728, 9391.87]
+    - [746, 9391.77]
   - - [1225, 192, 32, 64]
-    - [701, 7729.39]
+    - [719, 7729.29]
   - - [64, 1152, 1, 384]
-    - [751, 2440.75]
+    - [769, 2440.65]
   - - [729, 1600, 1, 192]
-    - [713, 6827.81]
+    - [731, 6827.71]
   - - [289, 1344, 1, 192]
-    - [711, 4439.14]
+    - [729, 4439.04]
   - - [784, 192, 32, 16]
-    - [738, 3663.14]
+    - [756, 3663.04]
   - - [3136, 1024, 1, 2048]
-    - [720, 9071.87]
+    - [738, 9071.77]
   - - [64, 1152, 1, 448]
-    - [748, 2564.55]
+    - [766, 2564.45]
   - - [49, 832, 32, 128]
-    - [711, 4733.26]
+    - [729, 4733.16]
   - - [784, 256, 32, 128]
-    - [724, 8471.7]
+    - [742, 8471.6]
   - - [49, 800, 1, 128]
-    - [746, 633.635]
+    - [764, 633.535]
   - - [196, 512, 32, 32]
-    - [708, 4354.36]
+    - [726, 4354.26]
   - - [1225, 384, 32, 96]
-    - [725, 8751.73]
+    - [743, 8751.63]
   - - [5041, 576, 1, 96]
-    - [707, 7067.73]
+    - [725, 7067.63]
   - - [49, 832, 32, 48]
-    - [740, 3316.82]
-  - - [3136, 64, 64, 256]
-    - [762, 9722.0]
+    - [758, 3316.72]
   - - [5329, 160, 32, 64]
-    - [764, 8159.94]
+    - [782, 8159.84]
   - - [1225, 288, 32, 48]
-    - [754, 6673.75]
+    - [772, 6673.65]
   - - [4096, 9216, 1, 512]
-    - [736, 10117.0]
+    - [754, 10116.9]
   - - [196, 480, 32, 192]
-    - [765, 6388.56]
+    - [783, 6388.46]
   - - [64, 1152, 1, 256]
-    - [752, 1982.7]
+    - [770, 1982.6]
   - - [3136, 1024, 1, 512]
-    - [720, 8745.67]
+    - [738, 8745.57]
   - - [49, 832, 32, 32]
-    - [739, 2717.97]
+    - [757, 2717.87]
   - - [784, 192, 32, 64]
-    - [703, 7216.42]
+    - [721, 7216.32]
   - - [289, 1024, 32, 128]
-    - [726, 7970.6]
+    - [744, 7970.5]
   - - [289, 768, 32, 192]
-    - [770, 8327.37]
+    - [788, 8327.27]
   - - [289, 1120, 1, 192]
-    - [710, 3717.0]
+    - [728, 3716.9]
   - - [196, 512, 32, 112]
-    - [716, 6252.91]
+    - [734, 6252.81]
   - - [1001, 2048, 1, 32]
-    - [704, 4000.19]
+    - [722, 4000.09]
   - - [1225, 288, 32, 64]
-    - [764, 7208.14]
+    - [782, 7208.04]
   - - [196, 600, 1, 64]
-    - [743, 1094.05]
+    - [761, 1093.95]
   - - [1225, 384, 32, 192]
-    - [725, 9332.76]
+    - [743, 9332.66]
   - - [50176, 256, 1, 512]
-    - [735, 9833.64]
+    - [753, 9833.54]
   - - [196, 512, 32, 160]
-    - [762, 6614.44]
+    - [780, 6614.34]
   - - [4096, 4096, 1, 512]
-    - [733, 10032.3]
+    - [751, 10032.2]
   - - [49, 832, 32, 192]
-    - [711, 5244.63]
+    - [729, 5244.53]
   - - [1225, 256, 32, 64]
-    - [701, 7972.45]
+    - [719, 7972.35]
   - - [64, 2048, 32, 320]
-    - [729, 9404.37]
+    - [747, 9404.27]
   - - [196, 480, 32, 16]
-    - [755, 2724.59]
+    - [773, 2724.49]
   - - [1225, 256, 32, 48]
-    - [703, 7100.48]
+    - [721, 7100.38]
   - - [64, 1280, 32, 448]
-    - [728, 9344.51]
+    - [746, 9344.41]
   - - [1225, 1200, 1, 64]
-    - [697, 5157.99]
+    - [715, 5157.89]
   - - [1225, 384, 32, 64]
-    - [701, 8220.06]
+    - [719, 8219.96]
   - - [12544, 512, 1, 1024]
-    - [720, 9672.82]
+    - [738, 9672.72]
   - - [64, 1280, 32, 192]
-    - [716, 8525.11]
+    - [734, 8525.01]
   - - [196, 512, 32, 64]
-    - [701, 5489.44]
+    - [719, 5489.34]
   - - [289, 1792, 1, 256]
-    - [719, 4831.71]
+    - [737, 4831.61]
   - - [196, 528, 32, 256]
-    - [737, 6453.92]
-  - - [49, 512, 64, 2048]
-    - [772, 7549.08]
+    - [755, 6453.82]
   - - [64, 2048, 32, 192]
-    - [724, 8955.91]
-  - - [784, 512, 64, 128]
-    - [724, 9160.83]
-  - - [784, 128, 64, 512]
-    - [731, 9280.79]
+    - [742, 8955.81]
   - - [196, 528, 32, 160]
-    - [765, 6161.25]
+    - [783, 6161.15]
   - - [1225, 192, 32, 48]
-    - [701, 7237.02]
+    - [719, 7236.92]
   - - [64, 1728, 1, 192]
-    - [751, 2480.67]
+    - [769, 2480.57]
   - - [1001, 2048, 1, 64]
-    - [777, 5714.52]
+    - [795, 5714.42]
   - - [5329, 64, 128, 80]
-    - [784, 8835.39]
+    - [802, 8835.29]
   - - [64, 1280, 128, 448]
-    - [782, 10020.6]
+    - [800, 10020.5]
   - - [289, 768, 128, 128]
-    - [785, 8542.81]
+    - [803, 8542.71]
   - - [1225, 192, 128, 64]
-    - [774, 8444.87]
+    - [792, 8444.77]
   - - [1225, 288, 128, 48]
-    - [787, 7244.76]
+    - [805, 7244.66]
   - - [289, 768, 128, 192]
-    - [789, 8794.59]
+    - [807, 8794.49]
   - - [289, 768, 128, 160]
-    - [786, 8705.43]
+    - [804, 8705.33]
   - - [64, 2048, 128, 192]
-    - [780, 9780.36]
+    - [798, 9780.26]
   - - [64, 1280, 128, 384]
-    - [783, 9951.0]
+    - [801, 9950.9]
   - - [1225, 256, 128, 48]
-    - [775, 8273.71]
+    - [793, 8273.61]
   - - [1225, 192, 128, 48]
-    - [775, 8140.42]
+    - [793, 8140.32]
   - - [1225, 288, 128, 64]
-    - [787, 7886.31]
+    - [805, 7886.21]
   - - [64, 1280, 128, 320]
-    - [779, 9894.66]
+    - [797, 9894.56]
   - - [1225, 256, 128, 64]
-    - [780, 8572.61]
+    - [798, 8572.51]
   - - [1001, 2048, 1, 128]
-    - [781, 7289.16]
+    - [799, 7289.06]
   - - [1225, 192, 128, 32]
-    - [776, 7104.67]
+    - [794, 7104.57]
   - - [64, 1280, 128, 192]
-    - [788, 9642.18]
+    - [806, 9642.08]
   - - [1001, 1536, 1, 64]
-    - [778, 5146.66]
+    - [796, 5146.56]
+  - - [2048, 2048, 1, 1024]
+    - [810, 9940.21]
+  - - [3200, 2048, 1, 1024]
+    - [809, 9899.24]
+  - - [4096, 4096, 1, 1024]
+    - [811, 10222.2]
+  - - [2048, 256, 1, 1024]
+    - [808, 8452.0]
+  - - [257, 4096, 1, 1024]
+    - [809, 8353.5]
+  - - [64, 2048, 64, 192]
+    - [814, 9434.24]
+  - - [1225, 192, 64, 48]
+    - [817, 7799.38]
+  - - [1225, 288, 64, 48]
+    - [819, 7030.37]
+  - - [3136, 64, 64, 64]
+    - [812, 7941.3]
+  - - [1225, 192, 64, 32]
+    - [818, 6772.91]
+  - - [1225, 256, 64, 48]
+    - [817, 8022.81]
+  - - [64, 2048, 64, 384]
+    - [813, 9859.28]
+  - - [64, 1280, 64, 384]
+    - [813, 9675.44]
+  - - [64, 1280, 64, 192]
+    - [813, 9320.68]
+  - - [1225, 192, 64, 64]
+    - [817, 8180.87]
+  - - [3136, 256, 64, 64]
+    - [814, 8966.88]
+  - - [1225, 288, 64, 64]
+    - [819, 7567.39]
+  - - [5329, 64, 64, 80]
+    - [816, 8634.33]
+  - - [64, 1280, 64, 448]
+    - [813, 9702.62]
+  - - [1225, 256, 64, 64]
+    - [817, 8306.43]
+  - - [3136, 64, 64, 256]
+    - [815, 9431.89]
+  - - [64, 1280, 64, 320]
+    - [813, 9754.2]
+  - - [64, 2048, 64, 320]
+    - [813, 9765.55]
+  - - [64, 2048, 64, 448]
+    - [813, 9948.37]
 - null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Ailk_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Ailk_Bljk_CB.yaml
new file mode 100644
index 000000000..86c4c6789
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Ailk_Bljk_CB.yaml
@@ -0,0 +1,493 @@
+- MinimumRequiredVersion: 4.10.0
+- vega20
+- gfx906
+- - Device 66a0
+  - Device 66a1
+  - Device 66a7
+  - Vega 20
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA:
+  - 0
+  - 3
+  - 2
+  IndexAssignmentsB:
+  - 3
+  - 1
+  - 2
+  IndexAssignmentsLD:
+  - 4
+  - 5
+  - 6
+  - 7
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 0
+  IndicesBatch:
+  - 2
+  IndicesFree:
+  - 0
+  - 1
+  IndicesSummation:
+  - 3
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 0
+      - 3
+      - 2
+      IndexAssignmentsB:
+      - 3
+      - 1
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bljk_CB_MT64x64x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 4
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 4
+    LVPB: 64
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 0
+      - 3
+      - 2
+      IndexAssignmentsB:
+      - 3
+      - 1
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bljk_CB_MT64x64x4_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+- - 2
+  - 3
+  - 0
+  - 1
+- - - - 64
+      - 64
+      - 1
+      - 256
+      - 64
+      - 64
+      - 64
+      - 256
+    - - 0
+      - 117.685
+  - - - 1
+      - 1
+      - 1
+      - 256
+      - 1
+      - 1
+      - 1
+      - 256
+    - - 1
+      - 0.0265836
+  - - - 1
+      - 64
+      - 1
+      - 256
+      - 1
+      - 1
+      - 1
+      - 256
+    - - 1
+      - 1.2911
+  - - - 64
+      - 1
+      - 1
+      - 256
+      - 64
+      - 64
+      - 64
+      - 256
+    - - 1
+      - 1.6996
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Ailk_Bljk_SB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Ailk_Bljk_SB.yaml
index 3a6e9917c..9af2a05c1 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Ailk_Bljk_SB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Ailk_Bljk_SB.yaml
@@ -172,7 +172,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id001 [8, 2]
+    ThreadTile: [8, 2]
     ThreadTile0: 8
     ThreadTile1: 2
     ThreadTileA: 8
@@ -183,7 +183,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id002 [16, 8, 2]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -320,7 +320,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [8, 2]
     ThreadTile0: 8
     ThreadTile1: 2
     ThreadTileA: 8
@@ -331,7 +331,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -468,7 +468,7 @@
     SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: &id005 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -479,7 +479,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id004 [32, 4, 2]
+    WorkGroup: [32, 4, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -612,7 +612,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id003 [4, 2]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -623,7 +623,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -756,7 +756,7 @@
     SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -767,7 +767,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
+    WorkGroup: [32, 4, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -900,7 +900,7 @@
     SubGroupA: 32
     SubGroupB: 2
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -911,7 +911,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id007 [32, 2, 4]
+    WorkGroup: [32, 2, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1044,7 +1044,7 @@
     SubGroupA: 16
     SubGroupB: 2
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -1055,7 +1055,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id006 [16, 2, 8]
+    WorkGroup: [16, 2, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1192,7 +1192,7 @@
     SubGroupA: 16
     SubGroupB: 2
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -1203,7 +1203,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id006
+    WorkGroup: [16, 2, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1336,7 +1336,7 @@
     SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: &id008 [2, 2]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -1347,7 +1347,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
+    WorkGroup: [32, 4, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1480,7 +1480,7 @@
     SubGroupA: 32
     SubGroupB: 2
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -1491,7 +1491,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id007
+    WorkGroup: [32, 2, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -1628,7 +1628,7 @@
     SubGroupA: 8
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    ThreadTile: [8, 2]
     ThreadTile0: 8
     ThreadTile1: 2
     ThreadTileA: 8
@@ -1772,7 +1772,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id008
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -1916,7 +1916,7 @@
     SubGroupA: 32
     SubGroupB: 2
     SuppresssNoLoadLoop: false
-    ThreadTile: *id008
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -1927,7 +1927,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id007
+    WorkGroup: [32, 2, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2060,7 +2060,7 @@
     SubGroupA: 16
     SubGroupB: 2
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -2071,7 +2071,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006
+    WorkGroup: [16, 2, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2356,7 +2356,7 @@
     SubGroupA: 12
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id009 [3, 3]
+    ThreadTile: [3, 3]
     ThreadTile0: 3
     ThreadTile1: 3
     ThreadTileA: 3
@@ -2504,7 +2504,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
+    ThreadTile: [3, 3]
     ThreadTile0: 3
     ThreadTile1: 3
     ThreadTileA: 3
@@ -2652,7 +2652,7 @@
     SubGroupA: 8
     SubGroupB: 6
     SuppresssNoLoadLoop: false
-    ThreadTile: &id011 [6, 4]
+    ThreadTile: [6, 4]
     ThreadTile0: 6
     ThreadTile1: 4
     ThreadTileA: 6
@@ -2663,7 +2663,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id010 [8, 6, 4]
+    WorkGroup: [8, 6, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2811,7 +2811,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: *id010
+    WorkGroup: [8, 6, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -2948,7 +2948,7 @@
     SubGroupA: 8
     SubGroupB: 6
     SuppresssNoLoadLoop: false
-    ThreadTile: *id011
+    ThreadTile: [6, 4]
     ThreadTile0: 6
     ThreadTile1: 4
     ThreadTileA: 6
@@ -2959,7 +2959,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id010
+    WorkGroup: [8, 6, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3096,7 +3096,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: &id012 [2, 2]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -3107,7 +3107,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id017 [16, 4, 1]
+    WorkGroup: [16, 4, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3244,7 +3244,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -3255,7 +3255,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id013 [8, 8, 1]
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3392,7 +3392,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id016 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -3403,7 +3403,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3551,7 +3551,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3688,7 +3688,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -3699,7 +3699,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id014 [16, 8, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3836,7 +3836,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id015 [4, 2]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -3847,7 +3847,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -3984,7 +3984,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -3995,7 +3995,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4132,7 +4132,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -4143,7 +4143,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4280,7 +4280,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -4291,7 +4291,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4428,7 +4428,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -4439,7 +4439,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4576,7 +4576,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -4587,7 +4587,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -4724,7 +4724,7 @@
     SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -4872,7 +4872,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -4883,7 +4883,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5020,7 +5020,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -5031,7 +5031,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5168,7 +5168,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -5179,7 +5179,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5316,7 +5316,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -5327,7 +5327,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5464,7 +5464,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -5475,7 +5475,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5612,7 +5612,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -5623,7 +5623,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5760,7 +5760,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -5771,7 +5771,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -5908,7 +5908,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -5919,7 +5919,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id017
+    WorkGroup: [16, 4, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6056,7 +6056,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id018 [2, 2]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -6067,7 +6067,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id019 [8, 8, 2]
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6204,7 +6204,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id021 [8, 4]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -6215,7 +6215,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id024 [16, 8, 2]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6352,7 +6352,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -6363,7 +6363,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6500,7 +6500,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -6511,7 +6511,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6648,7 +6648,7 @@
     SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: &id020 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -6659,7 +6659,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id025 [32, 4, 2]
+    WorkGroup: [32, 4, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6796,7 +6796,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -6807,7 +6807,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id026 [16, 4, 4]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -6944,7 +6944,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -6955,7 +6955,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7092,7 +7092,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id022 [4, 2]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -7103,7 +7103,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7240,7 +7240,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -7251,7 +7251,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7388,7 +7388,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -7399,7 +7399,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7536,7 +7536,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -7547,7 +7547,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id023 [8, 8, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7684,7 +7684,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -7695,7 +7695,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7832,7 +7832,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -7843,7 +7843,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id024
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -7980,7 +7980,7 @@
     SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -7991,7 +7991,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id025
+    WorkGroup: [32, 4, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8128,7 +8128,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -8139,7 +8139,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8276,7 +8276,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -8287,7 +8287,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8424,7 +8424,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -8435,7 +8435,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8572,7 +8572,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -8583,7 +8583,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8720,7 +8720,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -8731,7 +8731,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -8868,7 +8868,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -8879,7 +8879,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9016,7 +9016,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -9027,7 +9027,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9164,7 +9164,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -9175,7 +9175,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id024
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9312,7 +9312,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -9323,7 +9323,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id024
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9460,7 +9460,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id027 [8, 8]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -9471,7 +9471,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id024
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9608,7 +9608,7 @@
     SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -9619,7 +9619,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id025
+    WorkGroup: [32, 4, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9756,7 +9756,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -9767,7 +9767,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -9904,7 +9904,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -9915,7 +9915,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10052,7 +10052,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -10063,7 +10063,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10200,7 +10200,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -10211,7 +10211,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10348,7 +10348,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -10359,7 +10359,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10496,7 +10496,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -10507,7 +10507,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10644,7 +10644,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -10655,7 +10655,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10792,7 +10792,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -10803,7 +10803,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -10940,7 +10940,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -10951,7 +10951,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11088,7 +11088,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -11099,7 +11099,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11236,7 +11236,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -11247,7 +11247,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11384,7 +11384,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -11395,7 +11395,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11532,7 +11532,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -11543,7 +11543,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11680,7 +11680,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -11691,7 +11691,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11828,7 +11828,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -11839,7 +11839,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -11976,7 +11976,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -11987,7 +11987,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12124,7 +12124,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -12135,7 +12135,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12272,7 +12272,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -12283,7 +12283,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12420,7 +12420,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -12431,7 +12431,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id024
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12568,7 +12568,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -12579,7 +12579,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12716,7 +12716,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -12727,7 +12727,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -12864,7 +12864,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -12875,7 +12875,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13012,7 +13012,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -13023,7 +13023,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13160,7 +13160,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -13171,7 +13171,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13308,7 +13308,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -13319,7 +13319,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id024
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13456,7 +13456,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -13467,7 +13467,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id024
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13604,7 +13604,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -13615,7 +13615,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13752,7 +13752,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -13763,7 +13763,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -13900,7 +13900,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -13911,7 +13911,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14048,7 +14048,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -14059,7 +14059,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14196,7 +14196,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -14207,7 +14207,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14344,7 +14344,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -14355,7 +14355,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14492,7 +14492,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -14503,7 +14503,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id024
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14640,7 +14640,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -14651,7 +14651,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14788,7 +14788,7 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -14799,7 +14799,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -14943,7 +14943,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id028 [16, 16, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -15076,7 +15076,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id029 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -15087,7 +15087,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -15224,7 +15224,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id029
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -15235,7 +15235,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -15372,7 +15372,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id031 [4, 8]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -15383,7 +15383,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -15516,7 +15516,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id032 [6, 8]
+    ThreadTile: [6, 8]
     ThreadTile0: 6
     ThreadTile1: 8
     ThreadTileA: 6
@@ -15527,7 +15527,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -15660,7 +15660,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id030 [8, 4]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -15671,7 +15671,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -15808,7 +15808,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id030
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -15819,7 +15819,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -15952,7 +15952,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id029
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -15963,7 +15963,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -16100,7 +16100,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id029
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -16111,7 +16111,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -16248,7 +16248,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id031
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -16259,7 +16259,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -16392,7 +16392,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id032
+    ThreadTile: [6, 8]
     ThreadTile0: 6
     ThreadTile1: 8
     ThreadTileA: 6
@@ -16403,7 +16403,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -16540,7 +16540,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id030
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -16551,7 +16551,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -16684,7 +16684,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id029
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -16695,7 +16695,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -16828,7 +16828,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id031
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -16839,7 +16839,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -16972,7 +16972,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id030
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -16983,7 +16983,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -17116,7 +17116,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id029
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -17127,7 +17127,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -17264,7 +17264,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id029
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -17275,7 +17275,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -17412,7 +17412,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: &id033 [8, 8]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -17423,7 +17423,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id034 [16, 16, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -17560,7 +17560,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -17571,7 +17571,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -17704,7 +17704,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id035 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -17715,7 +17715,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -17852,7 +17852,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id035
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -17863,7 +17863,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -17996,7 +17996,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id036 [4, 8]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -18007,7 +18007,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -18144,7 +18144,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id036
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -18155,7 +18155,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -18292,7 +18292,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: &id038 [6, 8]
+    ThreadTile: [6, 8]
     ThreadTile0: 6
     ThreadTile1: 8
     ThreadTileA: 6
@@ -18303,7 +18303,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -18436,7 +18436,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: &id037 [8, 4]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -18447,7 +18447,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -18584,7 +18584,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id037
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -18595,7 +18595,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -18732,7 +18732,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: &id039 [8, 6]
+    ThreadTile: [8, 6]
     ThreadTile0: 8
     ThreadTile1: 6
     ThreadTileA: 8
@@ -18743,7 +18743,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -18876,7 +18876,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -18887,7 +18887,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -19024,7 +19024,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -19035,7 +19035,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -19168,7 +19168,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id035
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -19179,7 +19179,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -19316,7 +19316,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id035
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -19327,7 +19327,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -19460,7 +19460,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id036
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -19471,7 +19471,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -19608,7 +19608,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id036
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -19619,7 +19619,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -19756,7 +19756,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id038
+    ThreadTile: [6, 8]
     ThreadTile0: 6
     ThreadTile1: 8
     ThreadTileA: 6
@@ -19767,7 +19767,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -19900,7 +19900,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id037
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -19911,7 +19911,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -20048,7 +20048,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id037
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -20059,7 +20059,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -20196,7 +20196,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id039
+    ThreadTile: [8, 6]
     ThreadTile0: 8
     ThreadTile1: 6
     ThreadTileA: 8
@@ -20207,7 +20207,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -20340,7 +20340,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -20351,7 +20351,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -20488,7 +20488,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -20499,7 +20499,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -20632,7 +20632,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -20643,7 +20643,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -20780,7 +20780,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -20791,7 +20791,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -20924,7 +20924,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -20935,7 +20935,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -21072,7 +21072,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -21083,7 +21083,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -21216,7 +21216,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id035
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -21227,7 +21227,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -21364,7 +21364,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id035
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -21375,7 +21375,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -21508,7 +21508,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id037
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -21519,7 +21519,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -21656,7 +21656,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id037
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -21667,7 +21667,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -21800,7 +21800,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -21811,7 +21811,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -21948,7 +21948,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -21959,7 +21959,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -22092,7 +22092,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id035
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -22103,7 +22103,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -22240,7 +22240,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id035
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -22251,7 +22251,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -22384,7 +22384,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id037
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -22395,7 +22395,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -22532,7 +22532,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id037
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -22543,7 +22543,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -22676,7 +22676,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -22687,7 +22687,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -22824,7 +22824,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -22835,7 +22835,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -22983,7 +22983,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id040 [8, 8, 1]
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -23131,7 +23131,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id040
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -23268,7 +23268,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: true
-    ThreadTile: &id041 [2, 2]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -23279,7 +23279,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id044 [8, 8, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -23416,7 +23416,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id041
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -23427,7 +23427,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id042 [8, 8, 1]
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -23564,7 +23564,7 @@
     SubGroupA: 4
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id041
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -23575,7 +23575,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id043 [4, 4, 4]
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -23712,7 +23712,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id041
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -23723,7 +23723,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id042
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -23860,7 +23860,7 @@
     SubGroupA: 4
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id041
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -23871,7 +23871,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id043
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -24008,7 +24008,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id041
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -24156,7 +24156,7 @@
     SubGroupA: 4
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id041
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -24167,7 +24167,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id043
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -24304,7 +24304,7 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id041
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -24315,7 +24315,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id044
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -24452,7 +24452,7 @@
     SubGroupA: 32
     SubGroupB: 8
     SuppresssNoLoadLoop: true
-    ThreadTile: &id045 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -24463,7 +24463,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id046 [32, 8, 1]
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -24600,7 +24600,7 @@
     SubGroupA: 32
     SubGroupB: 8
     SuppresssNoLoadLoop: true
-    ThreadTile: *id045
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -24611,7 +24611,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id046
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -24748,7 +24748,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id045
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -24907,7 +24907,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id046
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -25040,7 +25040,7 @@
     SubGroupA: 8
     SubGroupB: 32
     SuppresssNoLoadLoop: false
-    ThreadTile: &id047 [4, 4]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -25184,7 +25184,7 @@
     SubGroupA: 32
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id047
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -25195,7 +25195,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: &id048 [32, 8, 1]
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -25328,7 +25328,7 @@
     SubGroupA: 32
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: &id050 [8, 4]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -25339,7 +25339,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id048
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -25472,7 +25472,7 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id047
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -25616,7 +25616,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id047
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -25627,7 +25627,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id049 [16, 16, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -25760,7 +25760,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id047
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -25771,7 +25771,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id049
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -25904,7 +25904,7 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id050
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -25915,7 +25915,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id049
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: false
@@ -26047,7 +26047,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: &id051 [8, 4]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -26058,7 +26058,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: &id052 [16, 16, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -26188,7 +26188,7 @@
     SubGroup1: 8
     SubGroupA: 32
     SubGroupB: 8
-    ThreadTile: *id051
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -26199,7 +26199,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id053 [32, 8, 1]
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -26333,7 +26333,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id051
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -26344,7 +26344,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id052
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -26478,7 +26478,7 @@
     SubGroup1: 8
     SubGroupA: 32
     SubGroupB: 8
-    ThreadTile: &id054 [4, 8]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -26489,7 +26489,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id053
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -26623,7 +26623,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    ThreadTile: *id054
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -26634,7 +26634,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: &id055 [16, 8, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -26768,7 +26768,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    ThreadTile: *id054
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -26779,7 +26779,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id055
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -26909,7 +26909,7 @@
     SubGroup1: 32
     SubGroupA: 8
     SubGroupB: 32
-    ThreadTile: *id051
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -27065,7 +27065,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id052
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -27195,7 +27195,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id054
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -27206,7 +27206,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id052
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -27336,7 +27336,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id051
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -27347,7 +27347,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id052
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -27481,7 +27481,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id051
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -27492,7 +27492,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id052
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -27626,7 +27626,7 @@
     SubGroup1: 8
     SubGroupA: 32
     SubGroupB: 8
-    ThreadTile: *id054
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -27637,7 +27637,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id053
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -27771,7 +27771,7 @@
     SubGroup1: 8
     SubGroupA: 32
     SubGroupB: 8
-    ThreadTile: *id054
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -27782,7 +27782,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id053
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     fractionalPerpOverhangA: 0
@@ -111313,9 +111313,9 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -111328,77 +111328,88 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdcEqualsLdd: true
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 16
-    MacroTileA: 128
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -111406,6 +111417,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -111415,6 +111427,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -111424,62 +111437,77 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 695
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT08_02_USFGRO0_VW02_WG16_08_02
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001 
-    ThreadTile0: 8
-    ThreadTile1: 2
-    ThreadTileA: 8
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id002 
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -111487,36 +111515,38 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 32
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 4
-    LSPB: 16
+    LSPB: 64
     LVCA: 64
-    LVCB: 16
+    LVCB: 4
     LVPA: 2
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -111525,36 +111555,46 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -111564,6 +111604,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -111573,62 +111614,77 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 696
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT08_02_USFGRO0_VW02_WG16_08_02
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_NLCA1_PGR1_PLR0_TT8_4_USFGRO0_VW2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id002
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -111636,36 +111692,38 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 32
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 16
+    LSPB: 64
     LVCA: 32
-    LVCB: 16
+    LVCB: 4
     LVPA: 2
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -111674,29 +111732,38 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -111704,6 +111771,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -111713,6 +111781,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -111722,31 +111791,43 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 697
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005 
-    ThreadTile0: 4
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -111754,63 +111835,72 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id004 
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 2560
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -111819,36 +111909,45 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -111858,6 +111957,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -111867,95 +111967,116 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 698
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x32_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id003 
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id002
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 2
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 4352
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -111963,37 +112084,46 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 8
-    MacroTileA: 128
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 8
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -112003,6 +112133,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -112012,62 +112143,77 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 699
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x008x32_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT04_02_USFGRO0_VW02_WG32_04_02
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id004
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -112075,32 +112221,38 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 16
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
+    LSCA: 64
+    LSCB: 8
     LSPA: 8
-    LSPB: 8
+    LSPB: 64
     LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 4352
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3104
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -112108,37 +112260,46 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 8
-    MacroTileA: 128
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -112148,6 +112309,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -112157,133 +112319,163 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 700
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x008x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG32_02_04
-    SubGroup0: 32
-    SubGroup1: 2
-    SubGroupA: 32
-    SubGroupB: 2
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id007 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
     LVPA: 4
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 6688
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1600
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -112293,6 +112485,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -112302,130 +112495,155 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 701
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_02_08
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_AMAS3_DTL0_EPS1_GRVW2_LPB2_NLCA1_PBD1_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 2
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 2
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id006 
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
     LVPA: 4
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 6688
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1600
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -112433,6 +112651,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -112442,6 +112661,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -112451,62 +112671,77 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 702
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_02_08
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_AMAS3_DTL0_EPS1_GRVW2_LPB2_NLCA1_PBD1_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 2
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 2
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id006
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -112514,70 +112749,85 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 32
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 2304
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3344
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -112587,6 +112837,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -112596,62 +112847,77 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 703
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT02_02_USFGRO0_VW02_WG32_04_02
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id008 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_AMAS3_DTL0_EPS1_GRVW2_LPB2_NLCA1_PBD1_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id004
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -112659,32 +112925,6591 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 32
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
+    LSCA: 64
+    LSCB: 8
     LSPA: 8
-    LSPB: 8
+    LSPB: 128
     LVCA: 32
-    LVCB: 32
-    LVPA: 2
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 4352
-    LdsOffsetA: 0
-    LdsOffsetB: 4096
-    LdsPadA: 0
-    LdsPadB: 0
+    LVCB: 2
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 704
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD1_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 705
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 706
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 707
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD0_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 708
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 4
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 32
+    LVCB: 2
+    LVPA: 1
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 709
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD1_PGR1_PLR1_TT8_8_USFGRO0_VW4_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 1928
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 448
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 48
+    MacroTileA: 64
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 710
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x48x8_SE_AMAS1_DTL0_EPS1_GRVW1_LPB1_NLCA1_PBD1_PGR1_PLR1_TT4_6_USFGRO0_VW1_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: true
+    DirectToLdsA: true
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 1
+    LSPB: 16
+    LVCA: 128
+    LVCB: 8
+    LVPA: 1
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 3592
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: true
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 64
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 711
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS1_DTL1_EPS1_GRVW1_LPB1_NLCA1_PBD1_PGR1_PLR0_TT8_8_USFGRO0_VW1_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 712
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW1_LPB4_NLCA1_PBD0_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 713
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 1928
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 448
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 48
+    MacroTileA: 64
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 714
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x48x8_SE_AMAS1_DTL0_EPS1_GRVW1_LPB1_NLCA1_PBD1_PGR1_PLR1_TT4_6_USFGRO0_VW1_WG16_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 16
+    LVCB: 2
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 715
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3360
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 716
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3848
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 320
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 3584
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 192
+    MacroTile1: 32
+    MacroTileA: 192
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 6
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 717
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT192x32x8_SE_AMAS1_DTL0_EPS1_GRVW1_LPB1_NLCA3_PBD1_PGR1_PLR1_TT6_4_USFGRO0_VW1_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 2
+    LSPB: 16
+    LVCA: 128
+    LVCB: 16
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: 1
+    LdsNumElements: 2832
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 48
+    MacroTileA: 128
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 8
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 718
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x48x16_SE_AMAS1_DTL0_EPS0_GRVW1_LPB1_NLCA1_PBD0_PGR0_PLR0_TT4_6_USFGRO1_VW1_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 2
+    LSPB: 32
+    LVCA: 128
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3592
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 719
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS1_DTL0_EPS1_GRVW1_LPB1_NLCA1_PBD1_PGR1_PLR0_TT4_8_USFGRO0_VW1_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 2
+    LSPB: 32
+    LVCA: 128
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3592
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 1
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 1
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I, K]
+    PackedC0IndicesX: [0, 2]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 720
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS1_DTL0_EPS1_GRVW1_LPB1_NLCA1_PBD1_PGR1_PLR0_TT4_8_USFGRO0_VW1_WG32_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
+    LdcEqualsLdd: 1
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 721
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 16
+    MacroTileA: 128
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 722
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT08_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [8, 2]
+    ThreadTile0: 8
+    ThreadTile1: 2
+    ThreadTileA: 8
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 16
+    MacroTileA: 128
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 723
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT08_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [8, 2]
+    ThreadTile0: 8
+    ThreadTile1: 2
+    ThreadTileA: 8
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 16
+    MacroTileA: 128
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 724
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 4, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2560
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 725
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x32_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4352
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 8
+    MacroTileA: 128
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 8
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 726
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x008x32_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT04_02_USFGRO0_VW02_WG32_04_02
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [32, 4, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4352
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 8
+    MacroTileA: 128
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 727
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x008x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG32_02_04
+    SubGroup0: 32
+    SubGroup1: 2
+    SubGroupA: 32
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 2, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 728
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_02_08
+    SubGroup0: 16
+    SubGroup1: 2
+    SubGroupA: 16
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 2, 8]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 729
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_02_08
+    SubGroup0: 16
+    SubGroup1: 2
+    SubGroupA: 16
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 2, 8]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2304
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 730
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT02_02_USFGRO0_VW02_WG32_04_02
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [32, 4, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4352
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 8
+    MacroTileA: 128
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 731
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x008x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG32_02_04
+    SubGroup0: 32
+    SubGroup1: 2
+    SubGroupA: 32
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [32, 2, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 732
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT08_02_USFGRO0_VW02_WG08_04_08
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [8, 2]
+    ThreadTile0: 8
+    ThreadTile1: 2
+    ThreadTileA: 8
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 4, 8]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 64
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 64
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2560
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 733
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x64_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 64
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4352
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 4
+    MacroTileA: 64
+    MacroTileB: 4
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 8
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 734
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x004x64_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT02_02_USFGRO0_VW02_WG32_02_04
+    SubGroup0: 32
+    SubGroup1: 2
+    SubGroupA: 32
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [32, 2, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 64
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 8
+    LSPB: 4
+    LVCA: 32
+    LVCB: 64
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 4352
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 4
+    MacroTileA: 64
+    MacroTileB: 4
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 8
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 735
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x004x64_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT04_02_USFGRO0_VW02_WG16_02_08
+    SubGroup0: 16
+    SubGroup1: 2
+    SubGroupA: 16
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 2, 8]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 48
+    LSCB: 16
+    LSPA: 4
+    LSPB: 12
+    LVCA: 48
+    LVCB: 16
+    LVPA: 4
+    LVPB: 12
+    LdcEqualsLdd: false
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 48
+    MacroTile1: 36
+    MacroTileA: 48
+    MacroTileB: 36
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 9
+    NumGlobalWriteVectorsPerThread: 9
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 736
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x036x16_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT06_03_USFGRO01_VW01_WG08_12_02
+    SubGroup0: 8
+    SubGroup1: 12
+    SubGroupA: 8
+    SubGroupB: 12
+    SuppresssNoLoadLoop: false
+    ThreadTile: [6, 3]
+    ThreadTile0: 6
+    ThreadTile1: 3
+    ThreadTileA: 6
+    ThreadTileB: 3
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [8, 12, 2]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 12
+    LSCB: 16
+    LSPA: 16
+    LSPB: 12
+    LVCA: 12
+    LVCB: 16
+    LVPA: 16
+    LVPB: 12
+    LdcEqualsLdd: false
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 36
+    MacroTile1: 48
+    MacroTileA: 36
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 9
+    NumGlobalWriteVectorsPerThread: 9
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 737
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT036x048x16_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT03_03_USFGRO01_VW01_WG12_16_01
+    SubGroup0: 12
+    SubGroup1: 16
+    SubGroupA: 12
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: [3, 3]
+    ThreadTile0: 3
+    ThreadTile1: 3
+    ThreadTileA: 3
+    ThreadTileB: 3
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [12, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 48
+    MacroTile1: 48
+    MacroTileA: 48
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 9
+    NumGlobalWriteVectorsPerThread: 9
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 738
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x048x16_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT03_03_USFGRO01_VW01_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: [3, 3]
+    ThreadTile0: 3
+    ThreadTile1: 3
+    ThreadTileA: 3
+    ThreadTileB: 3
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 48
+    LSCB: 32
+    LSPA: 8
+    LSPB: 12
+    LVCA: 24
+    LVCB: 16
+    LVPA: 4
+    LVPB: 6
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 48
+    MacroTile1: 24
+    MacroTileA: 48
+    MacroTileB: 24
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 6
+    NumGlobalWriteVectorsPerThread: 3
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 739
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x024x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT06_04_USFGRO0_VW02_WG08_06_04
+    SubGroup0: 8
+    SubGroup1: 6
+    SubGroupA: 8
+    SubGroupB: 6
+    SuppresssNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 6, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 24
+    LSCB: 32
+    LSPA: 8
+    LSPB: 6
+    LVCA: 24
+    LVCB: 32
+    LVPA: 8
+    LVPB: 6
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 24
+    MacroTile1: 24
+    MacroTileA: 24
+    MacroTileB: 24
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 3
+    NumGlobalWriteVectorsPerThread: 3
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 740
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT024x024x32_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT03_04_USFGRO01_VW01_WG08_06_04
+    SubGroup0: 8
+    SubGroup1: 6
+    SubGroupA: 8
+    SubGroupB: 6
+    SuppresssNoLoadLoop: false
+    ThreadTile: [3, 4]
+    ThreadTile0: 3
+    ThreadTile1: 4
+    ThreadTileA: 3
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [8, 6, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 48
+    LSCB: 32
+    LSPA: 8
+    LSPB: 12
+    LVCA: 24
+    LVCB: 16
+    LVPA: 4
+    LVPB: 6
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 48
+    MacroTile1: 24
+    MacroTileA: 48
+    MacroTileB: 24
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 6
+    NumGlobalWriteVectorsPerThread: 3
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 741
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x024x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT06_04_USFGRO0_VW02_WG08_06_04
+    SubGroup0: 8
+    SubGroup1: 6
+    SubGroupA: 8
+    SubGroupB: 6
+    SuppresssNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 6, 4]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 832
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 742
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 16
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 743
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 8
+    LVCB: 2
+    LVPA: 2
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 744
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x08_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 16
+    LVCB: 2
+    LVPA: 1
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -112692,10 +119517,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 8
-    MacroTileA: 128
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -112703,20 +119528,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -112755,46 +119580,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 704
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x008x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG32_02_04
-    SubGroup0: 32
-    SubGroup1: 2
-    SubGroupA: 32
-    SubGroupB: 2
+    SolutionIndex: 745
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x08_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO00_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id007
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -112804,47 +119629,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 32
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
     LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -112852,15 +119677,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -112904,48 +119729,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 705
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT08_02_USFGRO0_VW02_WG08_04_08
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SolutionIndex: 746
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id001
-    ThreadTile0: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 8]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 64
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -112953,43 +119778,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 64
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 4
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2560
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -112997,20 +119826,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -113049,48 +119878,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 706
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x64_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SolutionIndex: 747
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id008
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 64
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -113098,43 +119927,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
+    LSPB: 16
+    LVCA: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4352
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 4
-    MacroTileA: 64
-    MacroTileB: 4
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113142,20 +119975,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -113194,48 +120027,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 707
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x004x64_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT02_02_USFGRO0_VW02_WG32_02_04
-    SubGroup0: 32
-    SubGroup1: 2
-    SubGroupA: 32
-    SubGroupB: 2
+    SolutionIndex: 748
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id008
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id007
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 64
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -113243,32 +120076,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 8
-    LSPB: 4
-    LVCA: 32
-    LVCB: 64
-    LVPA: 4
-    LVPB: 4
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4352
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -113276,10 +120113,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 4
-    MacroTileA: 64
-    MacroTileB: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113287,20 +120124,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -113339,85 +120176,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 708
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x004x64_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT04_02_USFGRO0_VW02_WG16_02_08
-    SubGroup0: 16
-    SubGroup1: 2
-    SubGroupA: 16
-    SubGroupB: 2
+    SolutionIndex: 749
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id003
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 48
-    LSCB: 16
-    LSPA: 4
-    LSPB: 12
-    LVCA: 48
-    LVCB: 16
-    LVPA: 4
-    LVPB: 12
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 8
+    LVCB: 2
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -113425,10 +120262,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 48
-    MacroTile1: 36
-    MacroTileA: 48
-    MacroTileB: 36
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113436,15 +120273,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 9
-    NumGlobalWriteVectorsPerThread: 9
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 3
-    NumThreads: 192
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -113488,47 +120325,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 709
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x036x16_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT06_03_USFGRO01_VW01_WG08_12_02
+    SolutionIndex: 750
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x08_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
     SubGroup0: 8
-    SubGroup1: 12
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 12
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: [6, 3]
-    ThreadTile0: 6
-    ThreadTile1: 3
-    ThreadTileA: 6
-    ThreadTileB: 3
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 12, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -113536,31 +120373,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 12
-    LSCB: 16
-    LSPA: 16
-    LSPB: 12
-    LVCA: 12
-    LVCB: 16
-    LVPA: 16
-    LVPB: 12
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -113573,11 +120410,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 36
-    MacroTile1: 48
-    MacroTileA: 36
-    MacroTileB: 48
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113585,15 +120422,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 9
-    NumGlobalWriteVectorsPerThread: 9
-    NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
-    NumThreads: 192
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -113637,47 +120474,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 710
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT036x048x16_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT03_03_USFGRO01_VW01_WG12_16_01
-    SubGroup0: 12
-    SubGroup1: 16
-    SubGroupA: 12
-    SubGroupB: 16
+    SolutionIndex: 751
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009 
-    ThreadTile0: 3
-    ThreadTile1: 3
-    ThreadTileA: 3
-    ThreadTileB: 3
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [12, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -113685,31 +120522,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
     LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -113722,11 +120559,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 48
-    MacroTile1: 48
-    MacroTileA: 48
-    MacroTileB: 48
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113734,15 +120571,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 9
-    NumGlobalWriteVectorsPerThread: 9
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 3
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -113786,48 +120623,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 711
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x048x16_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT03_03_USFGRO01_VW01_WG16_16_01
+    SolutionIndex: 752
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id009
-    ThreadTile0: 3
-    ThreadTile1: 3
-    ThreadTileA: 3
-    ThreadTileB: 3
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -113835,47 +120672,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 48
-    LSCB: 32
-    LSPA: 8
-    LSPB: 12
-    LVCA: 24
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 32
     LVCB: 16
-    LVPA: 4
-    LVPB: 6
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 48
-    MacroTile1: 24
-    MacroTileA: 48
-    MacroTileB: 24
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113883,15 +120720,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 6
-    NumGlobalWriteVectorsPerThread: 3
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 192
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -113935,96 +120772,96 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 712
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x024x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT06_04_USFGRO0_VW02_WG08_06_04
-    SubGroup0: 8
-    SubGroup1: 6
-    SubGroupA: 8
-    SubGroupB: 6
+    SolutionIndex: 753
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG32_04_01
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id011 
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id010 
+    WorkGroup: [32, 4, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 24
-    LSCB: 32
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
     LSPA: 8
-    LSPB: 6
-    LVCA: 24
-    LVCB: 32
-    LVPA: 8
-    LVPB: 6
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 24
-    MacroTile1: 24
-    MacroTileA: 24
-    MacroTileB: 24
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114032,15 +120869,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 3
-    NumGlobalWriteVectorsPerThread: 3
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 192
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -114084,46 +120921,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 713
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT024x024x32_DTL0_EPS1_GRVW01_LPB00_PGR1_SNLL0_TT03_04_USFGRO01_VW01_WG08_06_04
+    SolutionIndex: 754
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
     SubGroup0: 8
-    SubGroup1: 6
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 6
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: [3, 4]
-    ThreadTile0: 3
-    ThreadTile1: 4
-    ThreadTileA: 3
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id010
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -114133,47 +120970,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 48
-    LSCB: 32
-    LSPA: 8
-    LSPB: 12
-    LVCA: 24
-    LVCB: 16
-    LVPA: 4
-    LVPB: 6
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 4
+    LSPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 2
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 48
-    MacroTile1: 24
-    MacroTileA: 48
-    MacroTileB: 24
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114181,15 +121018,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 6
-    NumGlobalWriteVectorsPerThread: 3
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
-    NumThreads: 192
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -114233,25 +121070,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 714
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT048x024x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT06_04_USFGRO0_VW02_WG08_06_04
+    SolutionIndex: 755
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG08_08_01
     SubGroup0: 8
-    SubGroup1: 6
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 6
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id011
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id010
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -114265,7 +121102,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -114273,39 +121110,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Source
     LSCA: 32
-    LSCB: 8
-    LSPA: 4
-    LSPB: 8
-    LVCA: 16
-    LVCB: 8
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 8
+    LVCB: 4
     LVPA: 2
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 832
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114318,11 +121155,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 32
-    MacroTile1: 8
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114330,14 +121167,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -114382,25 +121219,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 715
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_04_01
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 756
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id017 
+    VectorWidth: 4
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -114414,7 +121251,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -114439,22 +121276,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Source
-    LSCA: 16
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
     LSPB: 16
-    LVCA: 8
-    LVCB: 4
-    LVPA: 4
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114467,10 +121304,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -114479,15 +121316,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -114531,17 +121368,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 716
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 757
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 0
@@ -114549,7 +121386,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013 
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -114563,7 +121400,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -114588,22 +121425,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Source
-    LSCA: 32
-    LSCB: 8
+    LSCA: 64
+    LSCB: 16
     LSPA: 8
     LSPB: 32
-    LVCA: 8
-    LVCB: 2
+    LVCA: 16
+    LVCB: 4
     LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114616,10 +121453,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -114630,13 +121467,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -114680,14 +121517,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 717
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x08_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 758
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_08_01
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016 
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -114698,7 +121535,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -114712,7 +121549,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -114720,39 +121557,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Source
     LSCA: 64
-    LSCB: 8
+    LSCB: 16
     LSPA: 4
-    LSPB: 32
-    LVCA: 16
-    LVCB: 2
-    LVPA: 1
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114765,11 +121602,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114777,15 +121614,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -114829,26 +121666,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 718
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x08_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO00_VW04_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 759
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id013
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -114861,7 +121698,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -114870,7 +121707,7 @@
     ExpandPointerSwap: false
     FractionalLoad: false
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -114883,25 +121720,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Source
     LSCA: 32
     LSCB: 8
-    LSPA: 8
+    LSPA: 4
     LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 384
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -114914,7 +121751,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 24
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -114926,15 +121763,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 6
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 6
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -114978,17 +121815,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 719
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 760
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x24_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG08_08_01
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 0
@@ -114996,7 +121833,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014 
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -115010,7 +121847,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -115019,7 +121856,7 @@
     ExpandPointerSwap: false
     FractionalLoad: false
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -115032,25 +121869,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Source
-    LSCA: 64
-    LSCB: 8
+    LSCA: 32
+    LSCB: 32
     LSPA: 4
-    LSPB: 16
-    LVCA: 32
-    LVCB: 8
+    LSPB: 4
+    LVCA: 16
+    LVCB: 16
     LVPA: 2
-    LVPB: 16
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -115063,11 +121900,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115075,15 +121912,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -115127,17 +121964,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 720
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
+    SolutionIndex: 761
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_04_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015 
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 0
@@ -115145,17 +121982,17 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
+    WorkGroup: [16, 4, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -115165,10 +122002,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -115176,22 +122013,22 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 8
     LSPA: 8
     LSPB: 16
-    LVCA: 8
-    LVCB: 4
-    LVPA: 4
-    LVPB: 8
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 512
     LdsNumElementsAlignedA: 128
@@ -115205,14 +122042,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 16
     MacroTile1: 16
     MacroTileA: 16
@@ -115224,15 +122061,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -115276,35 +122113,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 721
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
+    SolutionIndex: 762
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -115314,58 +122151,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 128
     LSCB: 8
-    LSPA: 4
-    LSPB: 16
-    LVCA: 16
-    LVCB: 4
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
     LVPA: 2
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 4
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115373,15 +122210,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -115425,35 +122262,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 722
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 763
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x08_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -115463,58 +122300,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 16
     LSCB: 8
     LSPA: 8
-    LSPB: 32
-    LVCA: 8
-    LVCB: 2
-    LVPA: 2
-    LVPB: 8
+    LSPB: 16
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115522,15 +122359,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -115574,35 +122411,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 723
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x08_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
+    SolutionIndex: 764
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -115612,9 +122449,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -115623,46 +122460,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 16
     LSCB: 8
     LSPA: 8
     LSPB: 16
     LVCA: 16
     LVCB: 8
-    LVPA: 4
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
     LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -115671,8 +122508,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -115723,47 +122560,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 724
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 765
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -115771,37 +122608,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 8
-    LSPA: 4
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
     LSPB: 16
     LVCA: 32
-    LVCB: 8
+    LVCB: 16
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -115809,9 +122646,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 16
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -115821,14 +122658,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -115872,35 +122709,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 725
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x08_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SolutionIndex: 766
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id014
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [32, 4, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -115910,9 +122747,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -115920,27 +122757,27 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 4
-    LSPB: 8
-    LVCA: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3200
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 128
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -115950,18 +122787,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115970,14 +122807,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -116021,35 +122858,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 726
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG32_04_01
-    SubGroup0: 32
+    SolutionIndex: 767
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_04_04
+    SubGroup0: 16
     SubGroup1: 4
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 4, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -116059,8 +122896,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -116070,22 +122907,22 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
+    LSPA: 16
+    LSPB: 16
     LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 1024
     LdsNumElementsAlignedA: 256
@@ -116099,14 +122936,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 16
     MacroTile1: 16
     MacroTileA: 16
@@ -116118,15 +122955,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -116170,35 +123007,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 727
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
+    SolutionIndex: 768
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -116208,8 +123045,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -116219,22 +123056,22 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 32
     LSCB: 16
-    LSPA: 4
-    LSPB: 8
+    LSPA: 8
+    LSPB: 16
     LVCA: 16
     LVCB: 8
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
@@ -116248,14 +123085,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -116267,15 +123104,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -116319,35 +123156,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 728
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG08_08_01
+    SolutionIndex: 769
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -116357,8 +123194,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -116368,22 +123205,22 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 16
+    LSPA: 16
+    LSPB: 32
     LVCA: 8
     LVCB: 4
-    LVPA: 2
-    LVPB: 4
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
@@ -116397,14 +123234,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 32
     MacroTileA: 32
@@ -116416,15 +123253,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -116468,35 +123305,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 729
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
+    SolutionIndex: 770
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -116506,37 +123343,37 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 32
-    LVCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
     LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -116546,18 +123383,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116565,13 +123402,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -116617,35 +123454,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 730
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 771
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id014
+    VectorWidth: 4
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -116655,58 +123492,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116714,15 +123551,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -116766,35 +123603,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 731
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 772
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id014
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -116804,10 +123641,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -116815,46 +123652,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 32
     LSCB: 16
-    LSPA: 4
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -116863,15 +123700,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -116915,48 +123752,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 732
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 773
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -116964,46 +123801,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 8
-    LSPA: 4
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3200
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 384
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -117012,15 +123849,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 6
-    NumLoadsB: 3
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 6
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -117064,96 +123901,96 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 733
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x24_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO00_VW02_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 774
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 32
-    LSPA: 4
-    LSPB: 4
-    LVCA: 16
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
     LVCB: 16
     LVPA: 2
-    LVPB: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 16
+    MacroTileA: 128
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117161,15 +123998,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -117213,26 +124050,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 734
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG16_04_01
-    SubGroup0: 16
+    SolutionIndex: 775
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
+    SubGroup0: 32
     SubGroup1: 4
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id017
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 4, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -117245,7 +124082,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117253,7 +124090,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -117261,37 +124098,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -117299,9 +124136,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 16
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -117310,7 +124147,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -117318,7 +124155,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -117362,26 +124199,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 735
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 776
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id019 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -117394,7 +124231,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117420,27 +124257,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 8
+    LSCB: 16
     LSPA: 8
-    LSPB: 32
+    LSPB: 16
     LVCA: 32
-    LVCB: 8
+    LVCB: 16
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -117449,9 +124286,9 @@
     LoopTail: true
     LoopUnroll: 4
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117459,13 +124296,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -117511,14 +124348,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 736
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x08_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG16_08_02
+    SolutionIndex: 777
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG16_04_04
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021 
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -117529,7 +124366,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id024 
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -117543,7 +124380,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117551,8 +124388,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -117560,30 +124397,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 8
+    LSCA: 32
+    LSCB: 16
     LSPA: 8
     LSPB: 16
     LVCA: 16
     LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -117596,10 +124433,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -117608,13 +124445,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -117660,26 +124497,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 737
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
+    SolutionIndex: 778
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -117692,7 +124529,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117700,39 +124537,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 8
-    LSPA: 8
-    LSPB: 16
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -117745,11 +124582,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117757,8 +124594,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -117809,26 +124646,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 738
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
+    SolutionIndex: 779
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -117850,7 +124687,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -117863,25 +124700,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
     LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -117895,10 +124732,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 16
-    MacroTileA: 128
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117906,15 +124743,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -117958,17 +124795,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 739
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
+    SolutionIndex: 780
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020 
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -117976,8 +124813,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id025 
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -117998,7 +124835,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -118006,31 +124843,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 16
     LSPA: 16
     LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 4
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -118044,9 +124881,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 64
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -118055,7 +124892,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -118107,26 +124944,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 740
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_04_04
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 781
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026 
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -118148,7 +124985,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -118161,41 +124998,41 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 16
     LSPA: 16
     LSPB: 16
-    LVCA: 8
-    LVCB: 8
+    LVCA: 16
+    LVCB: 16
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -118212,7 +125049,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -118256,17 +125093,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 741
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG08_08_02
+    SolutionIndex: 782
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -118274,8 +125111,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -118297,7 +125134,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -118310,17 +125147,17 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
@@ -118353,15 +125190,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -118405,17 +125242,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 742
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
-    SubGroup0: 8
+    SolutionIndex: 783
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022 
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -118423,8 +125260,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -118445,39 +125282,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 8
-    LVCB: 4
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -118491,10 +125328,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118502,15 +125339,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -118554,26 +125391,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 743
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
-    SubGroup0: 8
+    SolutionIndex: 784
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -118611,22 +125448,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
     LSPA: 8
-    LSPB: 32
-    LVCA: 16
+    LSPB: 64
+    LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -118640,10 +125477,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118651,15 +125488,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -118703,26 +125540,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 744
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_02
-    SubGroup0: 8
+    SolutionIndex: 785
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -118743,7 +125580,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -118751,47 +125588,47 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
+    LVCA: 32
     LVCB: 16
-    LVPA: 16
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 128
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -118800,13 +125637,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -118852,25 +125689,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 745
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 786
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023 
+    VectorWidth: 4
+    WorkGroup: [32, 4, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -118893,7 +125730,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -118901,24 +125738,24 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 16
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
@@ -118930,14 +125767,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -118949,15 +125786,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -119001,14 +125838,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 746
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
+    SolutionIndex: 787
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -119019,7 +125856,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -119041,39 +125878,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -119087,10 +125924,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119098,15 +125935,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -119150,25 +125987,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 747
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 788
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id024
+    VectorWidth: 4
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -119191,7 +126028,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -119199,30 +126036,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
     LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -119236,10 +126073,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 16
-    MacroTileA: 128
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119247,15 +126084,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -119299,17 +126136,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 748
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
+    SolutionIndex: 789
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -119317,8 +126154,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id025
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -119339,7 +126176,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -119347,31 +126184,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 16
     LSPA: 16
     LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 4
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -119385,9 +126222,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 64
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -119396,7 +126233,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -119448,26 +126285,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 749
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_04_04
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 790
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -119488,7 +126325,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -119496,31 +126333,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
+    LVCA: 16
     LVCB: 16
-    LVPA: 2
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -119534,9 +126371,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 128
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -119545,13 +126382,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -119597,26 +126434,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 750
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG16_04_04
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 791
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -119637,55 +126474,55 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
     LVCA: 16
-    LVCB: 8
+    LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -119695,14 +126532,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -119746,25 +126583,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 751
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 792
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id019
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -119795,7 +126632,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -119895,14 +126732,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 752
+    SolutionIndex: 793
     SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -119913,7 +126750,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -119935,56 +126772,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119992,15 +126829,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -120044,25 +126881,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 753
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_02
+    SolutionIndex: 794
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id019
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -120093,7 +126930,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -120193,14 +127030,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 754
+    SolutionIndex: 795
     SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -120211,8 +127048,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -120225,7 +127062,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120233,56 +127070,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LVCB: 2
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 12
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120290,15 +127127,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 3
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 3
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -120342,26 +127179,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 755
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
+    SolutionIndex: 796
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -120374,7 +127211,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120382,39 +127219,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LVCB: 2
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -120427,11 +127264,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 12
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120439,15 +127276,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 3
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 3
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -120491,25 +127328,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 756
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 797
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id024
+    VectorWidth: 4
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -120523,7 +127360,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120543,19 +127380,19 @@
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 3328
     LdsNumElementsAlignedA: 1024
@@ -120569,7 +127406,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120577,10 +127414,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120588,8 +127425,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -120640,17 +127477,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 757
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SolutionIndex: 798
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -120658,8 +127495,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id024
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -120672,7 +127509,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120680,35 +127517,35 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 8
-    LSPB: 64
+    LSPB: 8
     LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
+    LdsNumElements: 6400
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -120718,7 +127555,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120726,10 +127563,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120737,13 +127574,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -120789,26 +127626,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 758
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_08_02
+    SolutionIndex: 799
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_04_04
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027 
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id024
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -120821,7 +127658,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120830,7 +127667,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -120838,36 +127675,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 32
     LSPA: 8
-    LSPB: 16
+    LSPB: 32
     LVCA: 32
-    LVCB: 16
+    LVCB: 8
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -120876,9 +127713,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120886,13 +127723,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -120938,25 +127775,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 759
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG32_04_02
-    SubGroup0: 32
+    SolutionIndex: 800
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_04_04
+    SubGroup0: 16
     SubGroup1: 4
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id025
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -120970,7 +127807,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120987,7 +127824,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -120996,21 +127833,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 32
     LSPA: 8
-    LSPB: 16
+    LSPB: 8
     LVCA: 16
-    LVCB: 8
+    LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -121023,7 +127860,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -121037,12 +127874,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -121087,14 +127924,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 760
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
+    SolutionIndex: 801
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -121105,7 +127942,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -121119,7 +127956,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121127,30 +127964,30 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
     LVCA: 8
-    LVCB: 4
-    LVPA: 4
+    LVCB: 16
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 2048
@@ -121165,7 +128002,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -121173,10 +128010,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121184,15 +128021,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -121236,25 +128073,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 761
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
+    SolutionIndex: 802
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id019
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -121268,7 +128105,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121285,7 +128122,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -121293,18 +128130,18 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 8
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 16
-    LVCB: 4
-    LVPA: 2
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -121314,7 +128151,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -121322,9 +128159,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -121333,15 +128170,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -121385,17 +128222,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 762
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_02
+    SolutionIndex: 803
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -121403,7 +128240,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -121417,7 +128254,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121425,39 +128262,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -121470,11 +128307,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121482,13 +128319,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -121534,25 +128371,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 763
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
+    SolutionIndex: 804
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -121566,7 +128403,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121575,7 +128412,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -121583,46 +128420,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
+    LVCA: 32
     LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -121631,13 +128468,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -121683,14 +128520,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 764
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
-    SubGroup0: 8
+    SolutionIndex: 805
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -121701,7 +128538,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -121715,7 +128552,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121723,7 +128560,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -121731,25 +128568,25 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 8
     LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
@@ -121768,11 +128605,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121780,13 +128617,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -121832,25 +128669,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 765
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_04_04
+    SolutionIndex: 806
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
     SubGroup0: 16
     SubGroup1: 4
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -121864,7 +128701,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121881,7 +128718,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -121889,28 +128726,28 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
     LSPB: 32
-    LVCA: 8
-    LVCB: 4
-    LVPA: 4
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -121918,9 +128755,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 128
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 128
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -121929,15 +128766,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -121981,25 +128818,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 766
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 807
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -122013,7 +128850,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -122022,7 +128859,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -122030,30 +128867,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
     LSPB: 16
     LVCA: 16
     LVCB: 16
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -122066,7 +128903,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -122080,11 +128917,11 @@
     NonTemporalC: 0
     NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -122130,14 +128967,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 767
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
+    SolutionIndex: 808
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -122148,7 +128985,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -122162,7 +128999,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -122170,39 +129007,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -122215,11 +129052,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122227,7 +129064,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -122279,26 +129116,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 768
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
+    SolutionIndex: 809
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -122311,7 +129148,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -122337,38 +129174,38 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 2
-    LVPA: 2
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1536
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 12
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122376,15 +129213,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -122428,26 +129265,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 769
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG08_08_02
+    SolutionIndex: 810
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -122460,7 +129297,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -122486,21 +129323,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 2
-    LVPA: 2
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -122513,11 +129350,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 12
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122525,15 +129362,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -122577,25 +129414,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 770
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG08_08_02
-    SubGroup0: 8
+    SolutionIndex: 811
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id019
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -122617,56 +129454,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 128
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122674,14 +129511,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -122726,26 +129563,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 771
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SolutionIndex: 812
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_08_02
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -122775,30 +129612,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
-    LSPA: 8
+    LSPA: 16
     LSPB: 8
-    LVCA: 32
+    LVCA: 16
     LVCB: 32
-    LVPA: 4
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -122812,9 +129649,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 8
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -122823,13 +129660,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -122875,17 +129712,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 772
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_04_04
+    SolutionIndex: 813
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
     SubGroup0: 16
     SubGroup1: 4
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -122893,7 +129730,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -122915,39 +129752,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 32
     LSPA: 8
-    LSPB: 32
+    LSPB: 8
     LVCA: 32
-    LVCB: 8
-    LVPA: 2
+    LVCB: 32
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -122961,10 +129798,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122972,8 +129809,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -123024,25 +129861,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 773
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_04_04
+    SolutionIndex: 814
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_04_04
     SubGroup0: 16
     SubGroup1: 4
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -123064,35 +129901,35 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -123102,18 +129939,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123122,14 +129959,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -123173,25 +130010,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 774
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_02
+    SolutionIndex: 815
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id019
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -123214,7 +130051,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -123222,30 +130059,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -123259,10 +130096,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123272,11 +130109,11 @@
     NonTemporalC: 0
     NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -123322,14 +130159,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 775
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 816
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -123340,8 +130177,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id023
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -123371,7 +130208,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -123471,14 +130308,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 776
+    SolutionIndex: 817
     SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -123489,8 +130326,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -123520,7 +130357,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -123620,14 +130457,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 777
+    SolutionIndex: 818
     SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -123638,8 +130475,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -123669,7 +130506,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -123769,14 +130606,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 778
+    SolutionIndex: 819
     SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
     SubGroup0: 16
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
@@ -123787,8 +130624,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id024
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -123818,7 +130655,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -123918,14 +130755,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 779
+    SolutionIndex: 820
     SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
     SubGroup0: 16
     SubGroup1: 4
     SubGroupA: 16
     SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
@@ -123936,8 +130773,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -123958,6 +130795,155 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 821
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -123967,36 +130953,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 128
-    LSCB: 32
+    LSCB: 8
     LSPA: 8
-    LSPB: 32
+    LSPB: 128
     LVCA: 32
-    LVCB: 8
+    LVCB: 2
     LVPA: 2
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -124005,9 +130987,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124015,20 +130997,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -124067,96 +131049,92 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 780
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_04_04
+    SolutionIndex: 822
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x08_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO00_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124164,20 +131142,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -124216,46 +131194,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 781
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 823
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -124265,22 +131243,22 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
@@ -124294,18 +131272,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124313,8 +131291,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -124365,46 +131343,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 782
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 824
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -124414,47 +131392,192 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 825
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_08_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsOffsetA: 0
+    LdsOffsetB: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124462,20 +131585,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -124514,46 +131637,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 783
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 826
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT06_08_USFGRO00_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [6, 8]
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -124563,36 +131686,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    KernelLanguage: Source
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -124600,10 +131719,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124611,8 +131730,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -124624,7 +131743,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -124663,46 +131782,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 784
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG16_08_02
+    SolutionIndex: 827
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id024
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -124712,36 +131831,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 128
-    LSCB: 32
+    LSCB: 16
     LSPA: 8
-    LSPB: 32
+    LSPB: 64
     LVCA: 32
-    LVCB: 8
+    LVCB: 4
     LVPA: 2
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -124762,12 +131881,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -124812,96 +131931,92 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 785
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_08_USFGRO0_VW04_WG16_08_02
+    SolutionIndex: 828
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id027
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id024
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 64
     LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124909,20 +132024,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -124961,96 +132076,96 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 786
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SolutionIndex: 829
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125058,13 +132173,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -125110,46 +132225,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 787
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_04_04
+    SolutionIndex: 830
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -125159,47 +132274,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    KernelLanguage: Source
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125207,14 +132322,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -125259,48 +132374,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 788
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 831
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_08_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -125308,47 +132423,43 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 32
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 32
     LVCA: 16
-    LVCB: 32
+    LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125356,20 +132467,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -125408,46 +132519,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 789
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SolutionIndex: 832
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT06_08_USFGRO00_VW02_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [6, 8]
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -125457,47 +132568,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    KernelLanguage: Source
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125505,13 +132616,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -125557,35 +132668,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 790
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO0_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 833
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id020
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -125595,8 +132706,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -125606,14 +132717,14 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 64
     LSCB: 32
     LSPA: 16
@@ -125623,30 +132734,26 @@
     LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 32
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125654,20 +132761,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -125706,35 +132813,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 791
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO0_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 834
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id021
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id023
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -125744,58 +132851,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 64
     LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 6144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125803,20 +132906,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -125855,35 +132958,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 792
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x016x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT04_02_USFGRO0_VW02_WG16_08_02
+    SolutionIndex: 835
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_08_USFGRO00_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id024
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -125893,58 +132996,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
+    KernelLanguage: Source
+    LSCA: 128
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 6144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 4096
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125952,20 +133051,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -126004,35 +133103,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 793
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SolutionIndex: 836
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -126042,58 +133141,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
+    KernelLanguage: Source
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 8
+    LSPB: 32
     LVCA: 16
-    LVCB: 32
-    LVPA: 8
+    LVCB: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126101,20 +133196,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -126153,25 +133248,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 794
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x008x32_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO0_VW02_WG16_04_04
+    SolutionIndex: 837
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -126185,7 +133280,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -126210,18 +133305,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Source
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126234,11 +133333,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126246,20 +133345,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -126298,46 +133397,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 795
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x08_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 838
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028 
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -126354,19 +133453,23 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126379,11 +133482,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126391,8 +133494,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -126404,7 +133507,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -126443,46 +133546,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 796
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 839
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x08_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id029 
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -126499,15 +133602,15 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
@@ -126528,11 +133631,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126540,8 +133643,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -126592,35 +133695,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 797
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 840
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x08_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id029
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -126631,7 +133734,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -126648,7 +133751,7 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
     LSPA: 16
@@ -126658,13 +133761,9 @@
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126679,9 +133778,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126689,20 +133788,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -126741,35 +133840,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 798
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_08_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 841
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id031 
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -126779,37 +133878,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126823,10 +133926,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126834,20 +133937,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -126886,35 +133989,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 799
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT06_08_USFGRO00_VW02_WG16_16_01
+    SolutionIndex: 842
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id032 
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id028
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -126925,7 +134028,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -126942,19 +134045,19 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 128
+    KernelLanguage: Assembly
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -126968,10 +134071,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126981,12 +134084,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -127031,35 +134134,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 800
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 843
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id030 
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -127069,8 +134172,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -127087,23 +134190,23 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 128
+    KernelLanguage: Assembly
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -127117,10 +134220,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127130,12 +134233,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -127180,35 +134283,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 801
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 844
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id030
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -127218,37 +134321,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 32
     LSCB: 16
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -127262,10 +134369,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127273,20 +134380,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -127325,35 +134432,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 802
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 845
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT06_08_USFGRO0_VW02_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id029
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppresssNoLoadLoop: true
+    ThreadTile: [6, 8]
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id028
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -127364,7 +134471,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -127381,23 +134488,19 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -127411,9 +134514,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -127422,20 +134525,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -127474,35 +134577,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 803
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 846
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id029
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -127512,8 +134615,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -127530,23 +134633,23 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
+    KernelLanguage: Assembly
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -127560,10 +134663,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127573,12 +134676,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -127623,35 +134726,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 804
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_08_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 847
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id031
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -127661,8 +134764,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -127679,19 +134782,23 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
+    KernelLanguage: Assembly
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 4
     LSPB: 32
-    LVCA: 16
+    LVCA: 64
     LVCB: 8
-    LVPA: 8
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetB: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -127705,10 +134812,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 96
+    MacroTileA: 128
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127718,18 +134825,18 @@
     NonTemporalC: 0
     NumElementsPerThread: 48
     NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -127768,35 +134875,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 805
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS0_GRVW02_LPB00_PGR0_SNLL0_TT06_08_USFGRO00_VW02_WG16_16_01
+    SolutionIndex: 848
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x096x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT08_06_USFGRO0_VW02_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id032
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 6]
+    ThreadTile0: 8
+    ThreadTile1: 6
+    ThreadTileA: 8
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id028
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -127807,7 +134914,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -127824,7 +134931,7 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 128
     LSCB: 16
     LSPA: 8
@@ -127834,13 +134941,9 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -127855,9 +134958,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127865,20 +134968,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -127917,46 +135020,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 806
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 849
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id030
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -127973,19 +135076,23 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    KernelLanguage: Assembly
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -127998,11 +135105,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128010,8 +135117,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -128023,7 +135130,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -128062,46 +135169,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 807
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 850
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id029
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -128118,19 +135225,19 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6144
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128143,11 +135250,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128155,14 +135262,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -128207,46 +135314,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 808
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_08_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 851
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id031
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -128263,19 +135370,23 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 128
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6144
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128288,10 +135399,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -128300,20 +135411,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -128352,46 +135463,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 809
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 852
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id030
-    ThreadTile0: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -128408,19 +135519,19 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128433,11 +135544,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128445,13 +135556,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -128497,46 +135608,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 810
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 853
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id029
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -128553,23 +135664,23 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128582,11 +135693,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128594,13 +135705,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -128646,25 +135757,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 811
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG16_16_01
+    SolutionIndex: 854
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id029
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id028
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -128678,7 +135789,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -128686,39 +135797,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128731,10 +135842,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 96
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 96
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -128743,14 +135854,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -128795,26 +135906,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 812
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x08_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 855
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT06_08_USFGRO0_VW02_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033 
-    ThreadTile0: 8
+    ThreadTile: [6, 8]
+    ThreadTile0: 6
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 6
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034 
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -128827,13 +135938,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -128853,21 +135964,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 8
+    LSCB: 16
     LSPA: 8
-    LSPB: 128
+    LSPB: 64
     LVCA: 32
-    LVCB: 2
+    LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -128880,11 +135987,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128892,20 +135999,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -128944,25 +136051,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 813
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x08_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 856
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    SuppresssNoLoadLoop: false
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -128982,7 +136089,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -129001,18 +136108,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129026,9 +136137,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -129037,20 +136148,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129089,17 +136200,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 814
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 857
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id035 
-    ThreadTile0: 4
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -129107,8 +136218,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -129129,39 +136240,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129175,10 +136286,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 96
+    MacroTileA: 128
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129186,14 +136297,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -129238,26 +136349,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 815
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 858
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x096x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT08_06_USFGRO0_VW02_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id035
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 6]
+    ThreadTile0: 8
+    ThreadTile1: 6
+    ThreadTileA: 8
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -129295,18 +136406,18 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129320,9 +136431,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -129331,13 +136442,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -129383,17 +136494,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 816
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 859
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id036 
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -129401,8 +136512,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -129440,22 +136551,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129469,9 +136580,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -129480,13 +136591,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -129532,17 +136643,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 817
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 860
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id036
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -129550,8 +136661,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -129564,47 +136675,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 6144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129617,10 +136724,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
+    LoopUnroll: 24
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -129629,20 +136736,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129681,25 +136788,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 818
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT06_08_USFGRO0_VW02_WG16_16_01
+    SolutionIndex: 861
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id038 
-    ThreadTile0: 6
+    SuppresssNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id034
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -129713,13 +136820,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -129739,17 +136846,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 128
     LVCA: 32
-    LVCB: 4
+    LVCB: 2
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 3072
+    LdsNumElementsAlignedB: 3072
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 3072
+    LdsOffsetB_Blk: 11264
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129762,11 +136873,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 24
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129774,20 +136885,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 3
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 3
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129826,25 +136937,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 819
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 862
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id037 
+    SuppresssNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -129858,13 +136969,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -129884,21 +136995,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 128
     LVCA: 32
-    LVCB: 4
+    LVCB: 2
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -129911,11 +137018,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 24
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129923,20 +137030,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 3
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 3
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129975,26 +137082,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 820
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 863
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id037
+    SuppresssNoLoadLoop: false
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -130007,7 +137114,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -130015,39 +137122,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
-    LSPA: 4
-    LSPB: 32
-    LVCA: 64
-    LVCB: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 3072
+    LdsNumElementsAlignedB: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 3072
+    LdsOffsetB_Blk: 11264
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -130060,11 +137167,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 24
     MacroTile0: 128
-    MacroTile1: 96
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 96
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130072,14 +137179,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 3
     NumLoadsB: 3
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 3
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -130124,26 +137231,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 821
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x096x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT08_06_USFGRO0_VW02_WG16_16_01
+    SolutionIndex: 864
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id039 
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 6
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 6
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id034
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -130156,7 +137263,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -130181,14 +137288,14 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsOffsetA: 0
@@ -130205,11 +137312,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130217,8 +137324,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -130269,25 +137376,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 822
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 865
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -130301,7 +137408,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -130326,14 +137433,14 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
@@ -130354,11 +137461,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130366,8 +137473,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -130418,25 +137525,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 823
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 866
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -130450,7 +137557,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -130475,18 +137582,18 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 6144
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 4096
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -130499,10 +137606,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 32
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -130511,14 +137618,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -130563,17 +137670,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 824
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 867
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id035
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -130581,8 +137688,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -130595,7 +137702,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -130620,22 +137727,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -130648,10 +137755,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 32
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -130660,14 +137767,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -130712,17 +137819,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 825
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 868
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id035
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -130730,8 +137837,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -130744,7 +137851,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -130769,18 +137876,18 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 8192
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 4096
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -130793,10 +137900,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 32
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -130805,14 +137912,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -130857,17 +137964,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 826
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 869
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id036
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -130875,8 +137982,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -130889,7 +137996,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -130914,22 +138021,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -130942,10 +138049,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 32
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -130954,14 +138061,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -131006,17 +138113,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 827
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 870
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id036
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -131024,8 +138131,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -131038,47 +138145,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
     LSPB: 32
     LVCA: 16
     LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -131091,11 +138194,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131103,20 +138206,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -131155,25 +138258,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 828
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT096x128x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT06_08_USFGRO0_VW02_WG16_16_01
+    SolutionIndex: 871
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id038
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id034
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -131187,13 +138290,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -131212,18 +138315,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -131236,10 +138343,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -131248,20 +138355,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -131300,17 +138407,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 829
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 872
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id037
-    ThreadTile0: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -131318,7 +138425,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -131332,13 +138439,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -131358,21 +138465,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 32
     LSPA: 8
-    LSPB: 64
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
+    LVCB: 8
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 4096
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -131385,7 +138488,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -131399,18 +138502,18 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -131449,14 +138552,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 830
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 873
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id037
+    SuppresssNoLoadLoop: false
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -131467,7 +138570,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -131481,7 +138584,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -131489,39 +138592,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
-    LSPA: 4
+    LSCB: 32
+    LSPA: 8
     LSPB: 32
-    LVCA: 64
+    LVCA: 32
     LVCB: 8
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -131534,11 +138637,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 128
-    MacroTile1: 96
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131546,14 +138649,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 4
-    NumLoadsB: 3
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -131598,25 +138701,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 831
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x096x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT08_06_USFGRO0_VW02_WG16_16_01
+    SolutionIndex: 874
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id039
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 6
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id034
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -131630,7 +138733,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -131656,17 +138759,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 32
     LSPA: 8
-    LSPB: 64
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
+    LVCB: 8
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 8192
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 4096
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -131679,7 +138782,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 128
     MacroTile1: 128
     MacroTileA: 128
@@ -131693,12 +138796,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -131743,14 +138846,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 832
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 875
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -131761,7 +138864,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -131775,7 +138878,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -131801,21 +138904,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 32
     LSPA: 8
-    LSPB: 64
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
+    LVCB: 8
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -131828,7 +138931,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 128
     MacroTile1: 128
     MacroTileA: 128
@@ -131842,12 +138945,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -131892,14 +138995,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 833
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 876
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
     SuppresssNoLoadLoop: true
-    ThreadTile: *id033
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -131910,57 +139013,61 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 4
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 4
+    LSPA: 4
+    LSPB: 16
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6144
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetB: 3072
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -131973,11 +139080,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131985,20 +139092,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -132037,48 +139144,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 834
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 877
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x04_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 2
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -132090,26 +139197,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 2
+    LSPA: 2
+    LSPB: 32
     LVCA: 32
     LVCB: 2
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 3072
-    LdsNumElementsAlignedB: 3072
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 3072
-    LdsOffsetB_Blk: 11264
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -132122,11 +139229,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132134,15 +139241,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -132186,25 +139293,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 835
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SolutionIndex: 878
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x02_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -132218,60 +139325,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6144
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132279,20 +139390,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -132331,26 +139442,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 836
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SolutionIndex: 879
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT02_02_USFGRO01_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -132363,7 +139474,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 4
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -132371,39 +139482,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 16
+    LSCB: 4
+    LSPA: 4
+    LSPB: 16
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 3072
-    LdsNumElementsAlignedB: 3072
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 3072
-    LdsOffsetB_Blk: 11264
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -132416,11 +139527,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132428,15 +139539,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 3
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -132480,26 +139591,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 837
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x24_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SolutionIndex: 880
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x04_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -132512,60 +139623,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132573,20 +139688,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -132625,25 +139740,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 838
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 881
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT008x008x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id035
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -132657,7 +139772,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 4
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -132665,39 +139780,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
+    LSCA: 16
+    LSCB: 4
+    LSPA: 4
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -132710,11 +139825,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132722,15 +139837,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -132774,25 +139889,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 839
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id035
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SolutionIndex: 882
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x04_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -132806,60 +139921,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
+    LSCA: 8
+    LSCB: 8
     LSPA: 8
-    LSPB: 32
-    LVCA: 32
+    LSPB: 8
+    LVCA: 8
     LVCB: 8
-    LVPA: 2
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6144
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132867,20 +139986,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -132919,25 +140038,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 840
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 883
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT008x008x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id037
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -132951,7 +140070,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -132959,56 +140078,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
+    LSCA: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 32
-    LVCA: 32
+    LSPB: 16
+    LVCA: 16
     LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -133016,15 +140135,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -133068,25 +140187,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 841
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id037
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SolutionIndex: 884
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -133100,60 +140219,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
+    LSCA: 8
+    LSCB: 8
     LSPA: 8
-    LSPB: 32
-    LVCA: 32
+    LSPB: 8
+    LVCA: 8
     LVCB: 8
-    LVPA: 2
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -133161,20 +140284,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -133213,25 +140336,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 842
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 885
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT008x008x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [4, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -133245,7 +140368,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -133253,56 +140376,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 4096
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -133310,14 +140433,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -133362,25 +140485,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 843
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SolutionIndex: 886
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -133394,16 +140517,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -133416,23 +140539,27 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 16
+    LVCA: 32
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3360
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -133443,11 +140570,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -133457,18 +140584,18 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -133507,14 +140634,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 844
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id035
+    SolutionIndex: 887
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x08_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG32_08_01
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -133525,8 +140652,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -133539,7 +140666,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -133548,7 +140675,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -133561,27 +140688,27 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 16
+    LVCA: 32
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3360
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -133592,11 +140719,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -133606,12 +140733,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -133656,14 +140783,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 845
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 888
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x08_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG32_08_01
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppresssNoLoadLoop: true
-    ThreadTile: *id035
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -133674,7 +140801,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -133688,13 +140815,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -133713,20 +140840,24 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6144
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -133737,10 +140868,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -133749,20 +140880,20 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -133801,17 +140932,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 846
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 889
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id037
-    ThreadTile0: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -133819,8 +140950,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -133833,7 +140964,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -133859,23 +140990,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 32
+    LSCB: 16
     LSPA: 8
-    LSPB: 32
+    LSPB: 64
     LVCA: 32
-    LVCB: 8
+    LVCB: 4
     LVPA: 2
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -133886,7 +141017,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -133900,12 +141031,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -133950,26 +141081,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 847
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_04_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 890
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_08_USFGRO0_VW04_WG32_08_01
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppresssNoLoadLoop: true
-    ThreadTile: *id037
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id034
-    WorkGroupMapping: 8
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -133982,7 +141113,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -133990,37 +141121,37 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
+    LSCA: 32
+    LSCB: 16
     LSPA: 8
-    LSPB: 32
+    LSPB: 16
     LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 2592
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -134031,10 +141162,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -134043,21 +141174,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsA: 2
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 8
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134095,25 +141226,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 848
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS0_GRVW04_LPB00_PGR0_SNLL0_TT08_08_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 891
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x128x16_DTL0_EPS0_GRVW01_LPB02_PGR0_SNLL0_TT04_04_USFGRO01_VW01_WG08_32_01
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 1
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -134127,49 +141258,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
+    LSCB: 16
+    LSPA: 2
+    LSPB: 16
+    LVCA: 128
+    LVCB: 16
     LVPA: 2
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 4096
+    LdsNumElements: 2592
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -134180,11 +141307,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134192,21 +141319,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134244,46 +141371,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 849
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x32_DTL0_EPS1_GRVW04_LPB00_PGR1_SNLL1_TT08_08_USFGRO0_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SolutionIndex: 892
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x16_DTL0_EPS0_GRVW01_LPB02_PGR0_SNLL0_TT04_04_USFGRO01_VW02_WG32_08_01
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id034
+    VectorWidth: 2
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
-    DirectToLds: false
-    DirectToLdsA: false
+    DepthU: 16
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -134292,7 +141419,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -134300,40 +141427,36 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 4
-    LSPA: 4
+    KernelLanguage: Assembly
+    LSCA: 256
+    LSCB: 16
+    LSPA: 1
     LSPB: 16
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LVCA: 256
+    LVCB: 16
+    LVPA: 1
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 4640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 4096
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 256
+    MacroTile1: 32
+    MacroTileA: 256
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134341,21 +141464,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 16
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 16
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134393,46 +141516,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 850
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x04_DTL0_EPS0_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO00_VW02_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 893
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x032x16_DTL1_EPS0_GRVW01_LPB02_PGR0_SNLL0_TT08_04_USFGRO01_VW02_WG32_08_01
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 32
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id040 
-    WorkGroupMapping: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 2
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -134441,33 +141564,29 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 2
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 16
     LSPA: 2
-    LSPB: 32
-    LVCA: 32
-    LVCB: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
     LVPA: 2
-    LVPB: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 1600
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -134478,10 +141597,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -134491,20 +141610,20 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134542,11 +141661,11 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 851
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x032x02_DTL0_EPS0_GRVW04_LPB00_PGR1_SNLL0_TT04_04_USFGRO00_VW04_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 894
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS0_GRVW01_LPB04_PGR0_SNLL0_TT04_04_USFGRO01_VW01_WG16_08_01
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -134555,13 +141674,13 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id040
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -134580,7 +141699,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -134590,48 +141709,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 16
-    LSPA: 16
+    LSPA: 4
     LSPB: 16
-    LVCA: 16
+    LVCA: 64
     LVCB: 16
-    LVPA: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134639,21 +141754,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134691,26 +141806,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 852
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL1_TT02_02_USFGRO01_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id041 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 895
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW01_LPB04_PGR0_SNLL0_TT04_04_USFGRO01_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id044 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -134723,49 +141838,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 4
-    LSPA: 4
-    LSPB: 16
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
     LVCA: 16
     LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -134776,11 +141887,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134788,21 +141899,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134840,26 +141951,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 853
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x04_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 896
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB04_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id042 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -134872,64 +141983,60 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 128
+    LSCB: 16
     LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3136
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134937,21 +142044,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134989,31 +142096,30 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 854
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT008x008x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SolutionIndex: 897
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB04_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id043 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -135021,14 +142127,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -135037,31 +142142,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 4
-    LSPA: 4
-    LSPB: 16
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 2
+    LSPB: 32
+    LVCA: 128
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -135074,11 +142179,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135086,15 +142191,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -135138,31 +142241,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 855
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x04_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 898
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x08_DTL0_GRVW01_GSU08_PGR1_PLR1_TT08_04_USFGRO01_VW01_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id042
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -135171,13 +142274,12 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -135186,48 +142288,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 256
     LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
+    LSPA: 1
+    LSPB: 32
+    LVCA: 256
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 1
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 2304
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 256
+    MacroTile1: 32
+    MacroTileA: 256
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135235,20 +142333,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 8
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -135287,31 +142383,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 856
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT008x008x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 899
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x032x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT08_04_USFGRO01_VW04_WG32_08_01_WGM08
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id043
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -135325,10 +142421,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -135336,47 +142431,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 128
     LSCB: 8
-    LSPA: 8
-    LSPB: 16
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135384,15 +142479,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -135436,31 +142529,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 857
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 900
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x08_DTL0_GRVW02_GSU01_PGR1_PLR1_TT08_04_USFGRO0_VW02_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -135474,10 +142567,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -135485,47 +142577,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 128
     LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135533,15 +142625,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -135585,31 +142675,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 858
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT008x008x08_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 901
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x08_DTL0_GRVW02_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW02_WG32_08_01_WGM01
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id043
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -135617,64 +142707,63 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
-    LVPA: 16
+    LVCB: 2
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135682,15 +142771,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -135734,31 +142821,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 859
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT016x016x16_DTL0_EPS1_GRVW02_LPB00_PGR1_SNLL0_TT02_02_USFGRO01_VW02_WG08_08_04
-    SubGroup0: 8
+    SolutionIndex: 902
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG16_08_01_WGM01
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id041
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id044
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -135772,10 +142859,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -135788,27 +142874,27 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
+    LSPB: 64
+    LVCA: 16
+    LVCB: 2
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3360
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -135820,10 +142906,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135831,15 +142917,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -135883,31 +142967,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 860
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x08_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG32_08_01
-    SubGroup0: 32
+    SolutionIndex: 903
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG16_08_01_WGM08
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id045 
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id046 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -135915,16 +142999,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -135937,27 +143020,23 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3360
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -135968,11 +143047,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135980,20 +143059,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -136032,17 +143109,16 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 861
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x08_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG32_08_01
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id045
-    ThreadTile0: 4
+    SolutionIndex: 904
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT08_04_USFGRO0_VW04_WG08_32_01_WGM01
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -136050,13 +143126,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id046
-    WorkGroupMapping: 8
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -136070,8 +143147,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -136098,15 +143174,15 @@
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6208
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136131,8 +143207,6 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -136181,14 +143255,13 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 862
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_04_USFGRO0_VW04_WG16_16_01
+    SolutionIndex: 905
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG16_16_01_WGM01
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id045
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -136202,10 +143275,11 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -136219,8 +143293,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -136238,24 +143311,20 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136267,10 +143336,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -136280,18 +143349,16 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -136330,13 +143397,12 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 863
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS1_GRVW04_LPB04_PGR1_SNLL1_TT04_08_USFGRO0_VW04_WG32_08_01
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppresssNoLoadLoop: true
+    SolutionIndex: 906
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT04_08_USFGRO0_VW04_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
@@ -136348,13 +143414,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id046
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -136368,39 +143435,38 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 128
     LSCB: 16
     LSPA: 8
-    LSPB: 16
+    LSPB: 64
     LVCA: 32
-    LVCB: 16
-    LVPA: 8
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2592
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136412,10 +143478,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -136423,21 +143489,19 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 8
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 8
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -136475,31 +143539,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 864
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT032x128x16_DTL0_EPS0_GRVW01_LPB02_PGR0_SNLL0_TT04_04_USFGRO01_VW01_WG08_32_01
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id047 
-    ThreadTile0: 4
+    SolutionIndex: 907
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT08_04_USFGRO0_VW04_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -136513,39 +143577,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 16
-    LSPA: 2
-    LSPB: 16
-    LVCA: 128
-    LVCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2592
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136558,9 +143625,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -136568,21 +143635,19 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -136620,31 +143685,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 865
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x032x16_DTL0_EPS0_GRVW01_LPB02_PGR0_SNLL0_TT04_04_USFGRO01_VW02_WG32_08_01
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id047
-    ThreadTile0: 4
+    SolutionIndex: 908
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT08_04_USFGRO0_VW04_WG16_16_01_WGM01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id048 
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -136653,59 +143718,62 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 16
-    DirectToLds: true
-    DirectToLdsA: true
+    DirectToLds: false
+    DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 256
+    LSCA: 128
     LSCB: 16
-    LSPA: 1
-    LSPB: 16
-    LVCA: 256
-    LVCB: 16
-    LVPA: 1
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4640
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 4096
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: true
+    LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 256
-    MacroTile1: 32
-    MacroTileA: 256
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -136714,20 +143782,18 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 16
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 16
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -136765,31 +143831,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 866
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x032x16_DTL1_EPS0_GRVW01_LPB02_PGR0_SNLL0_TT08_04_USFGRO01_VW02_WG32_08_01
+    SolutionIndex: 909
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG32_08_01_WGM01
     SubGroup0: 32
     SubGroup1: 8
     SubGroupA: 32
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id050 
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id048
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -136803,39 +143869,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
     LVPA: 2
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1600
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136847,10 +143916,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -136858,21 +143927,19 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 8
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -136910,77 +143977,82 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 867
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x032x16_DTL0_EPS0_GRVW01_LPB04_PGR0_SNLL0_TT04_04_USFGRO01_VW01_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 910
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG32_08_01_WGM08
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id047
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136991,10 +144063,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -137003,21 +144075,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -137055,33 +144130,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 868
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW01_LPB04_PGR0_SNLL0_TT04_04_USFGRO01_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 911
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id047
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id049 
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -137093,8 +144178,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -137109,23 +144194,27 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -137137,10 +144226,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -137148,21 +144237,24 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -137200,48 +144292,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 869
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_EPS0_GRVW04_LPB04_PGR0_SNLL0_TT04_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 912
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id047
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id049
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -137254,23 +144356,27 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
     LSPB: 64
     LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -137281,7 +144387,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -137295,19 +144401,22 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -137345,14 +144454,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 870
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_EPS0_GRVW04_LPB04_PGR0_SNLL0_TT08_04_USFGRO0_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 913
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id050
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -137363,59 +144479,64 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id049
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: false
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 8
-    LSPA: 2
-    LSPB: 32
-    LVCA: 128
-    LVCB: 8
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -137428,11 +144549,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -137440,13 +144561,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -137490,74 +144616,89 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 871
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x08_DTL0_GRVW01_GSU08_PGR1_PLR1_TT08_04_USFGRO01_VW01_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 914
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id051 
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id052 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
-    DirectToLds: true
-    DirectToLdsA: true
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 256
-    LSCB: 8
-    LSPA: 1
-    LSPB: 32
-    LVCA: 256
-    LVCB: 8
-    LVPA: 1
-    LVPB: 32
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2304
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -137566,15 +144707,15 @@
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: true
+    LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 256
-    MacroTile1: 32
-    MacroTileA: 256
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -137582,18 +144723,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -137632,44 +144778,55 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 872
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x032x08_DTL1_GRVW01_GSU01_PGR0_PLR1_TT08_04_USFGRO01_VW04_WG32_08_01_WGM08
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    ThreadTile: *id051
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 915
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM32
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id053 
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -137685,42 +144842,42 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -137728,13 +144885,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -137778,16 +144940,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 873
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x08_DTL0_GRVW02_GSU01_PGR1_PLR1_TT08_04_USFGRO0_VW02_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 916
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW2_GSU1_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_8_2_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    ThreadTile: *id051
-    ThreadTile0: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -137795,16 +144965,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id052
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -137816,8 +144988,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -137825,33 +144998,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 4
+    LSPA: 8
     LSPB: 64
-    LVCA: 64
+    LVCA: 32
     LVCB: 4
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -137875,12 +145048,17 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -137924,44 +145102,55 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 874
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x08_DTL0_GRVW02_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW02_WG32_08_01_WGM01
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    ThreadTile: *id054 
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 917
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id053
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -137977,31 +145166,31 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
+    LSCA: 32
+    LSCB: 16
     LSPA: 8
-    LSPB: 64
-    LVCA: 16
-    LVCB: 2
+    LSPB: 16
+    LVCA: 8
+    LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1856
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
     LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -138009,10 +145198,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -138020,13 +145209,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -138070,44 +145264,55 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 875
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG16_08_01_WGM01
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    ThreadTile: *id054
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 918
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_4_2_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id055 
-    WorkGroupMapping: 1
+    WorkGroup: [8, 4, 2]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -138123,27 +145328,27 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
+    LSCA: 128
+    LSCB: 16
     LSPA: 8
     LSPB: 64
-    LVCA: 16
-    LVCB: 2
+    LVCA: 32
+    LVCB: 4
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -138154,10 +145359,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -138170,9 +145375,14 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -138216,33 +145426,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 876
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x08_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG16_08_01_WGM08
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 919
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    ThreadTile: *id054
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id055
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -138254,9 +145474,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -138269,38 +145490,42 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
+    LVCB: 8
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -138308,18 +145533,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -138358,16 +145588,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 877
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT08_04_USFGRO0_VW04_WG08_32_01_WGM01
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    ThreadTile: *id051
-    ThreadTile0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 920
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -138375,16 +145613,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -138396,6 +145636,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -138411,7 +145652,7 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
@@ -138423,26 +145664,26 @@
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -138461,6 +145702,11 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -138504,44 +145750,55 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 878
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_04_USFGRO0_VW04_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 921
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    ThreadTile: [4, 4]
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id052
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -138557,27 +145814,31 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 2
+    LVPB: 2
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -138585,10 +145846,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -138596,18 +145857,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 64
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -138646,44 +145912,55 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 879
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT064x128x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT04_08_USFGRO0_VW04_WG16_16_01_WGM01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    ThreadTile: *id054
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 922
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_4_2_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id052
-    WorkGroupMapping: 1
+    WorkGroup: [8, 4, 2]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -138699,27 +145976,31 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -138727,10 +146008,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -138738,18 +146019,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -138788,16 +146074,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 880
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR0_PLR1_TT08_04_USFGRO0_VW04_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 923
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM4
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    ThreadTile: *id051
-    ThreadTile0: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -138805,16 +146099,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id052
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -138826,6 +146122,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -138841,7 +146138,7 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
@@ -138853,15 +146150,15 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 7232
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -138891,6 +146188,11 @@
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -138934,13 +146236,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 881
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT08_04_USFGRO0_VW04_WG16_16_01_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 924
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    ThreadTile: *id051
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -138951,16 +146261,18 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id052
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -138972,9 +146284,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -138987,42 +146300,42 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -139030,13 +146343,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -139080,33 +146398,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 882
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG32_08_01_WGM01
-    SubGroup0: 32
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 925
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 8
-    ThreadTile: *id054
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id053
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -139118,6 +146446,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -139133,41 +146462,41 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -139176,13 +146505,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -139226,13 +146560,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 883
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x064x16_DTL0_GRVW04_GSU01_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG32_08_01_WGM08
-    SubGroup0: 32
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 926
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 8
-    ThreadTile: *id054
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
     ThreadTileA: 4
@@ -139243,9 +146585,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id053
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -139259,7 +146602,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -139285,27 +146628,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 8
+    LSCB: 16
     LSPA: 8
-    LSPB: 64
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
+    LVCB: 8
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -139314,9 +146657,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -139324,11 +146667,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -139383,15 +146726,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 884
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM4
+    SolutionIndex: 927
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -139404,10 +146747,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -139421,7 +146764,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -139446,28 +146789,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 7296
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -139475,10 +146818,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -139486,12 +146829,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -139545,31 +146888,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 885
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM4
+    SolutionIndex: 928
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -139583,7 +146926,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -139592,7 +146935,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -139609,23 +146952,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 8
+    LSCB: 16
     LSPA: 8
     LSPB: 64
     LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -139636,7 +146979,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -139652,7 +146995,7 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -139707,8 +147050,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 886
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 929
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -139729,9 +147072,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -139754,7 +147097,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -139770,39 +147113,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -139810,12 +147153,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -139869,29 +147212,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 887
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 930
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -139932,39 +147275,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -139972,12 +147315,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -140031,20 +147374,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 888
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_EPS1_GRVW4_GSU1_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM32
+    SolutionIndex: 931
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -140052,8 +147395,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 32
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -140069,7 +147412,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -140077,7 +147420,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -140085,33 +147428,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 128
+    LSCB: 16
     LSPA: 8
-    LSPB: 16
+    LSPB: 32
     LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -140122,10 +147465,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -140134,12 +147477,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -140193,8 +147536,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 889
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW2_GSU1_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_8_2_WGM4
+    SolutionIndex: 932
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140203,21 +147546,21 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 4
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -140231,7 +147574,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -140240,7 +147583,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -140256,39 +147599,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -140296,11 +147639,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -140355,177 +147698,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 890
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM4
+    SolutionIndex: 933
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
-    UnrollMemFence: false
-    UseSgprForGRO: false
-    Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 4
-    WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
-    AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
-    AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: false
-    AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
-    BufferStore: true
-    CheckDimOverflow: 0
-    CheckTensorDimAsserts: false
-    DepthU: 16
-    DirectToLds: false
-    DirectToLdsA: false
-    DirectToLdsB: false
-    DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
-    GlobalRead2A: true
-    GlobalRead2B: true
-    GlobalReadCoalesceGroupA: true
-    GlobalReadCoalesceGroupB: true
-    GlobalReadCoalesceVectorA: true
-    GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
-    GlobalSplitUSummationAssignmentRoundRobin: true
-    GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
-    InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 8
-    LSPB: 16
-    LVCA: 8
-    LVCB: 4
-    LVPA: 2
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 1856
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
-    LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 4
-    LocalDotLayout: 1
-    LocalRead2A: true
-    LocalRead2B: true
-    LocalSplitU: 2
-    LocalWrite2A: true
-    LocalWrite2B: true
-    LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
-    MacroTileShapeMax: 64
-    MacroTileShapeMin: 1
-    MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
-    NonTemporalA: 0
-    NonTemporalB: 0
-    NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
-    PackBatchDims: 0
-    PackFreeDims: 1
-    PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
-    PerformanceSyncLocation: -1
-    PerformanceWaitCount: -1
-    PerformanceWaitLocation: -1
-    PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
-    ProblemType:
-      AssignedDerivedParameters: true
-      Batched: true
-      ComplexConjugateA: false
-      ComplexConjugateB: false
-      DataType: 0
-      DestDataType: 0
-      HighPrecisionAccumulate: false
-      Index0: 0
-      Index01A: 0
-      Index01B: 1
-      Index1: 1
-      IndexAssignmentsA: [0, 3, 2]
-      IndexAssignmentsB: [3, 1, 2]
-      IndexUnroll: 3
-      IndexUnrollA: 1
-      IndexUnrollB: 0
-      IndicesBatch: [2]
-      IndicesFree: [0, 1]
-      IndicesSummation: [3]
-      NumIndicesBatch: 1
-      NumIndicesC: 3
-      NumIndicesFree: 2
-      NumIndicesSummation: 1
-      OperationType: GEMM
-      SilentHighPrecisionAccumulate: false
-      TLUA: true
-      TLUB: false
-      Tensor0: 0
-      Tensor1: 1
-      TileA: 0
-      TileB: 1
-      TotalIndices: 4
-      TransposeA: false
-      TransposeB: false
-      UseBeta: true
-      UseInitialStrides: false
-    ReplacementKernel: false
-    ScheduleGlobalRead: 1
-    ScheduleIterAlg: 1
-    ScheduleLocalWrite: 1
-    SolutionIndex: 891
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_4_2_WGM4
-    StaggerU: 32
-    StaggerUMapping: 0
-    StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -140538,10 +147719,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 4, 2]
-    WorkGroupMapping: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -140679,8 +147860,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 892
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM4
+    SolutionIndex: 934
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM32
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140701,7 +147882,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 4
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -140841,8 +148022,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 893
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM4
+    SolutionIndex: 935
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM32
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140863,7 +148044,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 4
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -140879,7 +148060,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -140905,21 +148086,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
+    LVCB: 8
     LVPA: 4
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -140932,11 +148113,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -140944,11 +148125,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -141003,8 +148184,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 894
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM4
+    SolutionIndex: 936
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM32
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -141013,11 +148194,11 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -141025,9 +148206,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 4
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -141041,7 +148222,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -141050,7 +148231,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -141066,39 +148247,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 128
+    LSCB: 8
     LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
     LVPA: 2
-    LVPB: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3712
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 640
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141106,13 +148287,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -141138,6 +148319,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -141147,6 +148329,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -141165,20 +148348,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 895
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_4_2_WGM4
+    SolutionIndex: 937
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM2
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -141186,10 +148369,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 4, 2]
-    WorkGroupMapping: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 2
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -141203,7 +148386,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -141212,7 +148395,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -141228,39 +148411,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141268,11 +148451,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -141300,6 +148483,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -141309,6 +148493,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -141327,31 +148512,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 896
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM4
+    SolutionIndex: 938
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM2
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 2
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -141365,7 +148550,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -141374,7 +148559,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -141390,24 +148575,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSCA: 256
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
     LVCB: 4
-    LVPA: 2
+    LVPA: 1
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
+    LdsNumElements: 6400
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -141418,11 +148603,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 256
+    MacroTile1: 32
+    MacroTileA: 256
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141462,6 +148647,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -141471,6 +148657,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -141489,31 +148676,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 897
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 939
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x32x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG64_4_1_WGM2
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 64
+    SubGroup1: 4
+    SubGroupA: 64
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [64, 4, 1]
+    WorkGroupMapping: 2
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -141527,7 +148714,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -141552,28 +148739,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -141581,9 +148768,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -141592,8 +148779,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -141624,6 +148811,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -141633,6 +148821,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -141651,14 +148840,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 898
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
+    SolutionIndex: 940
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS1_PGR1_SNLL1_TT4_4_WG32_8_1_WGM4
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -141672,10 +148861,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 4
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -141689,7 +148878,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -141698,7 +148887,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -141714,28 +148903,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -141743,9 +148932,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -141754,8 +148943,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -141786,6 +148975,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -141795,6 +148985,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -141813,14 +149004,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 899
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM8
+    SolutionIndex: 941
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM7
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 8]
@@ -141834,10 +149025,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 7
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -141851,7 +149042,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -141877,27 +149068,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 32
+    LSPB: 64
     LVCA: 32
-    LVCB: 8
+    LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -141906,9 +149097,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141916,11 +149107,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -141948,6 +149139,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -141957,6 +149149,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -141975,31 +149168,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 900
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_8_2_WGM8
+    SolutionIndex: 942
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM15
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 15
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -142013,7 +149206,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -142022,7 +149215,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -142038,39 +149231,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142078,11 +149271,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -142110,6 +149303,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -142119,6 +149313,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -142137,20 +149332,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 901
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
+    SolutionIndex: 943
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -142158,10 +149353,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -142175,7 +149370,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -142184,7 +149379,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -142201,23 +149396,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
     LSPB: 64
     LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -142228,7 +149423,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -142244,7 +149439,7 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -142272,6 +149467,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -142281,6 +149477,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -142299,8 +149496,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 902
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM16
+    SolutionIndex: 944
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM17
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -142321,9 +149518,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 17
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -142337,13 +149534,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
@@ -142362,28 +149559,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LSCA: 256
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 4
+    LVPA: 1
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -142391,10 +149584,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 256
+    MacroTile1: 16
+    MacroTileA: 256
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142402,11 +149595,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -142418,7 +149611,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -142434,6 +149627,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -142443,6 +149637,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -142461,16 +149656,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 903
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
+    SolutionIndex: 945
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x16x8_SE_EPS0_PGR0_SNLL0_TT4_4_WG64_4_1_WGM17
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroup0: 64
+    SubGroup1: 4
+    SubGroupA: 64
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -142482,10 +149677,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [64, 4, 1]
+    WorkGroupMapping: 17
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -142499,7 +149694,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -142508,7 +149703,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -142524,28 +149719,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -142553,9 +149748,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -142564,8 +149759,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -142596,6 +149791,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -142605,6 +149801,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -142623,14 +149820,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 904
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM16
+    SolutionIndex: 946
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM32
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 8]
@@ -142644,10 +149841,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -142661,13 +149858,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
@@ -142686,28 +149883,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 2
-    LVPB: 16
+    LSCA: 256
+    LSCB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 4
+    LVPA: 1
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -142715,10 +149908,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 256
+    MacroTile1: 16
+    MacroTileA: 256
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142742,7 +149935,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -142758,6 +149951,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -142767,6 +149961,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -142785,20 +149980,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 905
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_8_2_WGM16
+    SolutionIndex: 947
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x16x8_SE_EPS0_PGR0_SNLL0_TT4_4_WG64_4_1_WGM32
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 64
+    SubGroup1: 4
+    SubGroupA: 64
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -142806,10 +150001,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [64, 4, 1]
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -142823,7 +150018,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -142849,27 +150044,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -142878,9 +150073,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142888,11 +150083,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -142920,6 +150115,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -142929,6 +150125,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -142947,15 +150144,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 906
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
+    SolutionIndex: 948
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM2
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -142968,10 +150165,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 2
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -143010,38 +150207,38 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -143050,11 +150247,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -143082,6 +150279,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -143091,6 +150289,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -143109,29 +150308,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 907
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM32
+    SolutionIndex: 949
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM2
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 32
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 2
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -143156,7 +150355,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -143175,36 +150374,36 @@
     LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -143212,12 +150411,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -143244,6 +150443,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -143253,6 +150453,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -143271,29 +150472,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 908
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM32
+    SolutionIndex: 950
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_16_1_WGM7
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 32
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 7
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -143309,7 +150510,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -143335,23 +150536,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -143362,11 +150563,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -143374,11 +150575,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -143406,6 +150607,7 @@
       Index1: 1
       IndexAssignmentsA: [0, 3, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 1
       IndexUnrollB: 0
@@ -143415,6 +150617,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -143433,8 +150636,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 909
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_EPS1_GRVW4_GSU1_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM32
+    SolutionIndex: 951
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM7
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -143443,11 +150646,11 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -143455,9 +150658,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 32
+    WorkGroupMapping: 7
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -143471,7 +150674,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -143480,7 +150683,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -143496,18 +150699,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -143517,7 +150720,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -143525,9 +150728,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -143536,8 +150739,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -143597,31 +150800,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 910
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM2
+    SolutionIndex: 952
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM11
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 11
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -143635,7 +150838,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -143644,7 +150847,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -143660,18 +150863,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -143688,10 +150891,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -143700,8 +150903,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -143761,31 +150964,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 911
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM2
+    SolutionIndex: 953
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -143799,7 +151002,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -143808,7 +151011,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -143824,28 +151027,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 256
-    LSCB: 8
-    LSPA: 4
-    LSPB: 32
-    LVCA: 64
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
     LVCB: 4
-    LVPA: 1
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -143853,10 +151056,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 256
-    MacroTile1: 32
-    MacroTileA: 256
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -143864,11 +151067,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -143925,15 +151128,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 912
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x32x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG64_4_1_WGM2
+    SolutionIndex: 954
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM32
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 64
-    SubGroup1: 4
-    SubGroupA: 64
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 8]
     ThreadTile0: 4
@@ -143946,10 +151149,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [64, 4, 1]
-    WorkGroupMapping: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -143963,7 +151166,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -143988,18 +151191,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 32
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -144009,7 +151212,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -144017,9 +151220,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -144028,8 +151231,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -144089,14 +151292,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 913
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS1_PGR1_SNLL1_TT4_4_WG32_8_1_WGM4
+    SolutionIndex: 955
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_8_2_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -144110,10 +151313,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -144127,7 +151330,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -144136,7 +151339,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -144152,38 +151355,38 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -144192,12 +151395,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -144253,14 +151456,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 914
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM7
+    SolutionIndex: 956
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM32
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 8]
@@ -144274,10 +151477,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 7
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 32
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -144417,29 +151620,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 915
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM15
+    SolutionIndex: 957
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 15
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -144455,7 +151658,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -144464,7 +151667,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -144480,18 +151683,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -144508,10 +151711,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -144520,8 +151723,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -144581,8 +151784,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 916
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM16
+    SolutionIndex: 958
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -144591,10 +151794,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -144603,9 +151806,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -144619,7 +151822,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -144628,7 +151831,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -144645,21 +151848,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 8
+    LSCB: 16
     LSPA: 8
     LSPB: 64
     LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -144672,7 +151875,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -144688,7 +151891,7 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -144745,8 +151948,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 917
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM17
+    SolutionIndex: 959
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -144767,9 +151970,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 17
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -144783,16 +151986,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -144808,18 +152011,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 256
-    LSCB: 8
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
+    LSCA: 128
+    LSCB: 16
+    LSPA: 16
+    LSPB: 128
+    LVCA: 32
     LVCB: 4
-    LVPA: 1
-    LVPB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2176
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -144832,11 +152039,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 256
-    MacroTile1: 16
-    MacroTileA: 256
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -144844,13 +152051,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -144860,7 +152067,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -144905,20 +152112,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 918
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x16x8_SE_EPS0_PGR0_SNLL0_TT4_4_WG64_4_1_WGM17
+    SolutionIndex: 960
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_32_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 64
-    SubGroup1: 4
-    SubGroupA: 64
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 32
+    SubGroupA: 16
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -144926,10 +152133,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [64, 4, 1]
-    WorkGroupMapping: 17
+    WorkGroup: [16, 32, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -144943,7 +152150,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -144952,7 +152159,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -144968,18 +152175,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -144996,10 +152203,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145008,8 +152215,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -145069,31 +152276,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 919
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT4_8_WG32_8_1_WGM32
+    SolutionIndex: 961
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 32
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -145113,8 +152320,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -145132,18 +152339,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 256
+    LSCA: 128
     LSCB: 8
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
     LVCB: 4
-    LVPA: 1
-    LVPB: 8
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2176
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -145157,10 +152368,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 256
-    MacroTile1: 16
-    MacroTileA: 256
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -145168,11 +152379,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -145184,13 +152397,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -145229,33 +152443,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 920
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT256x16x8_SE_EPS0_PGR0_SNLL0_TT4_4_WG64_4_1_WGM32
+    SolutionIndex: 962
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 64
-    SubGroup1: 4
-    SubGroupA: 64
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [64, 4, 1]
-    WorkGroupMapping: 32
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -145267,7 +152479,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -145276,7 +152488,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -145292,18 +152504,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -145320,10 +152532,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145332,8 +152544,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -145355,6 +152567,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -145393,8 +152606,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 921
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM2
+    SolutionIndex: 963
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -145403,21 +152616,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 2
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -145431,16 +152644,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -145456,18 +152669,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -145477,7 +152690,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -145485,9 +152698,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145496,8 +152709,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -145519,6 +152734,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -145557,33 +152773,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 922
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM2
+    SolutionIndex: 964
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -145595,7 +152809,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -145604,7 +152818,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -145620,22 +152834,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -145648,11 +152862,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -145665,7 +152879,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -145683,6 +152897,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -145721,8 +152936,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 923
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_16_1_WGM7
+    SolutionIndex: 965
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -145731,21 +152946,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 7
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -145766,7 +152981,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -145784,39 +152999,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -145824,12 +153039,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -145847,6 +153064,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -145885,33 +153103,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 924
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM7
+    SolutionIndex: 966
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 7
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -145948,39 +153164,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -145988,12 +153204,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -146011,6 +153227,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -146049,29 +153266,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 925
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM11
+    SolutionIndex: 967
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 11
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -146094,7 +153311,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -146112,22 +153329,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -146141,10 +153358,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -146152,12 +153369,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -146175,6 +153394,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -146213,8 +153433,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 926
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM16
+    SolutionIndex: 968
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -146223,23 +153443,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -146276,39 +153494,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -146316,12 +153534,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -146339,6 +153557,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -146377,29 +153596,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 927
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM32
+    SolutionIndex: 969
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 32
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -146415,53 +153634,53 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 16
+    LVCA: 32
     LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3344
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -146469,10 +153688,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -146480,12 +153699,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -146503,6 +153724,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -146541,33 +153763,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 928
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_8_2_WGM64
+    SolutionIndex: 970
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_DTL0_EPS1_FL0_GRVW1_LPB2_PGR1_PLR1_SNLL1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -146579,53 +153799,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -146646,10 +153862,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -146660,13 +153878,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -146705,33 +153924,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 929
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_PGR1_SNLL1_TT4_8_WG16_8_2_WGM32
+    SolutionIndex: 971
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 32
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -146743,49 +153960,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -146796,10 +154009,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -146808,12 +154021,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -146824,13 +154039,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -146869,8 +154085,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 930
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM8
+    SolutionIndex: 972
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -146878,14 +154094,14 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -146893,9 +154109,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -146907,7 +154121,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -146915,41 +154129,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
     LSPB: 64
-    LVCA: 16
+    LVCA: 48
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3344
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -146960,10 +154174,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -146972,11 +154186,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -146995,6 +154209,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -147033,8 +154248,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 931
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 973
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_LPB2_PGR1_PLR1_SNLL1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147043,22 +154258,22 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -147078,42 +154293,42 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6688
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -147125,9 +154340,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -147136,12 +154351,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -147153,12 +154370,13 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -147197,8 +154415,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 932
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_16_1_WGM1
+    SolutionIndex: 974
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_DTL0_EPS1_FL0_GRVW2_LPB2_PGR1_PLR0_SNLL1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147207,23 +154425,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -147242,42 +154458,42 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 16
-    LSPB: 128
+    LSPA: 8
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
+    LVCB: 8
     LVPA: 4
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 6688
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1600
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -147289,10 +154505,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -147300,13 +154516,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 2
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -147317,12 +154535,13 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -147361,33 +154580,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 933
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_EPS1_PGR1_SNLL1_TT8_4_WG16_32_1_WGM1
+    SolutionIndex: 975
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_DTL0_EPS1_FL0_GRVW2_LPB2_PGR1_PLR0_SNLL1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 32
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 32
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 32, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -147407,41 +154624,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 6688
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 1600
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -147454,9 +154671,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -147464,12 +154681,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -147481,12 +154698,13 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -147525,8 +154743,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 934
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_PGR1_SNLL1_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 976
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_DTL0_EPS1_FL1_GRVW2_LPB2_PGR1_PLR0_SNLL1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147535,17 +154753,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -147597,15 +154815,15 @@
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -147692,8 +154910,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 935
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 977
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147762,15 +154980,15 @@
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -147855,8 +155073,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 936
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 978
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147927,15 +155145,15 @@
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -148022,8 +155240,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 937
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 979
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148092,15 +155310,15 @@
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -148185,175 +155403,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 938
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
-    StaggerU: 32
-    StaggerUMapping: 0
-    StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
-    UnrollMemFence: false
-    UseSgprForGRO: 0
-    Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
-    WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
-    AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
-    AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: false
-    AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
-    BufferStore: true
-    CheckDimOverflow: 0
-    CheckTensorDimAsserts: false
-    DepthU: 16
-    DirectToLds: false
-    DirectToLdsA: false
-    DirectToLdsB: false
-    DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
-    GlobalRead2A: true
-    GlobalRead2B: true
-    GlobalReadCoalesceGroupA: true
-    GlobalReadCoalesceGroupB: true
-    GlobalReadCoalesceVectorA: true
-    GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
-    GlobalSplitUSummationAssignmentRoundRobin: true
-    GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
-    InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
-    LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
-    LocalDotLayout: 1
-    LocalRead2A: true
-    LocalRead2B: true
-    LocalSplitU: 1
-    LocalWrite2A: true
-    LocalWrite2B: true
-    LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
-    MacroTileShapeMax: 64
-    MacroTileShapeMin: 1
-    MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
-    NonTemporalA: 0
-    NonTemporalB: 0
-    NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
-    PackBatchDims: 0
-    PackFreeDims: 1
-    PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
-    PerformanceSyncLocation: -1
-    PerformanceWaitCount: -1
-    PerformanceWaitLocation: -1
-    PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
-    ProblemType:
-      AssignedDerivedParameters: true
-      Batched: true
-      ComplexConjugateA: false
-      ComplexConjugateB: false
-      ComputeDataType: 0
-      DataType: 0
-      DestDataType: 0
-      HighPrecisionAccumulate: false
-      Index0: 0
-      Index01A: 0
-      Index01B: 1
-      Index1: 1
-      IndexAssignmentsA: [0, 3, 2]
-      IndexAssignmentsB: [3, 1, 2]
-      IndexAssignmentsLD: [4, 5, 6, 7]
-      IndexUnroll: 3
-      IndexUnrollA: 1
-      IndexUnrollB: 0
-      IndicesBatch: [2]
-      IndicesFree: [0, 1]
-      IndicesSummation: [3]
-      NumIndicesBatch: 1
-      NumIndicesC: 3
-      NumIndicesFree: 2
-      NumIndicesLD: 4
-      NumIndicesSummation: 1
-      OperationType: GEMM
-      SilentHighPrecisionAccumulate: false
-      TLUA: true
-      TLUB: false
-      Tensor0: 0
-      Tensor1: 1
-      TileA: 0
-      TileB: 1
-      TotalIndices: 4
-      TransposeA: false
-      TransposeB: false
-      UseBeta: true
-      UseInitialStrides: false
-    ReplacementKernel: false
-    ScheduleGlobalRead: 1
-    ScheduleIterAlg: 1
-    ScheduleLocalWrite: 1
-    SolutionIndex: 939
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 980
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148362,11 +155413,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
@@ -148374,9 +155425,11 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -148394,8 +155447,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -148413,24 +155466,20 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -148442,10 +155491,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148453,12 +155502,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -148469,7 +155520,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -148515,8 +155566,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 940
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 981
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148524,12 +155575,12 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
@@ -148540,8 +155591,6 @@
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -148587,15 +155636,15 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 7232
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -148608,9 +155657,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148618,14 +155667,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -148682,8 +155731,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 941
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 982
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148692,11 +155741,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
@@ -148704,7 +155753,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -148752,15 +155801,15 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 7232
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -148773,9 +155822,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148783,12 +155832,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -148845,8 +155894,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 942
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 983
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148855,11 +155904,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
@@ -148867,7 +155916,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -148883,49 +155932,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3344
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -148936,10 +155981,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 96
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -148948,14 +155993,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 3
-    NumLoadsB: 2
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -148966,7 +156011,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -149012,8 +156057,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 943
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_DTL0_EPS1_FL0_GRVW1_LPB2_PGR1_PLR1_SNLL1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 984
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -149021,22 +156066,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -149054,37 +156099,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -149098,9 +156147,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -149109,14 +156158,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -149127,7 +156176,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -149173,8 +156222,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 944
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 985
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -149182,20 +156231,20 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -149215,37 +156264,41 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -149259,9 +156312,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -149270,14 +156323,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -149288,7 +156339,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -149334,8 +156385,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 945
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 986
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -149343,14 +156394,14 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -149359,6 +156410,8 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -149376,43 +156429,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 96
+    LSCA: 64
     LSCB: 8
-    LSPA: 5
-    LSPB: 64
-    LVCA: 48
-    LVCB: 4
-    LVPA: 3
-    LVPB: 32
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3344
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -149424,10 +156473,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -149435,13 +156484,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -149451,7 +156502,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -149497,33 +156548,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 946
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_LPB2_PGR1_PLR1_SNLL1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 987
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -149535,49 +156584,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
     LVCB: 8
-    LVPA: 8
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6688
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -149588,11 +156633,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -149600,15 +156645,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 3
-    NumLoadsB: 2
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -149618,7 +156663,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -149664,31 +156709,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 947
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_DTL0_EPS1_FL0_GRVW2_LPB2_PGR1_PLR0_SNLL1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 988
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -149700,49 +156745,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
+    LSCB: 8
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
     LVCB: 8
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6688
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1600
+    LdsNumElements: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -149753,11 +156794,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 96
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 96
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -149765,15 +156806,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 2
-    NumLoadsB: 3
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 3
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -149783,8 +156824,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -149829,31 +156870,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 948
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_DTL0_EPS1_FL0_GRVW2_LPB2_PGR1_PLR0_SNLL1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 989
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 6]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 6
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -149871,43 +156912,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6688
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1600
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -149920,9 +156957,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 96
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 96
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -149930,13 +156967,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 3
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -149946,8 +156985,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -149992,33 +157031,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 949
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_DTL0_EPS1_FL1_GRVW2_LPB2_PGR1_PLR0_SNLL1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 990
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 6]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 6
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150030,49 +157067,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
+    LSCA: 64
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
     LVPA: 2
-    LVPB: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -150083,11 +157116,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150095,15 +157128,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -150113,7 +157146,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -150159,31 +157192,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 950
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 991
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150202,7 +157235,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -150220,24 +157253,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -150249,10 +157282,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150260,13 +157293,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -150322,33 +157357,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 951
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 992
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150367,7 +157400,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -150385,24 +157418,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -150414,10 +157447,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150425,15 +157458,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -150489,31 +157520,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 952
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 993
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150532,9 +157565,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -150550,24 +157583,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
     LSPB: 64
-    LVCA: 32
-    LVCB: 4
+    LVCA: 16
+    LVCB: 2
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -150579,9 +157612,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -150592,11 +157625,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -150652,33 +157687,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 953
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 994
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150690,16 +157723,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -150716,19 +157749,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
     LVCA: 16
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -150739,11 +157776,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150753,13 +157790,11 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -150769,7 +157804,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -150815,31 +157850,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 954
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 995
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150857,7 +157894,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -150876,24 +157913,20 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -150905,10 +157938,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150916,15 +157949,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -150934,7 +157967,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -150980,29 +158013,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 955
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 996
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW4_LPB0_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -151022,7 +158055,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -151041,24 +158074,20 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -151070,10 +158099,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151081,13 +158110,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -151097,7 +158126,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -151143,29 +158172,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 956
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 997
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL1_GRVW4_LPB0_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -151181,7 +158210,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -151189,37 +158218,37 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
     LVPA: 4
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 1032
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -151230,7 +158259,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -151243,13 +158272,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -151261,7 +158290,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -151306,8 +158335,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 957
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 998
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -151322,15 +158351,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -151342,49 +158371,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1032
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -151395,10 +158420,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -151407,14 +158432,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -151425,7 +158450,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -151471,8 +158496,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 958
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 999
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -151480,22 +158505,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -151507,49 +158532,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3080
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -151560,10 +158585,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -151572,12 +158597,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -151634,8 +158661,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 959
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1000
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_LPB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -151644,23 +158671,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -151706,11 +158731,11 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 776
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -151797,8 +158822,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 960
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1001
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -151867,11 +158892,11 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 640
+    LdsNumElements: 648
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -151958,8 +158983,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 961
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1002
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -151980,7 +159005,7 @@
     VectorStore: true
     VectorWidth: 1
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -152028,11 +159053,11 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 640
+    LdsNumElements: 648
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -152119,8 +159144,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 962
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1003
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -152141,7 +159166,7 @@
     VectorStore: true
     VectorWidth: 1
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -152155,13 +159180,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -152181,19 +159206,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 2
-    LSPB: 8
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
     LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 3080
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -152204,11 +159233,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152216,15 +159245,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -152234,7 +159263,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -152280,31 +159309,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 963
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1004
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_LPB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -152316,7 +159345,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -152342,184 +159371,19 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 8
     LSPA: 2
-    LSPB: 8
+    LSPB: 16
     LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 1280
-    LdsOffsetA: 0
-    LdsOffsetB: 1024
-    LdsPadA: 0
-    LdsPadB: 0
-    LocalDotLayout: 1
-    LocalRead2A: true
-    LocalRead2B: true
-    LocalSplitU: 1
-    LocalWrite2A: true
-    LocalWrite2B: true
-    LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
-    MacroTileShapeMax: 64
-    MacroTileShapeMin: 1
-    MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
-    NonTemporalA: 0
-    NonTemporalB: 0
-    NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
-    PackBatchDims: 0
-    PackFreeDims: 1
-    PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
-    PerformanceSyncLocation: -1
-    PerformanceWaitCount: -1
-    PerformanceWaitLocation: -1
-    PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
-    ProblemType:
-      AssignedDerivedParameters: true
-      Batched: true
-      ComplexConjugateA: false
-      ComplexConjugateB: false
-      ComputeDataType: 0
-      DataType: 0
-      DestDataType: 0
-      HighPrecisionAccumulate: false
-      Index0: 0
-      Index01A: 0
-      Index01B: 1
-      Index1: 1
-      IndexAssignmentsA: [0, 3, 2]
-      IndexAssignmentsB: [3, 1, 2]
-      IndexAssignmentsLD: [4, 5, 6, 7]
-      IndexUnroll: 3
-      IndexUnrollA: 1
-      IndexUnrollB: 0
-      IndicesBatch: [2]
-      IndicesFree: [0, 1]
-      IndicesSummation: [3]
-      NumIndicesBatch: 1
-      NumIndicesC: 3
-      NumIndicesFree: 2
-      NumIndicesLD: 4
-      NumIndicesSummation: 1
-      OperationType: GEMM
-      SilentHighPrecisionAccumulate: false
-      TLUA: true
-      TLUB: false
-      Tensor0: 0
-      Tensor1: 1
-      TileA: 0
-      TileB: 1
-      TotalIndices: 4
-      TransposeA: false
-      TransposeB: false
-      UseBeta: true
-      UseInitialStrides: false
-    ReplacementKernel: false
-    ScheduleGlobalRead: 1
-    ScheduleIterAlg: 1
-    ScheduleLocalWrite: 1
-    SolutionIndex: 964
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
-    StaggerU: 32
-    StaggerUMapping: 0
-    StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
-    UnrollMemFence: false
-    UseSgprForGRO: 1
-    Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
-    WorkGroupMappingType: B
-    _staggerStrideShift: 2
-  - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
-    AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
-    AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: false
-    AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
-    BufferStore: true
-    CheckDimOverflow: 0
-    CheckTensorDimAsserts: false
-    DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
-    DirectToLdsB: false
-    DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
-    GlobalRead2A: true
-    GlobalRead2B: true
-    GlobalReadCoalesceGroupA: true
-    GlobalReadCoalesceGroupB: true
-    GlobalReadCoalesceVectorA: true
-    GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
-    GlobalSplitUSummationAssignmentRoundRobin: true
-    GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
-    InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
+    LVCB: 8
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 776
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -152543,13 +159407,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -152560,7 +159424,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -152606,8 +159470,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 965
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1005
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -152615,20 +159479,20 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -152648,43 +159512,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
+    LSPA: 2
+    LSPB: 16
+    LVCA: 64
+    LVCB: 8
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 648
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -152697,9 +159557,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152707,11 +159567,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PackBatchDims: 0
@@ -152723,7 +159585,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -152769,8 +159631,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 966
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1006
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -152778,24 +159640,22 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -152807,49 +159667,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 16
-    LVCB: 2
-    LVPA: 2
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2064
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -152860,7 +159716,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -152872,15 +159728,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -152890,7 +159746,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -152936,31 +159792,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 967
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1007
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -152972,49 +159828,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
-    LVPA: 2
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 1552
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -153025,7 +159877,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -153037,13 +159889,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -153053,8 +159907,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -153099,33 +159953,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 968
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_SNLL1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1008
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153145,37 +159997,37 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 1552
     LdsOffsetA: 0
     LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -153198,15 +160050,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -153262,29 +160114,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 969
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW4_LPB0_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1009
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -153305,38 +160157,38 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
+    LSPA: 2
+    LSPB: 8
+    LVCA: 64
+    LVCB: 16
     LVPA: 2
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 1552
     LdsOffsetA: 0
     LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -153360,11 +160212,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -153421,8 +160275,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 970
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL1_GRVW4_LPB0_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1010
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -153437,17 +160291,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153459,7 +160311,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -153485,17 +160337,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 4
-    LSPB: 32
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
     LVCA: 64
-    LVCB: 8
-    LVPA: 4
-    LVPB: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1032
+    LdsNumElements: 1296
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 1
     LocalDotLayout: 1
@@ -153508,11 +160360,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -153520,15 +160372,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 8
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -153584,31 +160436,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 971
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1011
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153620,7 +160472,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -153646,17 +160498,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 4
-    LSPB: 32
+    LSCB: 16
+    LSPA: 2
+    LSPB: 8
     LVCA: 64
-    LVCB: 8
-    LVPA: 4
-    LVPB: 32
+    LVCB: 16
+    LVPA: 2
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1032
+    LdsNumElements: 1296
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 1
     LocalDotLayout: 1
@@ -153669,11 +160521,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -153681,15 +160533,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 8
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -153745,31 +160597,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 972
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1012
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153781,13 +160633,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -153807,21 +160659,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
+    LSCB: 16
     LSPA: 4
-    LSPB: 32
+    LSPB: 16
     LVCA: 64
-    LVCB: 8
+    LVCB: 16
     LVPA: 4
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3080
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2064
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 1
     LocalDotLayout: 1
@@ -153834,7 +160682,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -153848,12 +160696,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -153864,7 +160712,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -153910,8 +160758,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 973
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_LPB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1013
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -153919,7 +160767,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -153932,9 +160780,9 @@
     VectorStore: true
     VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153946,7 +160794,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -153972,17 +160820,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 2
+    LSCB: 16
+    LSPA: 4
     LSPB: 16
     LVCA: 64
-    LVCB: 8
-    LVPA: 2
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 776
+    LdsNumElements: 1552
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 1
     LocalDotLayout: 1
@@ -153995,7 +160843,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -154007,15 +160855,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -154071,31 +160919,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 974
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1014
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -154107,7 +160955,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -154133,17 +160981,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
+    LSCB: 16
     LSPA: 2
-    LSPB: 16
+    LSPB: 8
     LVCA: 64
-    LVCB: 8
+    LVCB: 16
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 648
+    LdsNumElements: 1296
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 1
     LocalDotLayout: 1
@@ -154156,7 +161004,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 16
     MacroTileA: 64
@@ -154170,12 +161018,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -154187,7 +161035,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -154232,8 +161080,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 975
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1015
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -154254,9 +161102,9 @@
     VectorStore: true
     VectorWidth: 1
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -154268,7 +161116,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -154294,17 +161142,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 2
-    LSPB: 16
+    LSCB: 32
+    LSPA: 4
+    LSPB: 8
     LVCA: 64
-    LVCB: 8
-    LVPA: 2
-    LVPB: 16
+    LVCB: 32
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 648
+    LdsNumElements: 3104
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 1
     LocalDotLayout: 1
@@ -154317,11 +161165,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 32
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154331,13 +161179,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -154393,15 +161241,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 976
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1016
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 2]
     ThreadTile0: 4
@@ -154414,10 +161262,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -154435,7 +161283,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -154449,29 +161297,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 8
-    LSPA: 4
-    LSPB: 32
+    LSPA: 2
+    LSPB: 16
     LVCA: 64
     LVCB: 8
-    LVPA: 4
-    LVPB: 32
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3080
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 800
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -154484,9 +161328,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154495,14 +161339,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -154512,7 +161356,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -154558,16 +161402,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 977
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL0_GRVW1_LPB1_PGR1_PLR1_SNLL1_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1017
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -154578,9 +161422,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -154614,7 +161458,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -154628,11 +161472,11 @@
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 776
+    LdsNumElements: 800
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -154656,7 +161500,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -154719,8 +161563,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 978
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1018
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -154739,7 +161583,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -154755,7 +161599,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -154775,25 +161619,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
+    LSCB: 16
     LSPA: 2
-    LSPB: 16
+    LSPB: 8
     LVCA: 64
-    LVCB: 8
+    LVCB: 16
     LVPA: 2
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 648
+    LdsNumElements: 1600
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -154804,11 +161648,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154816,14 +161660,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -154880,8 +161724,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 979
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1019
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -154890,21 +161734,21 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -154916,7 +161760,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -154924,37 +161768,37 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2064
+    LdsNumElements: 800
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -154965,11 +161809,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154978,14 +161822,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -155041,15 +161885,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 980
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1020
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -155057,15 +161901,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155077,45 +161921,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1552
+    LdsNumElements: 800
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -155126,7 +161970,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -155138,15 +161982,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -155157,7 +161999,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -155202,31 +162044,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 981
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1021
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL1_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155238,45 +162082,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 16
+    LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1552
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -155287,10 +162131,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -155299,14 +162143,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -155324,7 +162166,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -155363,8 +162204,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 982
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1022
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -155373,21 +162214,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155399,60 +162242,60 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
+    LSCA: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 16
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1552
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 128
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 2
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155460,15 +162303,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 8
-    NumLoadsB: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -155479,13 +162320,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -155524,31 +162364,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 983
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1023
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155567,38 +162409,38 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1296
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -155610,10 +162452,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155621,15 +162463,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -155646,7 +162486,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -155685,31 +162524,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 984
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR0_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1024
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155728,38 +162569,38 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1296
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -155771,10 +162612,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155782,15 +162623,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -155807,7 +162646,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -155846,31 +162684,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 985
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 1025
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155889,53 +162729,53 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 16
-    LSPA: 4
+    LSPA: 16
     LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2064
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155943,15 +162783,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -155962,13 +162800,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156007,31 +162844,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 986
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1026
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156050,53 +162889,53 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 16
-    LSPA: 4
+    LSPA: 16
     LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1552
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156104,15 +162943,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -156129,7 +162966,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156168,31 +163004,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 987
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1027
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156210,53 +163048,57 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1296
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -156265,15 +163107,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -156283,14 +163123,13 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156329,31 +163168,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 988
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 1028
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156365,59 +163206,59 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3104
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -156426,14 +163267,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -156451,7 +163290,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156490,31 +163328,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 989
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_DTL0_EPS0_FL0_GRVW1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1029
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156526,45 +163366,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 2
-    LSPB: 16
-    LVCA: 64
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
     LVCB: 8
-    LVPA: 2
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 800
+    LdsNumElements: 1024
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -156575,10 +163415,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -156587,15 +163427,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -156606,13 +163444,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156651,31 +163488,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 990
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1030
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156687,45 +163526,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 2
-    LSPB: 16
-    LVCA: 64
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
     LVCB: 8
-    LVPA: 2
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 800
+    LdsNumElements: 1536
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -156736,11 +163575,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156748,15 +163587,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -156767,13 +163604,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156812,31 +163648,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 991
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1031
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156855,38 +163693,38 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
-    LSPA: 2
-    LSPB: 8
-    LVCA: 64
-    LVCB: 16
-    LVPA: 2
-    LVPB: 8
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1600
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -156898,10 +163736,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156909,15 +163747,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 8
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -156934,7 +163770,6 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -156973,31 +163808,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 992
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1032
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -157009,15 +163846,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -157025,44 +163862,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 800
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -157070,15 +163907,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -157089,13 +163924,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -157134,31 +163968,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 993
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1033
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -157170,7 +164006,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -157178,7 +164014,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -157186,33 +164022,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 800
+    LdsNumElements: 1024
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -157220,10 +164056,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -157231,13 +164067,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -157248,13 +164084,12 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
-      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -157293,31 +164128,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 994
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL1_GRVW4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1034
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -157331,13 +164166,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -157357,23 +164192,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -157382,9 +164221,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -157392,11 +164231,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -157408,7 +164247,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -157453,20 +164292,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 995
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1035
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -157474,10 +164313,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -157491,7 +164330,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -157517,17 +164356,17 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 8
-    LSPA: 8
-    LSPB: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
     LVCA: 8
-    LVCB: 4
-    LVPA: 4
-    LVPB: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -157540,11 +164379,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
+    LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 16
+    MacroTile1: 8
     MacroTileA: 16
-    MacroTileB: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -157556,9 +164395,9 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -157569,7 +164408,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -157613,15 +164452,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 996
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1036
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -157634,10 +164473,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    WorkGroup: [8, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -157651,13 +164490,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -157671,40 +164510,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
     LVPA: 8
-    LVPB: 16
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -157712,13 +164555,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -157728,8 +164571,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -157773,16 +164616,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 997
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1037
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -157794,10 +164637,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -157811,7 +164654,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -157831,21 +164674,21 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
     LVPA: 8
-    LVPB: 16
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 768
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
@@ -157853,18 +164696,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -157872,13 +164715,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -157933,15 +164776,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 998
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1038
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -157954,10 +164797,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -157971,13 +164814,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -157988,32 +164831,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 8
     LVCA: 8
-    LVCB: 8
+    LVCB: 16
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -158022,9 +164869,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 16
+    MacroTile1: 8
     MacroTileA: 16
-    MacroTileB: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158032,11 +164879,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PackBatchDims: 0
@@ -158048,8 +164895,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -158093,15 +164940,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 999
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
+    SolutionIndex: 1039
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB0_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -158114,10 +164961,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 2]
+    WorkGroup: [8, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -158156,35 +165003,35 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 16
     LSPA: 16
-    LSPB: 16
-    LVCA: 8
+    LSPB: 32
+    LVCA: 16
     LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 1056
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158192,13 +165039,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -158253,15 +165100,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1000
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
+    SolutionIndex: 1040
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -158274,7 +165121,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -158297,7 +165144,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -158311,44 +165158,40 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 16
     LSPA: 16
-    LSPB: 16
-    LVCA: 8
+    LSPB: 32
+    LVCA: 16
     LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 1568
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158356,12 +165199,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -158372,8 +165215,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -158417,28 +165260,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1001
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1041
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -158480,35 +165323,35 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 16
     LSPA: 16
     LSPB: 32
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1568
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158516,12 +165359,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -158577,15 +165420,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1002
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1042
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [2, 4]
     ThreadTile0: 2
@@ -158598,7 +165441,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -158640,35 +165483,35 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 16
     LSPA: 16
-    LSPB: 32
-    LVCA: 16
+    LSPB: 16
+    LVCA: 8
     LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 544
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158676,13 +165519,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -158693,7 +165536,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -158737,15 +165580,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1003
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1043
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -158758,8 +165601,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -158803,32 +165646,32 @@
     LSCA: 32
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
     LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 2048
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158836,12 +165679,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -158853,7 +165696,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -158897,29 +165740,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1004
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1044
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -158941,7 +165784,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -158963,32 +165806,36 @@
     LSCA: 32
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
     LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158996,12 +165843,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -159012,7 +165859,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -159057,29 +165904,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1005
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1045
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -159095,13 +165942,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -159115,40 +165962,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
     LSPB: 16
-    LVCA: 8
-    LVCB: 8
+    LVCA: 16
+    LVCB: 16
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159156,12 +166007,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -159172,8 +166023,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -159217,16 +166068,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1006
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1046
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -159238,10 +166089,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -159261,7 +166112,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -159289,11 +166140,15 @@
     LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159332,7 +166187,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -159377,8 +166232,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1007
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1047
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -159386,7 +166241,7 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -159421,7 +166276,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -159435,29 +166290,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159469,9 +166320,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -159480,11 +166331,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -159496,7 +166347,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -159541,8 +166392,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1008
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1048
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -159550,11 +166401,11 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -159585,7 +166436,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -159606,18 +166457,22 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
+    LSPA: 32
+    LSPB: 16
     LVCA: 8
     LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159630,9 +166485,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 8
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 8
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159644,9 +166499,9 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -159656,7 +166511,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -159701,16 +166556,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1009
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1049
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -159722,7 +166577,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -159759,29 +166614,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
     LVPA: 8
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159793,10 +166648,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159804,13 +166659,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -159821,7 +166676,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -159865,20 +166720,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1010
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1050
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -159886,7 +166741,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -159923,25 +166778,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
     LVPA: 8
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159953,10 +166808,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159964,13 +166819,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -160025,20 +166880,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1011
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
+    SolutionIndex: 1051
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -160046,8 +166901,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -160080,32 +166935,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
     LVPA: 8
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -160117,10 +166972,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -160128,13 +166983,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -160189,20 +167044,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1012
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB0_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1052
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -160210,7 +167065,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -160227,13 +167082,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -160252,34 +167107,38 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1056
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -160288,12 +167147,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -160304,8 +167163,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -160349,31 +167208,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1013
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1053
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT2_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -160387,7 +167246,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -160412,16 +167271,16 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1568
+    LdsNumElements: 2048
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
@@ -160429,18 +167288,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -160448,8 +167307,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -160465,7 +167324,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -160509,15 +167368,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1014
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1054
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [2, 4]
     ThreadTile0: 2
@@ -160530,10 +167389,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -160547,13 +167406,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -160572,35 +167431,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1568
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -160608,8 +167471,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -160624,7 +167487,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -160669,16 +167532,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1015
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1055
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 4]
     ThreadTile0: 2
     ThreadTile1: 4
@@ -160690,10 +167553,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -160707,13 +167570,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -160727,29 +167590,33 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 8
     LVCA: 8
-    LVCB: 8
+    LVCB: 16
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 544
+    LdsNumElements: 1856
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -160758,9 +167625,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 16
+    MacroTile1: 8
     MacroTileA: 16
-    MacroTileB: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -160768,11 +167635,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PackBatchDims: 0
@@ -160784,7 +167651,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -160829,16 +167696,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1016
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
+    SolutionIndex: 1056
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -160850,10 +167717,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 2]
+    WorkGroup: [8, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -160867,13 +167734,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -160892,35 +167759,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCA: 64
+    LSCB: 32
+    LSPA: 8
     LSPB: 16
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -160928,12 +167799,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -160944,7 +167815,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -160989,16 +167860,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1017
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1057
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 2]
     ThreadTile0: 4
     ThreadTile1: 2
@@ -161010,10 +167881,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -161027,13 +167898,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -161047,27 +167918,23 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -161080,10 +167947,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -161092,7 +167959,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -161108,7 +167975,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -161153,8 +168020,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1018
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1058
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -161162,171 +168029,7 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
-    UnrollMemFence: false
-    UseSgprForGRO: false
-    Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
-    WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
-    AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
-    AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: false
-    AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
-    BufferStore: true
-    CheckDimOverflow: 0
-    CheckTensorDimAsserts: false
-    DepthU: 32
-    DirectToLds: false
-    DirectToLdsA: false
-    DirectToLdsB: false
-    DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
-    GlobalRead2A: true
-    GlobalRead2B: true
-    GlobalReadCoalesceGroupA: true
-    GlobalReadCoalesceGroupB: true
-    GlobalReadCoalesceVectorA: true
-    GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
-    GlobalSplitUSummationAssignmentRoundRobin: true
-    GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
-    InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
-    LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 2
-    LocalDotLayout: 1
-    LocalRead2A: true
-    LocalRead2B: true
-    LocalSplitU: 1
-    LocalWrite2A: true
-    LocalWrite2B: true
-    LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
-    MacroTileShapeMax: 64
-    MacroTileShapeMin: 1
-    MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
-    NonTemporalA: 0
-    NonTemporalB: 0
-    NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
-    PackBatchDims: 0
-    PackFreeDims: 1
-    PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
-    PerformanceSyncLocation: -1
-    PerformanceWaitCount: -1
-    PerformanceWaitLocation: -1
-    PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
-    ProblemType:
-      AssignedDerivedParameters: true
-      Batched: true
-      ComplexConjugateA: false
-      ComplexConjugateB: false
-      DataType: 0
-      DestDataType: 0
-      HighPrecisionAccumulate: false
-      Index0: 0
-      Index01A: 0
-      Index01B: 1
-      Index1: 1
-      IndexAssignmentsA: [0, 3, 2]
-      IndexAssignmentsB: [3, 1, 2]
-      IndexAssignmentsLD: [4, 5, 6, 7]
-      IndexUnroll: 3
-      IndexUnrollA: 1
-      IndexUnrollB: 0
-      IndicesBatch: [2]
-      IndicesFree: [0, 1]
-      IndicesSummation: [3]
-      NumIndicesBatch: 1
-      NumIndicesC: 3
-      NumIndicesFree: 2
-      NumIndicesLD: 4
-      NumIndicesSummation: 1
-      OperationType: GEMM
-      SilentHighPrecisionAccumulate: false
-      TLUA: true
-      TLUB: false
-      Tensor0: 0
-      Tensor1: 1
-      TileA: 0
-      TileB: 1
-      TotalIndices: 4
-      TransposeA: false
-      TransposeB: false
-      UseBeta: true
-      UseInitialStrides: false
-    ReplacementKernel: false
-    ScheduleGlobalRead: 1
-    ScheduleIterAlg: 1
-    ScheduleLocalWrite: 1
-    SolutionIndex: 1019
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_16_1_WGM1
-    StaggerU: 32
-    StaggerUMapping: 0
-    StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -161338,8 +168041,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -161437,7 +168140,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -161481,8 +168184,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1020
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1059
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -161503,7 +168206,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -161539,23 +168242,23 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1088
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -161569,9 +168272,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -161580,11 +168283,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -161641,8 +168344,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1021
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1060
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -161651,10 +168354,10 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -161663,7 +168366,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -161699,27 +168402,27 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -161733,9 +168436,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -161744,11 +168447,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -161805,8 +168508,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1022
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1061
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -161815,10 +168518,10 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -161827,7 +168530,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -161868,22 +168571,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -161897,10 +168600,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -161912,8 +168615,8 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -161969,8 +168672,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1023
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1062
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT2_4_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -161979,11 +168682,11 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -161991,7 +168694,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -162013,7 +168716,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -162032,18 +168735,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -162057,10 +168764,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162072,8 +168779,8 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -162084,7 +168791,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -162129,8 +168836,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1024
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1063
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -162138,12 +168845,12 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -162151,7 +168858,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -162173,7 +168880,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -162187,27 +168894,23 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
     LSPA: 16
-    LSPB: 16
-    LVCA: 16
+    LSPB: 8
+    LVCA: 8
     LVCB: 16
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 832
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -162221,10 +168924,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162232,13 +168935,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -162248,7 +168951,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -162293,20 +168996,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1025
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1064
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -162314,8 +169017,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -162351,27 +169054,27 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
+    LSPA: 16
+    LSPB: 8
     LVCA: 8
     LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 1856
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -162386,9 +169089,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 32
+    MacroTile1: 8
     MacroTileA: 16
-    MacroTileB: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162396,13 +169099,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -162413,7 +169116,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -162457,29 +169160,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1026
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT2_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1065
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -162501,7 +169204,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -162512,7 +169215,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -162522,33 +169225,37 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
+    LSPA: 16
+    LSPB: 8
     LVCA: 8
     LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 16
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162560,9 +169267,9 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -162572,7 +169279,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -162617,8 +169324,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1027
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1066
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -162627,18 +169334,18 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    WorkGroup: [8, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -162672,10 +169379,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -162689,9 +169396,9 @@
     LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3136
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
@@ -162710,9 +169417,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162720,12 +169427,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -162737,7 +169444,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -162781,8 +169488,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1028
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1067
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -162790,12 +169497,12 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -162836,7 +169543,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -162846,20 +169553,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
+    LSPA: 32
+    LSPB: 16
     LVCA: 8
     LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1856
+    LdsNumElements: 3136
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -162874,9 +169581,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 8
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 8
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162888,9 +169595,9 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -162945,16 +169652,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1029
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1068
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -162966,7 +169673,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -163000,7 +169707,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -163008,170 +169715,6 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
-    LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 2
-    LocalDotLayout: 1
-    LocalRead2A: true
-    LocalRead2B: true
-    LocalSplitU: 1
-    LocalWrite2A: true
-    LocalWrite2B: true
-    LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
-    MacroTileShapeMax: 64
-    MacroTileShapeMin: 1
-    MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
-    NonTemporalA: 0
-    NonTemporalB: 0
-    NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
-    PackBatchDims: 0
-    PackFreeDims: 1
-    PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
-    PerformanceSyncLocation: -1
-    PerformanceWaitCount: -1
-    PerformanceWaitLocation: -1
-    PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
-    ProblemType:
-      AssignedDerivedParameters: true
-      Batched: true
-      ComplexConjugateA: false
-      ComplexConjugateB: false
-      DataType: 0
-      DestDataType: 0
-      HighPrecisionAccumulate: false
-      Index0: 0
-      Index01A: 0
-      Index01B: 1
-      Index1: 1
-      IndexAssignmentsA: [0, 3, 2]
-      IndexAssignmentsB: [3, 1, 2]
-      IndexAssignmentsLD: [4, 5, 6, 7]
-      IndexUnroll: 3
-      IndexUnrollA: 1
-      IndexUnrollB: 0
-      IndicesBatch: [2]
-      IndicesFree: [0, 1]
-      IndicesSummation: [3]
-      NumIndicesBatch: 1
-      NumIndicesC: 3
-      NumIndicesFree: 2
-      NumIndicesLD: 4
-      NumIndicesSummation: 1
-      OperationType: GEMM
-      SilentHighPrecisionAccumulate: false
-      TLUA: true
-      TLUB: false
-      Tensor0: 0
-      Tensor1: 1
-      TileA: 0
-      TileB: 1
-      TotalIndices: 4
-      TransposeA: false
-      TransposeB: false
-      UseBeta: true
-      UseInitialStrides: false
-    ReplacementKernel: false
-    ScheduleGlobalRead: 1
-    ScheduleIterAlg: 1
-    ScheduleLocalWrite: 1
-    SolutionIndex: 1030
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG16_16_1_WGM8
-    StaggerU: 32
-    StaggerUMapping: 0
-    StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
-    UnrollMemFence: false
-    UseSgprForGRO: false
-    Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
-    WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
-    AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
-    AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: false
-    AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
-    BufferStore: true
-    CheckDimOverflow: 0
-    CheckTensorDimAsserts: false
-    DepthU: 32
-    DirectToLds: false
-    DirectToLdsA: false
-    DirectToLdsB: false
-    DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
-    GlobalRead2A: true
-    GlobalRead2B: true
-    GlobalReadCoalesceGroupA: true
-    GlobalReadCoalesceGroupB: true
-    GlobalReadCoalesceVectorA: true
-    GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
-    GlobalSplitUSummationAssignmentRoundRobin: true
-    GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
-    InnerUnroll: 1
-    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 32
     LSPA: 32
@@ -163181,9 +169724,13 @@
     LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1088
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -163198,9 +169745,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 16
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -163208,12 +169755,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -163224,7 +169771,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -163269,8 +169816,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1031
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1069
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -163279,11 +169826,11 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -163291,7 +169838,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -163324,7 +169871,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -163334,20 +169881,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
+    LSPA: 16
+    LSPB: 8
     LVCA: 8
     LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 1856
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -163362,9 +169909,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 16
+    MacroTile1: 8
     MacroTileA: 16
-    MacroTileB: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -163376,9 +169923,9 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -163389,7 +169936,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -163433,16 +169980,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1032
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1070
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -163454,8 +170001,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -163477,7 +170024,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -163488,26 +170035,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
     LSPA: 16
-    LSPB: 16
-    LVCA: 16
+    LSPB: 8
+    LVCA: 8
     LVCB: 16
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1856
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -163521,10 +170072,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -163532,13 +170083,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -163548,7 +170099,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -163593,20 +170144,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1033
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1071
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -163614,8 +170165,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -163648,7 +170199,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -163656,22 +170207,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
     LSPA: 16
-    LSPB: 16
-    LVCA: 16
+    LSPB: 8
+    LVCA: 8
     LVCB: 16
     LVPA: 8
-    LVPB: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -163685,9 +170236,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -163701,8 +170252,8 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -163757,29 +170308,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1034
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1072
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -163812,10 +170363,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -163829,9 +170380,9 @@
     LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3136
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
@@ -163850,9 +170401,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -163860,12 +170411,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -163921,8 +170472,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1035
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT2_4_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1073
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -163930,12 +170481,12 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -163965,7 +170516,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -163976,10 +170527,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -163993,13 +170544,9 @@
     LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -164014,9 +170561,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164024,12 +170571,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -164040,7 +170587,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -164085,8 +170632,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1036
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1074
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -164094,12 +170641,12 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -164129,7 +170676,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -164140,7 +170687,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -164150,16 +170697,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
+    LSPA: 32
+    LSPB: 16
     LVCA: 8
     LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 832
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -164174,9 +170725,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 8
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 8
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164188,9 +170739,9 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -164200,7 +170751,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -164245,15 +170796,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1037
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
+    SolutionIndex: 1075
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -164266,7 +170817,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -164300,30 +170851,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
     LVPA: 8
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1856
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -164337,10 +170888,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164348,13 +170899,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -164365,7 +170916,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -164409,20 +170960,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1038
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_4_4_WGM8
+    SolutionIndex: 1076
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT4_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -164430,7 +170981,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -164472,38 +171023,38 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
     LVPA: 8
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -164517,8 +171068,8 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -164573,8 +171124,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1039
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_8_2_WGM1
+    SolutionIndex: 1077
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -164583,10 +171134,10 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -164594,8 +171145,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -164631,7 +171182,7 @@
     GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -164645,9 +171196,9 @@
     LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
@@ -164666,9 +171217,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 16
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164676,12 +171227,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -164693,7 +171244,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -164737,8 +171288,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1040
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1078
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -164747,11 +171298,11 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -164759,7 +171310,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -164802,20 +171353,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
+    LSPA: 16
+    LSPB: 8
     LVCA: 8
     LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 1856
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -164830,9 +171381,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 16
+    MacroTile1: 8
     MacroTileA: 16
-    MacroTileB: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164844,9 +171395,9 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -164857,7 +171408,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -164901,15 +171452,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1041
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1079
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -164922,8 +171473,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -164959,27 +171510,27 @@
     GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
+    LSPA: 16
+    LSPB: 8
     LVCA: 8
     LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 1856
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -164994,9 +171545,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 32
+    MacroTile1: 8
     MacroTileA: 16
-    MacroTileB: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165004,13 +171555,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -165065,29 +171616,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1042
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1080
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -165103,13 +171654,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -165120,47 +171671,43 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 16
     LVCA: 8
-    LVCB: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1856
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 16
-    MacroTile1: 8
+    MacroTile1: 32
     MacroTileA: 16
-    MacroTileB: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165168,12 +171715,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -165184,7 +171731,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -165229,15 +171776,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1043
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1081
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -165250,10 +171797,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -165267,13 +171814,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -165284,47 +171831,43 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 16
     LVCA: 8
-    LVCB: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1856
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 1280
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 16
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 16
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165332,12 +171875,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
@@ -165348,7 +171891,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -165393,31 +171936,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1044
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1082
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -165431,13 +171974,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -165448,32 +171991,28 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
+    LSCA: 8
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
     LVPA: 8
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 128
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -165484,11 +172023,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165496,13 +172035,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -165512,8 +172051,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -165557,31 +172096,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1045
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_4_4_WGM1
+    SolutionIndex: 1083
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -165595,13 +172134,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -165612,7 +172151,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -165620,24 +172159,20 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 8
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 128
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -165648,11 +172183,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165676,8 +172211,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -165721,15 +172256,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1046
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1084
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -165742,10 +172277,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -165759,7 +172294,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -165776,7 +172311,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -165784,20 +172319,20 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 4
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 2
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 64
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -165808,11 +172343,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 4
+    MacroTile0: 4
+    MacroTile1: 64
+    MacroTileA: 4
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165825,7 +172360,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -165837,7 +172372,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -165881,15 +172416,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1047
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1085
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 2
+    SubGroup1: 32
+    SubGroupA: 2
+    SubGroupB: 32
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -165902,10 +172437,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [2, 32, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -165919,13 +172454,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -165936,30 +172471,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 64
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -165972,11 +172503,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 64
+    MacroTileA: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165984,7 +172515,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -166000,7 +172531,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -166045,31 +172576,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1048
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1086
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -166083,13 +172614,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -166100,7 +172631,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -166108,39 +172639,35 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 16
     LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 800
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166148,13 +172675,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -166164,7 +172691,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -166209,20 +172736,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1049
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT4_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1087
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -166230,10 +172757,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -166247,13 +172774,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -166264,30 +172791,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 8
+    LSCB: 16
     LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 128
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -166300,11 +172823,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166312,11 +172835,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -166328,8 +172851,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -166373,20 +172896,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1050
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT4_2_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1088
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -166394,10 +172917,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -166411,13 +172934,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -166428,30 +172951,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 8
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 128
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -166464,10 +172983,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
+    LoopUnroll: 4
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -166476,12 +172995,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -166492,7 +173011,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -166537,31 +173056,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1051
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1089
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -166575,13 +173094,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -166592,30 +173111,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
+    LSCA: 8
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
     LVPA: 8
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1856
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 128
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -166628,11 +173143,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 64
+    MacroTileA: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166640,13 +173155,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -166656,7 +173171,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -166701,31 +173216,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1052
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
+    SolutionIndex: 1090
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_4_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -166739,13 +173254,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -166756,7 +173271,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -166764,22 +173279,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
+    LSCA: 4
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
+    LSPB: 32
+    LVCA: 2
+    LVCB: 8
     LVPA: 8
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1856
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 1120
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 64
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -166792,11 +173303,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    LoopUnroll: 4
+    MacroTile0: 4
+    MacroTile1: 64
+    MacroTileA: 4
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166808,9 +173319,9 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -166820,8 +173331,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -166865,15 +173376,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1053
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_2_VW2_WG8_4_4_WGM8
+    SolutionIndex: 1091
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 2
+    SubGroup1: 32
+    SubGroupA: 2
+    SubGroupB: 32
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -166886,10 +173397,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [2, 32, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -166923,40 +173434,40 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 4
     LSCB: 16
     LSPA: 16
-    LSPB: 16
-    LVCA: 8
+    LSPB: 32
+    LVCA: 2
     LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 768
+    LdsNumElements: 1120
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetB: 64
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 4
+    MacroTile1: 64
+    MacroTileA: 4
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166964,13 +173475,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -166981,7 +173492,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -167025,15 +173536,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1054
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_1_WGM1
+    SolutionIndex: 1092
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 2
+    SubGroup1: 32
+    SubGroupA: 2
+    SubGroupB: 32
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -167046,7 +173557,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 1]
+    WorkGroup: [2, 32, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -167069,7 +173580,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -167083,39 +173594,43 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 4
     LSCB: 16
     LSPA: 16
-    LSPB: 16
-    LVCA: 8
+    LSPB: 32
+    LVCA: 2
     LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1280
+    LdsNumElements: 3168
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 2112
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 16
+    LoopUnroll: 4
+    MacroTile0: 4
     MacroTile1: 64
-    MacroTileA: 16
+    MacroTileA: 4
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -167124,13 +173639,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -167140,7 +173655,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -167185,28 +173700,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1055
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_16_1_WGM1
+    SolutionIndex: 1093
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG2_32_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    SubGroup0: 2
+    SubGroup1: 32
+    SubGroupA: 2
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 1]
+    WorkGroup: [2, 32, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -167229,7 +173744,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -167248,20 +173763,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 4
     LSCB: 16
     LSPA: 16
     LSPB: 32
-    LVCA: 4
+    LVCA: 2
     LVCB: 8
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3168
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 2112
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -167273,10 +173792,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 4
+    MacroTile1: 64
+    MacroTileA: 4
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -167289,7 +173808,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -167300,8 +173819,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -167345,16 +173864,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1056
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1094
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG2_32_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 2
+    SubGroup1: 32
+    SubGroupA: 2
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -167366,8 +173885,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [2, 32, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -167383,7 +173902,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -167409,19 +173928,19 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 8
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
     LVCA: 4
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 1344
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -167432,7 +173951,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 8
     MacroTile1: 32
     MacroTileA: 8
@@ -167449,7 +173968,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -167505,8 +174024,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1057
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1095
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -167529,7 +174048,7 @@
     WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -167543,13 +174062,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -167563,25 +174082,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 4
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 2
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1088
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 64
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -167592,11 +174115,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 4
-    MacroTile1: 64
-    MacroTileA: 4
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -167604,7 +174127,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -167620,8 +174143,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -167665,20 +174188,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1058
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
+    SolutionIndex: 1096
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 32
-    SubGroupA: 2
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -167686,10 +174209,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [2, 32, 4]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -167703,13 +174226,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -167723,40 +174246,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 64
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 64
-    MacroTileA: 8
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -167764,7 +174291,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -167780,8 +174307,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -167825,31 +174352,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1059
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1097
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT4_2_VW2_WG4_8_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 4
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 4
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [4, 8, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -167863,13 +174390,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -167883,40 +174410,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 16
-    LSPA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 16
     LVCA: 8
-    LVCB: 8
-    LVPA: 8
+    LVCB: 16
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 800
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 16
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -167924,13 +174455,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -167940,8 +174471,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -167985,20 +174516,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1060
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_1_WGM1
+    SolutionIndex: 1098
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_8_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SubGroup0: 4
+    SubGroup1: 8
+    SubGroupA: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -168006,10 +174537,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 1]
+    WorkGroup: [4, 8, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -168023,7 +174554,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -168049,23 +174580,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 8
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
     LVCA: 4
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -168089,7 +174620,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -168101,7 +174632,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -168145,31 +174676,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1061
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1099
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG4_8_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 4
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 4
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [4, 8, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -168183,13 +174714,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -168209,23 +174740,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 8
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
     LVCA: 4
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -168249,7 +174784,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -168260,7 +174795,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -168305,31 +174840,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1062
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1100
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG4_8_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 4
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 4
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [4, 8, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -168343,7 +174878,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -168363,21 +174898,21 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 4
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 2
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 2240
     LdsOffsetA: 0
     LdsOffsetB: 128
     LdsPadA: 0
@@ -168392,10 +174927,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
+    LoopUnroll: 8
+    MacroTile0: 4
     MacroTile1: 64
-    MacroTileA: 8
+    MacroTileA: 4
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -168404,12 +174939,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -168421,7 +174956,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -168465,31 +175000,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1063
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_4_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1101
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 2
+    SubGroup1: 32
+    SubGroupA: 2
+    SubGroupB: 32
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [2, 32, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -168503,13 +175038,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -168523,23 +175058,27 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 4
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 2
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1120
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 64
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -168552,11 +175091,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 4
-    MacroTile1: 64
-    MacroTileA: 4
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -168564,7 +175103,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -168580,8 +175119,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -168625,20 +175164,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1064
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
+    SolutionIndex: 1102
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 32
-    SubGroupA: 2
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -168646,10 +175185,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [2, 32, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -168663,13 +175202,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -168688,24 +175227,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 4
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 2
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1120
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 64
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -168713,10 +175256,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 4
-    MacroTile1: 64
-    MacroTileA: 4
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -168729,7 +175272,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -168740,7 +175283,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -168785,20 +175328,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1065
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
+    SolutionIndex: 1103
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_8_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 32
-    SubGroupA: 2
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SubGroup0: 4
+    SubGroup1: 8
+    SubGroupA: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -168806,10 +175349,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [2, 32, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 8, 8]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -168823,13 +175366,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -168848,28 +175391,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 4
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 2
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3168
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 2112
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -168877,10 +175416,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 4
-    MacroTile1: 64
-    MacroTileA: 4
-    MacroTileB: 64
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -168904,7 +175443,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -168949,31 +175488,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1066
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG2_32_4_WGM1
+    SolutionIndex: 1104
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG4_8_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 32
-    SubGroupA: 2
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
+    SubGroup0: 4
+    SubGroup1: 8
+    SubGroupA: 4
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [2, 32, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 8, 8]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -168987,7 +175526,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -169012,28 +175551,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 4
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 2
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3168
-    LdsNumElementsAlignedA: 64
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 2112
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -169041,10 +175580,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 4
-    MacroTile1: 64
-    MacroTileA: 4
-    MacroTileB: 64
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -169113,31 +175652,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1067
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG2_32_4_WGM8
+    SolutionIndex: 1105
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG4_8_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 32
-    SubGroupA: 2
-    SubGroupB: 32
+    SubGroup0: 4
+    SubGroup1: 8
+    SubGroupA: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [2, 32, 4]
+    WorkGroup: [4, 8, 8]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -169157,7 +175696,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -169185,22 +175724,26 @@
     LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1344
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 8
     MacroTile1: 32
     MacroTileA: 8
@@ -169228,7 +175771,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -169273,20 +175816,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1068
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1106
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG2_16_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 2
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 2
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -169294,8 +175837,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [2, 16, 8]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -169331,29 +175874,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -169365,10 +175908,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -169376,12 +175919,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -169437,20 +175980,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1069
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1107
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -169458,7 +176001,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -169500,39 +176043,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -169544,7 +176087,7 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -169557,7 +176100,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -169601,20 +176144,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1070
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR0_SNLL1_TT4_2_VW2_WG4_8_8_WGM1
+    SolutionIndex: 1108
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 8
-    SubGroupA: 4
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -169622,7 +176165,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -169659,43 +176202,43 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -169704,11 +176247,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -169765,28 +176308,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1071
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_8_8_WGM1
+    SolutionIndex: 1109
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 8
-    SubGroupA: 4
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -169809,7 +176352,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -169823,40 +176366,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 4
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -169864,12 +176411,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -169880,7 +176427,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -169925,28 +176472,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1072
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG4_8_8_WGM1
+    SolutionIndex: 1110
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -169983,43 +176530,43 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 4
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 8
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -170028,11 +176575,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -170089,14 +176636,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1073
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG4_8_8_WGM1
+    SolutionIndex: 1111
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [2, 4]
@@ -170110,7 +176657,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -170133,7 +176680,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -170152,35 +176699,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 4
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 2
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2240
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 4
-    MacroTile1: 64
-    MacroTileA: 4
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -170192,8 +176743,8 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -170204,7 +176755,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -170249,20 +176800,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1074
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT4x64x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG2_32_4_WGM1
+    SolutionIndex: 1112
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 32
-    SubGroupA: 2
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -170270,7 +176821,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [2, 32, 4]
+    WorkGroup: [8, 4, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -170307,7 +176858,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -170321,9 +176872,9 @@
     LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3136
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
@@ -170333,18 +176884,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 16
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 16
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -170352,12 +176903,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -170413,29 +176964,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1075
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_16_4_WGM8
+    SolutionIndex: 1113
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 4, 8]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -170476,39 +177027,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -170520,7 +177071,7 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -170577,20 +177128,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1076
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG4_8_8_WGM8
+    SolutionIndex: 1114
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 8
-    SubGroupA: 4
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -170598,7 +177149,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -170621,7 +177172,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -170635,40 +177186,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 4
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -170676,12 +177231,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -170692,7 +177247,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -170737,16 +177292,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1077
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG4_8_8_WGM8
+    SolutionIndex: 1115
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 8
-    SubGroupA: 4
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 4]
     ThreadTile0: 2
     ThreadTile1: 4
@@ -170758,7 +177313,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -170795,44 +177350,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
+    LSPA: 8
     LSPB: 16
-    LVCA: 4
+    LVCA: 32
     LVCB: 16
-    LVPA: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6720
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -170840,12 +177395,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -170901,28 +177456,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1078
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG4_8_8_WGM8
+    SolutionIndex: 1116
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -170964,22 +177519,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 16
     LSCB: 32
     LSPA: 32
     LSPB: 16
-    LVCA: 4
+    LVCA: 8
     LVCB: 16
     LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -170993,10 +177548,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -171009,7 +177564,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -171065,28 +177620,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1079
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG2_16_8_WGM8
+    SolutionIndex: 1117
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_4_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 16
-    SubGroupA: 2
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [2, 16, 8]
+    WorkGroup: [8, 4, 8]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -171123,44 +177678,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 8
-    LVCA: 16
+    LSPB: 32
+    LVCA: 32
     LVCB: 16
     LVPA: 8
-    LVPB: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -171168,13 +177723,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -171229,29 +177784,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1080
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1118
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG32_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [32, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -171284,7 +177839,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -171349,7 +177904,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -171393,8 +177948,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1081
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1119
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -171402,7 +177957,7 @@
     SubGroup1: 4
     SubGroupA: 16
     SubGroupB: 4
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -171448,46 +178003,46 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -171496,11 +178051,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -171513,7 +178068,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -171557,16 +178112,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1082
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1120
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_4_VW2_WG8_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 4
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 4
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [2, 4]
     ThreadTile0: 2
     ThreadTile1: 4
@@ -171578,7 +178133,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [8, 4, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -171601,7 +178156,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -171612,46 +178167,42 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -171660,11 +178211,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -171676,7 +178227,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -171721,28 +178272,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1083
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_8_2_WGM1
+    SolutionIndex: 1121
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [8, 4, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -171776,47 +178327,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -171824,12 +178375,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -171885,16 +178436,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1084
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_8_2_WGM1
+    SolutionIndex: 1122
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroup0: 8
+    SubGroup1: 4
+    SubGroupA: 8
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
     ThreadTile: [2, 4]
     ThreadTile0: 2
     ThreadTile1: 4
@@ -171906,7 +178457,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [8, 4, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -171940,7 +178491,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
@@ -171948,22 +178499,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -171977,10 +178528,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -171992,7 +178543,7 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -172049,8 +178600,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1085
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_4_8_WGM1
+    SolutionIndex: 1123
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_4_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -172058,12 +178609,12 @@
     SubGroup1: 4
     SubGroupA: 8
     SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -172071,7 +178622,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 4, 8]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -172087,7 +178638,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -172107,44 +178658,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -172152,8 +178703,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -172213,20 +178764,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1086
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_4_8_WGM1
+    SolutionIndex: 1124
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -172234,10 +178785,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 8]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -172251,7 +178802,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -172271,33 +178822,33 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -172305,10 +178856,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -172316,11 +178867,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -172377,31 +178928,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1087
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM8
+    SolutionIndex: 1125
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -172415,13 +178966,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -172440,28 +178991,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -172469,10 +179016,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -172480,11 +179027,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -172496,8 +179043,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -172541,20 +179088,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1088
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_4_4_WGM8
+    SolutionIndex: 1126
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -172562,10 +179109,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -172579,13 +179126,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -172605,27 +179152,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 8
-    LSPB: 16
+    LSPB: 32
     LVCA: 32
-    LVCB: 16
+    LVCB: 8
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6720
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -172634,9 +179177,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -172644,12 +179187,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -172660,8 +179203,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -172705,31 +179248,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1089
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG16_8_2_WGM8
+    SolutionIndex: 1127
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -172743,7 +179286,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -172751,56 +179294,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -172808,11 +179351,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -172869,31 +179412,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1090
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG8_4_8_WGM8
+    SolutionIndex: 1128
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 4, 8]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -172907,7 +179450,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -172915,45 +179458,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
-    LVCA: 32
-    LVCB: 16
-    LVPA: 8
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -172962,9 +179505,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -172972,13 +179515,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -173033,31 +179576,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1091
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG32_8_2_WGM8
+    SolutionIndex: 1129
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 8, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -173079,56 +179622,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 8
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -173136,12 +179679,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -173153,7 +179696,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -173197,29 +179740,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1092
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_2_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1130
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -173235,7 +179778,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -173252,24 +179795,24 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 3088
     LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
@@ -173281,18 +179824,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -173300,8 +179843,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -173317,7 +179860,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -173361,20 +179904,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1093
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR0_SNLL0_TT2_4_VW2_WG8_4_8_WGM1
+    SolutionIndex: 1131
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -173382,10 +179925,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 8]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -173399,7 +179942,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -173416,24 +179959,24 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1040
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
@@ -173441,18 +179984,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -173460,8 +180003,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -173521,20 +180064,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1094
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT2_4_VW2_WG8_4_8_WGM1
+    SolutionIndex: 1132
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -173542,10 +180085,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 8]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -173559,7 +180102,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -173576,24 +180119,24 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 3088
     LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
@@ -173605,18 +180148,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -173624,8 +180167,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -173685,20 +180228,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1095
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_4_8_WGM1
+    SolutionIndex: 1133
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -173706,10 +180249,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 8]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -173723,7 +180266,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -173740,36 +180283,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -173777,10 +180320,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -173788,13 +180331,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -173849,20 +180392,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1096
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT2_4_VW2_WG8_4_8_WGM8
+    SolutionIndex: 1134
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 4
-    SubGroupA: 8
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -173870,10 +180413,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 4, 8]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -173887,13 +180430,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -173913,23 +180456,19 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
+    LSCB: 16
     LSPA: 8
-    LSPB: 64
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
+    LVCB: 8
     LVPA: 4
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2080
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -173940,7 +180479,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -173956,8 +180495,8 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -173968,7 +180507,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -174013,8 +180552,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1097
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1135
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -174022,7 +180561,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -174035,9 +180574,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -174051,7 +180590,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -174077,38 +180616,38 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -174116,13 +180655,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -174177,15 +180716,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1098
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1136
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -174198,10 +180737,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -174215,7 +180754,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -174240,34 +180779,34 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 4
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 8192
     LdsOffsetA: 0
     LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -174276,13 +180815,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -174337,14 +180876,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1099
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1137
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT4_4_VW2_WG8_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -174358,10 +180897,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroup: [8, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -174381,7 +180920,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -174400,34 +180939,38 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
     LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -174436,13 +180979,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -174452,8 +180995,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -174497,16 +181040,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1100
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1138
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -174518,8 +181061,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroup: [8, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -174541,43 +181084,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
     LSPA: 8
-    LSPB: 64
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2080
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -174589,9 +181128,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -174600,12 +181139,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -174616,8 +181155,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -174661,8 +181200,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1101
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1139
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -174670,20 +181209,20 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -174705,43 +181244,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2080
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -174765,11 +181300,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -174780,7 +181315,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -174825,8 +181360,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1102
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1140
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -174834,7 +181369,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -174845,9 +181380,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -174871,52 +181406,52 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSPA: 32
+    LSPB: 64
+    LVCA: 32
+    LVCB: 16
+    LVPA: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 16384
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 8192
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -174928,13 +181463,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 1024
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -174989,8 +181524,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1103
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
+    SolutionIndex: 1141
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -175009,9 +181544,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [16, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -175027,7 +181562,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -175053,27 +181588,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3088
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -175082,9 +181617,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -175092,13 +181627,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -175153,15 +181688,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1104
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1142
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -175174,10 +181709,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -175191,13 +181726,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -175216,34 +181751,38 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
+    LSCA: 128
+    LSCB: 32
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 4
+    LVCA: 64
+    LVCB: 16
+    LVPA: 8
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1040
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -175252,13 +181791,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 1024
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -175268,7 +181807,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -175313,16 +181852,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1105
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1143
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG32_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -175334,10 +181873,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroup: [32, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -175351,7 +181890,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -175377,27 +181916,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
+    LSCB: 32
+    LSPA: 32
     LSPB: 64
     LVCA: 32
-    LVCB: 4
-    LVPA: 4
+    LVCB: 16
+    LVPA: 16
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3088
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -175416,13 +181955,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 1024
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -175477,8 +182016,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1106
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1144
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -175498,10 +182037,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -175515,7 +182054,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -175541,21 +182080,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
     LSPB: 32
     LVCA: 32
-    LVCB: 8
+    LVCB: 16
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -175568,7 +182107,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -175584,7 +182123,7 @@
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 512
     PackBatchDims: 0
@@ -175641,8 +182180,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1107
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM1
+    SolutionIndex: 1145
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -175663,9 +182202,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -175685,39 +182224,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2080
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -175741,11 +182284,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -175756,7 +182299,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -175801,8 +182344,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1108
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1146
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -175810,7 +182353,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -175821,9 +182364,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -175847,56 +182390,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
-    LSPB: 32
+    LSPA: 8
+    LSPB: 64
     LVCA: 32
-    LVCB: 8
-    LVPA: 8
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -175904,13 +182447,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -175965,29 +182508,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1109
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM8
+    SolutionIndex: 1147
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -176011,51 +182554,51 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
     LSPA: 16
     LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -176064,13 +182607,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -176125,14 +182668,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1110
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT4_4_VW2_WG8_16_4_WGM8
+    SolutionIndex: 1148
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW4_GSU1_LPB4_PGR0_PLR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -176145,8 +182688,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -176171,55 +182714,55 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
     LSPA: 16
     LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -176228,13 +182771,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -176289,14 +182832,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1111
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_4_WGM8
+    SolutionIndex: 1149
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -176309,9 +182852,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -176333,39 +182876,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2080
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -176378,9 +182925,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -176388,11 +182935,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -176404,8 +182951,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -176449,8 +182996,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1112
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1150
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -176458,18 +183005,18 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 16
     WorkGroupMappingType: B
@@ -176493,39 +183040,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
     LSPA: 8
-    LSPB: 32
+    LSPB: 64
     LVCA: 32
-    LVCB: 8
-    LVPA: 4
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2080
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -176537,9 +183088,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -176548,12 +183099,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -176564,7 +183115,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -176609,8 +183160,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1113
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1151
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -176618,18 +183169,18 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 16
     WorkGroupMappingType: B
@@ -176655,52 +183206,52 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 32
-    LSPB: 64
-    LVCA: 32
-    LVCB: 16
-    LVPA: 16
-    LVPB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
+    LdsNumElements: 12416
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
     LdsOffsetA_Blk: 8192
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 10240
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 32
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -176712,13 +183263,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 1024
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -176773,8 +183324,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1114
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_4_WGM1
+    SolutionIndex: 1152
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -176793,8 +183344,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -176819,7 +183370,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -176827,33 +183378,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 32
-    LVCA: 32
+    LVCA: 16
     LVCB: 16
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
     LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -176877,10 +183428,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 512
     PackBatchDims: 0
@@ -176937,8 +183488,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1115
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM1
+    SolutionIndex: 1153
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -176957,7 +183508,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -176983,55 +183534,55 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 64
-    LVCA: 64
-    LVCB: 16
+    LVCA: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
     LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -177041,12 +183592,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 1024
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -177101,28 +183652,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1116
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG32_16_2_WGM1
+    SolutionIndex: 1154
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 16
-    SubGroupA: 32
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 16, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -177147,7 +183698,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -177155,33 +183706,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 32
-    LSPA: 32
-    LSPB: 64
+    LSPA: 16
+    LSPB: 32
     LVCA: 32
     LVCB: 16
-    LVPA: 16
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -177193,10 +183744,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -177204,13 +183755,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 1024
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -177265,29 +183816,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1117
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_16_4_WGM8
+    SolutionIndex: 1155
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -177311,41 +183862,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 32
-    LVCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 16
+    LVCB: 8
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 16384
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 8192
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -177358,9 +183909,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -177368,11 +183919,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 512
     PackBatchDims: 0
@@ -177429,29 +183980,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1118
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG16_8_4_WGM8
+    SolutionIndex: 1156
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -177467,7 +184018,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -177476,7 +184027,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -177492,28 +184043,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 32
     LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -177521,9 +184072,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -177532,13 +184083,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 1024
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -177593,14 +184144,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1119
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1157
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -177614,10 +184165,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [32, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -177631,7 +184182,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -177640,7 +184191,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -177656,18 +184207,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSCA: 64
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -177677,18 +184228,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -177696,13 +184247,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -177757,20 +184308,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1120
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1158
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -177778,10 +184329,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -177795,13 +184346,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -177821,30 +184372,34 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 64
     LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LVCB: 8
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -177856,13 +184411,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -177872,8 +184427,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -177917,31 +184472,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1121
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_GRVW4_GSU1_LPB4_PGR0_PLR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1159
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -177955,7 +184510,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -177964,7 +184519,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -177980,28 +184535,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 32
+    LSPA: 32
     LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -178009,9 +184564,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -178020,13 +184575,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 1024
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -178081,14 +184636,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1122
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
+    SolutionIndex: 1160
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -178102,10 +184657,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroup: [32, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -178119,7 +184674,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -178145,21 +184700,21 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
+    LVCB: 8
     LVPA: 4
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 12416
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -178172,11 +184727,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -178184,11 +184739,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -178245,8 +184800,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1123
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM16
+    SolutionIndex: 1161
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -178255,11 +184810,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -178269,7 +184824,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -178283,7 +184838,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -178292,7 +184847,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -178308,18 +184863,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSCA: 64
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -178329,18 +184884,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -178348,13 +184903,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -178365,7 +184920,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -178409,20 +184964,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1124
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM16
+    SolutionIndex: 1162
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR0_SNLL1_TT4_4_VW4_WG16_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -178430,10 +184985,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 4]
     WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -178474,14 +185029,14 @@
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 32
-    LSPA: 16
-    LSPB: 32
+    LSPA: 32
+    LSPB: 64
     LVCA: 16
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 12416
+    LdsNumElements: 16384
     LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
@@ -178493,14 +185048,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -178512,13 +185067,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -178573,29 +185128,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1125
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1163
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -178620,7 +185175,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -178639,19 +185194,19 @@
     LSCA: 64
     LSCB: 32
     LSPA: 32
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
+    LVCB: 8
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 16384
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 8192
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -178666,9 +185221,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -178676,8 +185231,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -178737,20 +185292,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1126
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_4_WGM1
+    SolutionIndex: 1164
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -178758,8 +185313,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -178784,7 +185339,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -178800,38 +185355,38 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 32
     LSPA: 32
     LSPB: 64
-    LVCA: 16
-    LVCB: 8
+    LVCA: 32
+    LVCB: 16
     LVPA: 8
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedA: 4096
     LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
     LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -178846,7 +185401,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 1024
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -178901,29 +185456,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1127
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_4_WGM1
+    SolutionIndex: 1165
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 32
+    SubGroup1: 16
+    SubGroupA: 32
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [32, 16, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -178939,15 +185494,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -178955,33 +185510,29 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 32
-    LVCB: 16
+    LSCA: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 128
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -178992,11 +185543,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 2
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -179004,13 +185555,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -179020,8 +185571,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -179065,31 +185616,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1128
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG16_8_4_WGM1
+    SolutionIndex: 1166
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT4_4_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 4]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -179103,49 +185654,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 32
+    LSCA: 16
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB: 128
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -179156,10 +185703,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 2
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -179168,13 +185715,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -179184,7 +185731,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -179229,31 +185776,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1129
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_4_WGM1
+    SolutionIndex: 1167
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT4_4_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 4]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -179276,7 +185823,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -179292,24 +185839,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
-    LSPB: 64
-    LVCA: 32
-    LVCB: 16
-    LVPA: 8
-    LVPB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -179321,9 +185868,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -179332,13 +185879,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 1024
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -179393,20 +185940,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1130
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_16_2_WGM1
+    SolutionIndex: 1168
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 32
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -179414,8 +185961,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -179431,15 +185978,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -179447,48 +185994,44 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -179496,13 +186039,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -179512,7 +186055,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -179557,16 +186100,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1131
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_4_WGM8
+    SolutionIndex: 1169
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -179577,11 +186120,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 4]
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -179595,63 +186138,59 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 32
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -179661,12 +186200,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -179676,7 +186215,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -179721,31 +186260,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1132
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_4_WGM8
+    SolutionIndex: 1170
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -179759,7 +186298,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -179767,7 +186306,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -179775,33 +186314,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 32
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 32
-    LVCB: 16
-    LVPA: 8
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -179812,10 +186351,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -179825,12 +186364,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 1024
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -179885,14 +186424,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1133
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_16_2_WGM8
+    SolutionIndex: 1171
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 32
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -179905,11 +186444,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 16, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -179923,63 +186462,59 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 32
+    LSCB: 16
     LSPA: 16
     LSPB: 32
     LVCA: 16
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 12416
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -179988,11 +186523,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -180004,7 +186539,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -180049,16 +186584,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1134
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
+    SolutionIndex: 1172
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -180069,11 +186604,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -180087,7 +186622,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -180095,7 +186630,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -180103,37 +186638,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 32
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
     LSPB: 32
     LVCA: 16
-    LVCB: 16
+    LVCB: 8
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -180141,10 +186676,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -180152,13 +186687,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -180169,7 +186704,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -180213,15 +186748,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1135
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR0_SNLL1_TT4_4_VW4_WG16_8_4_WGM16
+    SolutionIndex: 1173
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -180233,11 +186768,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -180251,49 +186786,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 32
-    LSPB: 64
-    LVCA: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 8
     LVCB: 8
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -180304,10 +186835,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -180316,13 +186847,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -180332,7 +186863,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -180377,31 +186908,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1136
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_4_WGM16
+    SolutionIndex: 1174
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 4]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -180415,53 +186946,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 32
-    LSPB: 64
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
     LVCA: 16
     LVCB: 8
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -180469,9 +186996,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -180481,12 +187008,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -180496,7 +187023,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -180541,8 +187068,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1137
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_4_WGM16
+    SolutionIndex: 1175
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -180550,22 +187077,22 @@
     SubGroup1: 16
     SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 4]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -180579,7 +187106,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -180587,7 +187114,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -180595,33 +187122,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 32
-    LSPB: 64
-    LVCA: 32
-    LVCB: 16
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -180632,10 +187159,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -180645,12 +187172,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 1024
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -180705,14 +187232,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1138
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_16_2_WGM16
+    SolutionIndex: 1176
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 32
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -180725,11 +187252,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 16, 2]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -180743,13 +187270,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -180768,34 +187295,38 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 8
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -180804,12 +187335,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -180820,8 +187351,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -180865,16 +187396,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1139
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT4_4_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1177
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -180886,10 +187417,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -180903,13 +187434,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -180929,34 +187460,38 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
     LVCA: 8
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
+    LoopUnroll: 4
     MacroTile0: 16
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 16
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -180964,12 +187499,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -180980,7 +187515,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -181025,16 +187560,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1140
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT4_4_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1178
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG4_8_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 4
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 4
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -181046,10 +187581,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 8, 8]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -181063,7 +187598,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -181089,23 +187624,23 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -181116,7 +187651,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -181132,8 +187667,8 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -181189,8 +187724,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1141
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM16
+    SolutionIndex: 1179
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -181211,9 +187746,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -181227,45 +187762,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
     LVCA: 16
     LVCB: 4
     LVPA: 4
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -181276,10 +187815,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -181288,7 +187827,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -181304,7 +187843,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -181349,8 +187888,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1142
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM8
+    SolutionIndex: 1180
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -181358,22 +187897,22 @@
     SubGroup1: 16
     SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 16, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -181387,45 +187926,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
     LVCA: 16
     LVCB: 4
     LVPA: 4
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -181436,10 +187979,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -181448,7 +187991,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -181464,7 +188007,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -181509,8 +188052,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1143
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM16
+    SolutionIndex: 1181
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -181518,22 +188061,22 @@
     SubGroup1: 16
     SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 16, 2]
     WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -181547,7 +188090,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -181555,41 +188098,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -181600,7 +188143,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 32
     MacroTile1: 64
     MacroTileA: 32
@@ -181613,11 +188156,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -181673,8 +188216,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1144
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM16
+    SolutionIndex: 1182
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -181693,11 +188236,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -181711,45 +188254,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 16
+    LVCA: 8
     LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -181760,7 +188307,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 32
     MacroTile1: 64
     MacroTileA: 32
@@ -181773,7 +188320,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -181788,7 +188335,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -181833,8 +188380,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1145
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM1
+    SolutionIndex: 1183
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_16_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -181842,7 +188389,7 @@
     SubGroup1: 16
     SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -181853,11 +188400,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -181871,7 +188418,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -181879,45 +188426,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 16
+    LVCA: 8
     LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -181926,9 +188473,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -181936,12 +188483,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -181997,15 +188544,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1146
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM1
+    SolutionIndex: 1184
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -182017,11 +188564,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -182041,7 +188588,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -182060,18 +188607,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 16
     LSPA: 16
     LSPB: 32
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
     LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -182085,10 +188636,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -182101,7 +188652,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -182112,7 +188663,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -182157,16 +188708,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1147
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1185
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -182178,7 +188729,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -182237,18 +188788,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -182256,12 +188807,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -182317,15 +188868,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1148
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_16_2_WGM8
+    SolutionIndex: 1186
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -182338,7 +188889,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -182391,7 +188942,7 @@
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
@@ -182401,18 +188952,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -182420,12 +188971,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -182481,15 +189032,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1149
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM8
+    SolutionIndex: 1187
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -182502,8 +189053,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -182519,7 +189070,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -182545,27 +189096,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
+    LVCB: 16
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -182574,9 +189125,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -182584,11 +189135,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -182645,15 +189196,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1150
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_16_2_WGM16
+    SolutionIndex: 1188
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 8
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -182666,10 +189217,174 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1189
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -182708,38 +189423,38 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -182748,11 +189463,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -182809,14 +189524,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1151
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG4_8_8_WGM8
+    SolutionIndex: 1190
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 4
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -182830,8 +189545,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 8, 8]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -182856,7 +189571,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -182875,19 +189590,19 @@
     LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
+    LVCB: 8
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -182902,9 +189617,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -182912,8 +189627,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -182973,20 +189688,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1152
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM1
+    SolutionIndex: 1191
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -182994,7 +189709,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -183020,7 +189735,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -183039,19 +189754,19 @@
     LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
+    LVCB: 8
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -183066,9 +189781,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -183076,8 +189791,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -183137,20 +189852,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1153
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM8
+    SolutionIndex: 1192
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -183158,7 +189873,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -183184,7 +189899,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -183203,19 +189918,19 @@
     LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 64
+    LSPB: 32
     LVCA: 16
-    LVCB: 4
+    LVCB: 8
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -183230,9 +189945,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -183240,8 +189955,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -183301,20 +190016,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1154
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_16_2_WGM16
+    SolutionIndex: 1193
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -183322,7 +190037,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -183339,7 +190054,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -183364,18 +190079,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2176
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
@@ -183392,10 +190107,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -183404,12 +190119,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -183465,31 +190180,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1155
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_16_2_WGM1
+    SolutionIndex: 1194
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -183528,22 +190243,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 32
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
-    LVPA: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2176
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -183557,10 +190272,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -183572,8 +190287,8 @@
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -183629,15 +190344,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1156
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_16_2_WGM16
+    SolutionIndex: 1195
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -183650,8 +190365,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -183676,7 +190391,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -183692,24 +190407,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 128
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -183721,9 +190436,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 128
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 128
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -183732,13 +190447,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -183793,29 +190508,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1157
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB0_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM16
+    SolutionIndex: 1196
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG32_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    WorkGroup: [32, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -183831,7 +190546,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -183839,41 +190554,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 16
+    LVCA: 8
     LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -183884,7 +190599,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 32
     MacroTileA: 32
@@ -183897,7 +190612,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -183957,8 +190672,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1158
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1197
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -183977,11 +190692,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 8, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -183995,59 +190710,63 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
     LSPB: 32
     LVCA: 16
     LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -184056,11 +190775,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -184072,7 +190791,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -184117,16 +190836,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1159
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1198
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -184137,11 +190856,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -184155,49 +190874,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
-    LSPA: 16
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 16
+    LVCA: 8
     LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -184208,7 +190923,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 32
     MacroTileA: 32
@@ -184221,7 +190936,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -184236,7 +190951,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -184281,8 +190996,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1160
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM16
+    SolutionIndex: 1199
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS0_GRVW4_GSU1_LPB4_PGR0_PLR1_SNLL0_TT4_4_VW4_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -184290,7 +191005,7 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -184301,11 +191016,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -184327,41 +191042,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -184385,11 +191100,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -184445,8 +191160,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1161
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM1
+    SolutionIndex: 1200
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -184465,9 +191180,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -184491,41 +191206,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LVCB: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -184537,9 +191252,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -184548,12 +191263,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -184609,8 +191324,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1162
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1201
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -184619,17 +191334,17 @@
     SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 8, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -184655,55 +191370,55 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LVCB: 8
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -184712,12 +191427,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -184773,14 +191488,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1163
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_4_VW2_WG8_8_4_WGM16
+    SolutionIndex: 1202
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -184793,8 +191508,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -184811,7 +191526,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -184820,7 +191535,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -184836,28 +191551,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 16
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -184865,9 +191580,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -184876,8 +191591,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -184937,14 +191652,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1164
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM1
+    SolutionIndex: 1203
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
@@ -184958,10 +191673,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -184975,15 +191690,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -184991,33 +191706,29 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
     LVPA: 4
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -185028,7 +191739,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -185041,11 +191752,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -185056,7 +191767,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -185101,8 +191812,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1165
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
+    SolutionIndex: 1204
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -185110,7 +191821,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -185121,11 +191832,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -185139,15 +191850,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -185155,33 +191866,29 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
     LVPA: 4
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -185192,7 +191899,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -185205,11 +191912,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -185220,7 +191927,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -185265,8 +191972,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1166
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
+    SolutionIndex: 1205
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -185274,7 +191981,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -185285,11 +191992,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -185303,7 +192010,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -185311,33 +192018,33 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 64
+    LSPB: 16
     LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 6208
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
@@ -185345,11 +192052,11 @@
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -185357,10 +192064,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -185368,12 +192075,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -185429,31 +192136,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1167
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG16_8_2_WGM16
+    SolutionIndex: 1206
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT4_4_VW2_WG8_8_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -185475,55 +192182,55 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
+    LVCB: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -185532,12 +192239,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -185593,16 +192300,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1168
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM1
+    SolutionIndex: 1207
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT4_4_VW2_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -185613,9 +192320,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -185631,15 +192338,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -185647,47 +192354,43 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 32
-    LSPA: 16
+    LSCA: 16
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 32
-    LVCB: 16
+    LVCA: 8
+    LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 128
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -185696,13 +192399,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -185712,8 +192415,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -185757,31 +192460,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1169
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_8_VW4_WG32_4_4_WGM1
+    SolutionIndex: 1208
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 4, 4]
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -185795,53 +192498,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
-    LSPA: 32
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6272
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -185861,7 +192560,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -185876,7 +192575,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -185921,31 +192620,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1170
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM1
+    SolutionIndex: 1209
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -185959,53 +192658,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 32
+    LSCB: 16
     LSPA: 16
     LSPB: 32
     LVCA: 16
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -186013,9 +192708,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -186024,11 +192719,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -186040,8 +192735,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -186085,31 +192780,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1171
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM8
+    SolutionIndex: 1210
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -186123,7 +192818,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -186131,48 +192826,48 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
-    LSPA: 32
+    LSCB: 16
+    LSPA: 16
     LSPB: 32
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 32
     MacroTile1: 32
     MacroTileA: 32
@@ -186185,7 +192880,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -186245,31 +192940,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1172
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS0_GRVW4_GSU1_LPB4_PGR0_PLR1_SNLL0_TT4_4_VW4_WG8_8_4_WGM8
+    SolutionIndex: 1211
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -186283,53 +192978,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
-    LSPA: 32
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6272
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 528
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -186349,7 +193040,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -186364,7 +193055,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -186409,31 +193100,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1173
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM8
+    SolutionIndex: 1212
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -186447,53 +193138,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 16
     LSPB: 32
-    LVCA: 16
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -186501,9 +193188,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -186512,11 +193199,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -186528,8 +193215,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -186573,31 +193260,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1174
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT8_4_VW4_WG8_8_4_WGM8
+    SolutionIndex: 1213
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -186611,49 +193298,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 16
     LSPB: 32
-    LVCA: 16
+    LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -186664,10 +193347,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -186676,11 +193359,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -186692,7 +193375,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -186737,31 +193420,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1175
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_8_2_WGM16
+    SolutionIndex: 1214
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -186775,7 +193458,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -186783,45 +193466,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
-    LSPA: 32
+    LSCB: 16
+    LSPA: 16
     LSPB: 32
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6272
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3104
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -186841,7 +193524,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -186901,31 +193584,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1176
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG8_8_4_WGM16
+    SolutionIndex: 1215
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 8
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -186939,7 +193622,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -186956,7 +193639,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -186964,24 +193647,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 1568
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -186989,10 +193672,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -187004,7 +193687,7 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -187017,7 +193700,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -187061,20 +193744,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1177
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_8_2_WGM1
+    SolutionIndex: 1216
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_4_VW2_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -187082,10 +193765,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -187116,43 +193799,43 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 16
     LSCB: 32
-    LSPA: 8
+    LSPA: 32
     LSPB: 16
-    LVCA: 32
+    LVCA: 8
     LVCB: 16
-    LVPA: 4
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -187160,12 +193843,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -187221,29 +193904,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1178
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS0_GRVW2_GSU4_LPB2_PGR0_PLR1_SNLL0_TT4_4_VW2_WG16_8_2_WGM8
+    SolutionIndex: 1217
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -187276,30 +193959,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -187313,10 +193996,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -187324,12 +194007,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -187385,8 +194068,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1179
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT4_4_VW2_WG8_8_4_WGM8
+    SolutionIndex: 1218
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -187394,12 +194077,12 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -187407,7 +194090,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -187440,7 +194123,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -187457,13 +194140,13 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -187478,9 +194161,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -187488,12 +194171,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -187549,8 +194232,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1180
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_GRVW2_GSU4_LPB2_PGR1_PLR1_SNLL0_TT4_4_VW2_WG8_8_4_WGM16
+    SolutionIndex: 1219
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -187558,12 +194241,12 @@
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -187587,13 +194270,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -187607,40 +194290,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 8
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 128
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -187648,11 +194335,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -187664,8 +194351,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -187709,16 +194396,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1181
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_2_WGM1
+    SolutionIndex: 1220
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
     ThreadTile: [2, 2]
     ThreadTile0: 2
     ThreadTile1: 2
@@ -187730,10 +194417,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -187747,13 +194434,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -187773,23 +194460,27 @@
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -187798,9 +194489,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -187808,11 +194499,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -187824,7 +194515,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -187869,31 +194560,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1182
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1221
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_4_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -187907,15 +194598,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -187923,44 +194614,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -187969,10 +194664,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -187984,8 +194679,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -188029,31 +194724,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1183
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR0_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1222
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -188067,15 +194762,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -188083,33 +194778,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 128
+    LSCB: 32
     LSPA: 16
     LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 13440
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -188117,9 +194816,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
+    MacroTile0: 128
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 128
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -188128,13 +194827,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -188144,7 +194843,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -188189,31 +194888,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1184
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS0_GRVW2_GSU1_LPB0_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1223
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    VectorWidth: 4
+    WorkGroup: [32, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -188227,15 +194926,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -188243,33 +194942,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
-    LVCB: 4
+    LVCB: 16
     LVPA: 4
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 528
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -188277,10 +194980,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -188289,10 +194992,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -188304,7 +195007,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -188349,31 +195052,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1185
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1224
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -188387,15 +195090,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -188403,33 +195106,37 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 64
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -188437,10 +195144,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -188448,11 +195155,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -188464,8 +195171,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -188509,31 +195216,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1186
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_2_VW2_WG8_16_2_WGM1
+    SolutionIndex: 1225
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_4_4_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -188547,15 +195254,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -188563,29 +195270,33 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 128
+    LSCB: 32
     LSPA: 16
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
+    LVCA: 32
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 13440
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -188596,10 +195307,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 128
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -188608,13 +195319,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 512
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -188624,7 +195335,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -188669,37 +195380,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1187
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_16_2_WGM1
+    SolutionIndex: 1226
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_8_2_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 8, 2]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -188714,57 +195425,58 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3104
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -188772,8 +195484,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -188788,6 +195502,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -188795,6 +195510,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -188833,37 +195549,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1188
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_16_2_WGM1
+    SolutionIndex: 1227
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -188877,39 +195591,44 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 64
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LVCB: 4
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1568
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -188921,9 +195640,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -188932,12 +195651,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -188948,13 +195667,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -188993,8 +195714,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1189
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR0_SNLL0_TT2_4_VW2_WG16_16_1_WGM16
+    SolutionIndex: 1228
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -189003,19 +195724,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -189023,7 +195744,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -189031,13 +195752,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -189051,29 +195772,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1088
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -189081,10 +195807,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -189092,11 +195818,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -189108,13 +195834,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -189153,37 +195881,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1190
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS0_GRVW2_GSU1_LPB2_PGR0_PLR1_SNLL0_TT2_2_VW2_WG8_8_4_WGM16
+    SolutionIndex: 1229
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT6_4_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -189191,7 +195919,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -189211,33 +195939,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -189245,10 +195974,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -189256,11 +195985,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -189272,13 +196001,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -189317,37 +196048,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1191
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG8_8_4_WGM16
+    SolutionIndex: 1230
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT6_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -189355,7 +196086,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -189379,29 +196110,30 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -189409,10 +196141,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -189420,8 +196152,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -189436,6 +196168,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -189443,6 +196176,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -189481,37 +196215,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1192
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT4_2_VW2_WG8_8_4_WGM16
+    SolutionIndex: 1231
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 8, 4]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -189519,7 +196253,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -189539,33 +196273,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -189573,10 +196308,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -189584,8 +196319,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -189600,6 +196335,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -189607,6 +196343,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -189645,37 +196382,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1193
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_2_VW2_WG16_4_4_WGM16
+    SolutionIndex: 1232
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -189683,14 +196420,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -189707,40 +196444,41 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 6656
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -189748,12 +196486,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 2
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -189764,6 +196504,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -189771,6 +196512,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -189809,37 +196551,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1194
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_GRVW2_GSU1_LPB2_PGR1_PLR1_SNLL1_TT2_4_VW2_WG16_4_4_WGM16
+    SolutionIndex: 1233
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -189847,7 +196587,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -189855,8 +196595,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -189867,33 +196607,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 96
+    LVCA: 32
+    LVCB: 2
     LVPA: 4
-    LVPB: 8
+    LVPB: 24
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -189902,9 +196643,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -189912,11 +196653,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -189928,6 +196669,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -189935,6 +196677,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -189973,37 +196716,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1195
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_4_4_WGM1
+    SolutionIndex: 1234
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -190011,64 +196754,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 32
-    LSPA: 16
+    LSCB: 8
+    LSPA: 2
     LSPB: 32
-    LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCA: 128
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 13440
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -190076,13 +196820,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -190092,6 +196838,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -190099,6 +196846,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -190137,37 +196885,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1196
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_8_2_WGM1
+    SolutionIndex: 1235
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -190175,15 +196921,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -190191,37 +196937,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -190229,10 +196976,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -190240,8 +196987,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -190256,13 +197005,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -190301,37 +197052,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1197
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_4_4_WGM8
+    SolutionIndex: 1236
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -190339,15 +197088,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -190355,37 +197104,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -190393,10 +197143,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -190404,8 +197154,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -190420,6 +197172,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -190427,6 +197180,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -190465,37 +197219,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1198
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG16_4_4_WGM16
+    SolutionIndex: 1237
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 16
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -190503,14 +197255,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -190527,40 +197279,41 @@
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
     LVCA: 32
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 13440
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -190568,13 +197321,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 512
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -190584,13 +197339,15 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -190629,20 +197386,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1199
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x32_SE_EPS1_GRVW4_GSU1_LPB4_PGR1_PLR1_SNLL1_TT4_4_VW4_WG32_8_2_WGM16
+    SolutionIndex: 1238
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -190650,12 +197407,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 2]
-    WorkGroupMapping: 16
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -190667,7 +197422,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -190676,7 +197431,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -190693,18 +197448,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -190721,10 +197476,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -190733,8 +197488,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -190798,8 +197553,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1200
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1239
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -190808,10 +197563,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -190820,9 +197575,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -190834,16 +197589,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -190860,18 +197615,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -190888,10 +197643,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -190900,8 +197655,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -190963,8 +197720,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1201
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1240
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -190973,10 +197730,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -190987,9 +197744,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -191001,48 +197756,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
-    LSCB: 8
-    LSPA: 5
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 48
+    LVCA: 32
     LVCB: 4
-    LVPA: 3
-    LVPB: 32
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -191055,10 +197810,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 96
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -191067,8 +197822,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -191085,7 +197842,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -191130,8 +197887,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1202
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT6_4_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1241
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -191140,23 +197897,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -191194,22 +197949,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
+    LSCA: 128
     LSCB: 8
-    LSPA: 5
+    LSPA: 4
     LSPB: 64
-    LVCA: 48
+    LVCA: 64
     LVCB: 4
-    LVPA: 3
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -191223,9 +197978,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -191234,8 +197989,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -191297,8 +198052,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1203
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT6_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1242
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -191307,10 +198062,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -191322,7 +198077,7 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -191361,22 +198116,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
+    LSCA: 128
     LSCB: 8
-    LSPA: 5
+    LSPA: 4
     LSPB: 64
-    LVCA: 48
+    LVCA: 64
     LVCB: 4
-    LVPA: 3
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -191390,9 +198145,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -191401,8 +198156,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -191464,8 +198219,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1204
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1243
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -191474,10 +198229,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -191486,10 +198241,10 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -191510,7 +198265,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -191518,32 +198273,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
+    LSCA: 128
     LSCB: 8
-    LSPA: 5
+    LSPA: 8
     LSPB: 64
-    LVCA: 48
+    LVCA: 32
     LVCB: 4
-    LVPA: 3
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -191557,9 +198312,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -191568,11 +198323,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -191586,7 +198341,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -191631,8 +198386,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1205
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1244
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -191641,22 +198396,22 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -191669,15 +198424,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -191685,32 +198440,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 128
+    LSCB: 8
     LSPA: 8
-    LSPB: 32
+    LSPB: 64
     LVCA: 32
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6656
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1536
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -191723,11 +198478,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -191735,14 +198490,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 2
-    NumLoadsB: 3
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -191755,7 +198508,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -191800,8 +198553,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1206
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x16_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1245
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -191810,21 +198563,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -191844,8 +198599,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -191856,28 +198611,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 8
     LSPA: 8
-    LSPB: 96
+    LSPB: 64
     LVCA: 32
-    LVCB: 2
-    LVPA: 4
-    LVPB: 24
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -191891,10 +198646,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -191902,8 +198657,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -191965,8 +198720,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1207
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1246
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -191975,19 +198730,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -192010,31 +198765,31 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 2
-    LSPB: 32
-    LVCA: 128
-    LVCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
@@ -192070,13 +198825,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -192134,8 +198887,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1208
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO1_WG16_16_1_WGM8
+    SolutionIndex: 1247
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -192150,15 +198903,17 @@
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -192170,48 +198925,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 8
-    LSPA: 4
+    LSCB: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 64
+    LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -192224,7 +198979,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
     MacroTile1: 64
     MacroTileA: 128
@@ -192237,9 +198992,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -192256,7 +199009,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -192301,8 +199054,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1209
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1248
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -192321,11 +199074,13 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -192345,36 +199100,36 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
+    LSPA: 2
+    LSPB: 32
+    LVCA: 128
+    LVCB: 8
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -192393,9 +199148,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -192403,14 +199158,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -192468,8 +199223,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1210
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1249
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -192478,17 +199233,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -192512,7 +199267,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -192520,11 +199275,11 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -192532,16 +199287,16 @@
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 8
+    LSPA: 4
     LSPB: 64
-    LVCA: 32
+    LVCA: 64
     LVCB: 4
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -192560,9 +199315,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -192570,14 +199325,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -192635,8 +199390,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1211
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1250
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -192645,17 +199400,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -192679,7 +199434,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -192687,11 +199442,11 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -192699,16 +199454,16 @@
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 8
+    LSPA: 4
     LSPB: 64
-    LVCA: 32
+    LVCA: 64
     LVCB: 4
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -192727,9 +199482,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -192737,14 +199492,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -192802,8 +199557,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1212
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1251
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -192812,19 +199567,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -192847,7 +199602,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -192867,15 +199622,15 @@
     LSCA: 128
     LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 128
     LVCA: 32
-    LVCB: 4
+    LVCB: 2
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -192894,9 +199649,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -192904,8 +199659,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -192924,7 +199679,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -192969,8 +199724,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1213
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1252
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -192979,11 +199734,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -192991,7 +199746,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -193005,7 +199760,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -193032,21 +199787,21 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 128
     LVCA: 32
-    LVCB: 4
+    LVCB: 2
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -193059,11 +199814,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -193071,13 +199826,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -193091,7 +199846,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -193136,8 +199891,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1214
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1253
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -193146,11 +199901,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -193158,9 +199913,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -193179,20 +199934,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -193200,16 +199955,16 @@
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -193228,9 +199983,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -193238,11 +199993,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -193256,7 +200013,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -193301,8 +200058,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1215
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1254
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -193311,23 +200068,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -193346,20 +200101,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -193367,16 +200122,16 @@
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -193395,9 +200150,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -193405,11 +200160,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -193468,8 +200225,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1216
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1255
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -193478,23 +200235,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -193506,16 +200261,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -193533,21 +200288,21 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 8
+    LSCB: 16
     LSPA: 8
     LSPB: 64
     LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -193560,11 +200315,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -193572,12 +200327,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -193590,7 +200347,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -193635,8 +200392,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1217
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1256
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -193645,11 +200402,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -193659,9 +200416,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -193682,7 +200437,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -193702,15 +200457,15 @@
     LSCA: 128
     LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 128
     LVCA: 32
-    LVCB: 4
+    LVCB: 2
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -193729,9 +200484,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -193739,8 +200494,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -193802,8 +200557,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1218
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1257
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -193812,11 +200567,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -193849,7 +200604,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -193869,15 +200624,15 @@
     LSCA: 128
     LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 128
     LVCA: 32
-    LVCB: 4
+    LVCB: 2
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -193896,9 +200651,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -193906,8 +200661,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -193969,8 +200724,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1219
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1258
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -193979,11 +200734,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -193991,7 +200746,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -194013,42 +200768,38 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 32
     LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LVCB: 8
+    LVPA: 8
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -194062,10 +200813,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -194073,8 +200824,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -194090,8 +200843,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -194136,8 +200889,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1220
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1259
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB0_PGR0_PLR0_TT2_2_USFGRO1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -194146,23 +200899,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -194174,54 +200925,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -194229,10 +200980,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -194240,12 +200991,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -194303,33 +201056,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1221
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1260
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -194341,65 +201092,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 2
-    LSPB: 32
-    LVCA: 128
-    LVCB: 8
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 6208
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -194407,14 +201158,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -194472,31 +201221,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1222
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO1_WG16_16_1_WGM8
+    SolutionIndex: 1261
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -194508,14 +201259,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -194534,39 +201285,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -194574,14 +201325,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -194594,7 +201343,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -194639,31 +201388,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1223
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1262
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -194675,7 +201426,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -194701,39 +201452,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 6208
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -194741,8 +201492,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
@@ -194806,31 +201557,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1224
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1263
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -194842,7 +201593,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -194850,8 +201601,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -194862,34 +201613,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3104
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -194897,10 +201648,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -194908,8 +201659,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -194928,7 +201679,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -194973,31 +201724,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1225
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1264
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -195009,7 +201760,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -195018,7 +201769,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -195035,28 +201786,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -195064,10 +201815,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -195075,8 +201826,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -195095,7 +201846,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -195140,31 +201891,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1226
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1265
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -195176,7 +201927,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -195202,39 +201953,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -195242,13 +201993,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -195307,31 +202058,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1227
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1266
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -195343,65 +202094,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
+    LSCA: 64
+    LSCB: 32
     LSPA: 8
-    LSPB: 128
+    LSPB: 16
     LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -195409,14 +202160,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -195474,31 +202223,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1228
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1267
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -195517,9 +202268,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -195536,39 +202287,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -195576,14 +202327,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -195641,31 +202390,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1229
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM1
+    SolutionIndex: 1268
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -195677,7 +202428,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -195703,39 +202454,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1152
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -195743,11 +202494,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -195761,7 +202512,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -195806,31 +202557,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1230
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1269
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -195844,15 +202595,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -195864,34 +202615,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
-    LVPB: 32
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -195899,10 +202650,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -195910,8 +202661,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -195973,33 +202726,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1231
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_WG16_16_1_WGM8
+    SolutionIndex: 1270
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -196011,13 +202762,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -196037,24 +202788,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -196062,9 +202817,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -196073,14 +202828,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -196092,8 +202847,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -196138,20 +202893,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1232
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB0_PGR0_PLR0_TT2_2_USFGRO1_WG16_16_1_WGM1
+    SolutionIndex: 1271
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO1_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -196159,10 +202914,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -196182,56 +202937,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 8
     LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LVCB: 32
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -196240,14 +202995,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -196305,14 +203060,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1233
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG8_16_2_WGM1
+    SolutionIndex: 1272
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO1_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 2]
@@ -196321,13 +203076,13 @@
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
   - AggressivePerfMode: 1
@@ -196367,38 +203122,38 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -196407,11 +203162,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -196470,14 +203225,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1234
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG8_16_2_WGM1
+    SolutionIndex: 1273
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 2]
@@ -196491,8 +203246,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -196517,14 +203272,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -196534,39 +203289,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -196578,7 +203333,7 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -196637,20 +203392,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1235
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1274
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -196658,7 +203413,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -196684,14 +203439,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -196701,39 +203456,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 16
     LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6720
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 4608
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -196743,11 +203498,11 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -196761,7 +203516,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -196806,20 +203561,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1236
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_WG16_8_2_WGM1
+    SolutionIndex: 1275
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR0_TT4_4_USFGRO0_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -196827,8 +203582,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
   - AggressivePerfMode: 1
@@ -196842,7 +203597,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -196851,45 +203606,45 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 8
     LVCA: 16
-    LVCB: 8
+    LVCB: 32
     LVPA: 8
-    LVPB: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3104
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -196898,9 +203653,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 8
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -196908,13 +203663,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -196973,31 +203728,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1237
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1276
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -197009,7 +203764,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -197017,34 +203772,34 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
@@ -197052,11 +203807,11 @@
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -197064,10 +203819,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -197075,14 +203830,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -197095,7 +203850,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -197140,31 +203895,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1238
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1277
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR0_TT2_4_USFGRO1_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -197184,57 +203939,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -197242,14 +203997,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -197307,28 +204062,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1239
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1278
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO1_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -197350,7 +204105,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -197369,39 +204124,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 32
-    LSPA: 8
+    LSPA: 16
     LSPB: 16
-    LVCA: 32
+    LVCA: 16
     LVCB: 16
-    LVPA: 4
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -197409,12 +204164,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -197427,7 +204184,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -197472,20 +204229,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1240
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1279
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR0_TT2_4_USFGRO0_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -197493,12 +204250,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -197517,9 +204272,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -197539,15 +204294,15 @@
     LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
+    LVCB: 16
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -197557,18 +204312,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -197576,8 +204331,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -197639,15 +204396,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1241
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1280
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -197660,12 +204417,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -197677,65 +204432,61 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
+    LSCB: 8
+    LSPA: 4
     LSPB: 32
-    LVCA: 16
+    LVCA: 64
     LVCB: 8
     LVPA: 4
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1152
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -197743,13 +204494,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -197760,7 +204514,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -197806,15 +204560,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1242
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_8_2_WGM8
+    SolutionIndex: 1281
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -197822,17 +204576,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -197844,54 +204596,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 32
-    LSPA: 32
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
     LSPB: 32
-    LVCA: 8
+    LVCA: 64
     LVCB: 8
-    LVPA: 32
-    LVPB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -197899,10 +204647,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -197910,15 +204658,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -197929,8 +204678,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -197975,31 +204724,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1243
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_WG4_16_4_WGM1
+    SolutionIndex: 1282
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -198011,7 +204760,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -198019,57 +204768,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
+    LSCA: 64
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 64
     LVCA: 16
-    LVCB: 32
-    LVPA: 16
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -198077,15 +204826,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -198142,31 +204892,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1244
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO1_WG4_16_4_WGM1
+    SolutionIndex: 1283
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -198178,7 +204928,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -198186,57 +204936,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
+    LSCA: 64
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 64
     LVCA: 16
-    LVCB: 32
-    LVPA: 16
-    LVPB: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -198244,15 +204994,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -198309,31 +205060,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1245
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO1_WG4_16_4_WGM8
+    SolutionIndex: 1284
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -198345,7 +205096,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -198371,28 +205122,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -198400,10 +205151,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -198411,13 +205162,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -198474,31 +205226,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1246
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG4_16_4_WGM8
+    SolutionIndex: 1285
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW2_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -198512,7 +205264,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -198520,7 +205272,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -198532,45 +205284,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -198578,13 +205330,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -198641,31 +205394,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1247
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_WG4_16_4_WGM8
+    SolutionIndex: 1286
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -198679,7 +205432,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -198688,14 +205441,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -198705,38 +205458,38 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 32
-    LSPA: 32
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
     LSPB: 32
-    LVCA: 8
+    LVCA: 16
     LVCB: 8
-    LVPA: 16
-    LVPB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6720
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 4608
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
+    LoopUnroll: 16
+    MacroTile0: 96
     MacroTile1: 64
-    MacroTileA: 16
+    MacroTileA: 96
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -198745,15 +205498,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
     NumLoadsB: 2
-    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -198765,7 +205519,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -198810,20 +205564,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1248
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR0_TT4_4_USFGRO0_WG4_16_4_WGM8
+    SolutionIndex: 1287
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_DTL0_EPS1_FL0_GRVW2_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -198831,10 +205585,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -198846,16 +205600,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -198866,34 +205620,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 96
+    LSCB: 8
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -198901,10 +205655,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -198912,15 +205666,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -198977,31 +205730,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1249
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_WG16_4_4_WGM8
+    SolutionIndex: 1288
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -199013,7 +205768,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -199021,46 +205776,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -199068,10 +205823,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -199079,15 +205834,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -199099,7 +205855,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -199144,31 +205900,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1250
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR0_TT2_4_USFGRO1_WG16_4_4_WGM8
+    SolutionIndex: 1289
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW2_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -199180,7 +205936,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -199188,46 +205944,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 128
+    LSCB: 8
     LSPA: 8
-    LSPB: 8
+    LSPB: 64
     LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -199235,10 +205991,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -199246,15 +206002,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -199311,31 +206068,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1251
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO1_WG16_4_4_WGM8
+    SolutionIndex: 1290
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -199347,7 +206104,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -199355,7 +206112,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -199363,38 +206120,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -199402,10 +206159,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -199413,15 +206170,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -199433,7 +206191,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -199478,31 +206236,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1252
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR0_TT2_4_USFGRO0_WG16_4_4_WGM8
+    SolutionIndex: 1291
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -199523,7 +206281,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -199540,39 +206298,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -199580,15 +206338,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -199645,20 +206404,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1253
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_WG16_4_4_WGM8
+    SolutionIndex: 1292
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -199666,8 +206425,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -199687,38 +206446,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 8
-    LSPA: 4
-    LSPB: 32
-    LVCA: 64
-    LVCB: 8
-    LVPA: 4
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -199732,9 +206495,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -199743,14 +206506,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -199763,7 +206524,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -199809,8 +206570,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1254
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1293
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -199819,21 +206580,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -199851,38 +206614,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 8
-    LSPA: 4
-    LSPB: 32
-    LVCA: 64
-    LVCB: 8
-    LVPA: 4
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -199896,9 +206663,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -199907,14 +206674,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -199927,8 +206692,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -199973,8 +206738,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1255
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR0_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1294
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -199983,21 +206748,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -200009,48 +206776,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -200063,11 +206826,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -200075,8 +206838,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -200095,8 +206858,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -200141,8 +206904,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1256
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1295
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR0_TT2_2_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -200151,21 +206914,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -200177,50 +206940,46 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
     LVPA: 4
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 784
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -200231,11 +206990,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -200243,13 +207002,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -200263,8 +207022,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -200309,8 +207068,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1257
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1296
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB2_PGR0_PLR0_TT4_2_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -200319,21 +207078,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -200345,7 +207104,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -200354,14 +207113,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -200371,24 +207130,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -200399,10 +207158,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -200411,8 +207170,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -200475,8 +207234,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1258
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_DTL0_EPS1_FL1_GRVW2_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1297
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -200485,10 +207244,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -200497,9 +207256,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -200519,44 +207278,40 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2080
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -200580,11 +207335,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -200597,7 +207354,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -200643,8 +207400,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1259
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1298
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB2_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -200659,17 +207416,15 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -200687,44 +207442,40 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 1024
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -200736,9 +207487,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 96
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -200747,14 +207498,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 3
-    NumLoadsB: 2
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -200767,7 +207518,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -200813,8 +207564,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1260
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_DTL0_EPS1_FL0_GRVW2_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1299
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -200823,19 +207574,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -200849,50 +207600,46 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
-    LSCB: 8
-    LSPA: 5
-    LSPB: 64
-    LVCA: 48
-    LVCB: 4
-    LVPA: 3
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4224
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -200903,10 +207650,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 96
+    LoopUnroll: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -200915,12 +207662,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -200933,7 +207682,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -200979,8 +207728,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1261
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_DTL0_EPS1_FL1_GRVW2_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1300
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -200989,23 +207738,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -201017,50 +207764,46 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 4
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 64
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -201071,10 +207814,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -201083,13 +207826,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -201103,7 +207844,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -201149,8 +207890,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1262
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW2_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1301
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL1_GRVW4_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -201159,21 +207900,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -201185,54 +207928,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
+    LSCA: 32
+    LSCB: 16
     LSPA: 8
-    LSPB: 64
+    LSPB: 16
     LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -201240,10 +207979,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -201251,13 +207990,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -201271,7 +208010,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -201317,31 +208056,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1263
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1302
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_TT2_2_USFGRO1_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -201353,7 +208092,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -201379,28 +208118,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -201408,10 +208147,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -201419,8 +208158,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -201485,20 +208224,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1264
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1303
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -201506,10 +208245,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -201528,9 +208267,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -201547,39 +208286,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -201587,13 +208326,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -201653,20 +208390,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1265
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_DTL0_EPS1_FL0_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1304
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -201674,10 +208411,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -201689,16 +208428,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -201709,34 +208448,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -201744,10 +208483,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -201755,8 +208494,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -201819,33 +208560,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1266
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1305
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_DTL0_EPS1_FL0_GRVW4_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -201857,54 +208596,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
+    LSCA: 32
+    LSCB: 32
     LSPA: 8
-    LSPB: 64
+    LSPB: 8
     LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3392
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -201912,10 +208651,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -201923,11 +208662,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -201987,33 +208728,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1267
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_DTL0_EPS1_FL1_GRVW4_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1306
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_DTL0_EPS1_FL0_GRVW1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -202025,50 +208764,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 8
-    LVPB: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -202077,9 +208820,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -202087,13 +208830,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -202107,8 +208848,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -202153,31 +208894,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1268
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR0_TT2_2_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1307
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_DTL0_EPS1_FL1_GRVW2_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -202189,50 +208932,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 4
-    LSPB: 32
-    LVCA: 64
-    LVCB: 8
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 784
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -202241,9 +208988,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -202251,8 +208998,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -202271,8 +209018,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -202317,35 +209064,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1269
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_DTL0_EPS0_FL0_GRVW1_LPB2_PGR0_PLR0_TT4_2_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1308
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -202353,50 +209100,46 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 8
-    LVPB: 16
+    LSCA: 64
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -202407,10 +209150,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -202419,12 +209162,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -202437,8 +209182,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -202483,8 +209228,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1270
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x16_SE_DTL0_EPS1_FL1_GRVW4_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1309
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB0_PGR0_PLR0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -202493,23 +209238,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -202521,46 +209264,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
     LVPA: 4
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2080
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -202571,7 +209318,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -202585,12 +209332,10 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -202603,7 +209348,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -202649,8 +209394,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1271
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB2_PGR0_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1310
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS3_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -202665,19 +209410,21 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -202685,13 +209432,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -202705,26 +209452,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 2
+    LSPB: 32
+    LVCA: 128
+    LVCB: 8
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -202735,10 +209486,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -202747,14 +209498,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -202767,7 +209518,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -202813,8 +209564,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1272
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL0_GRVW1_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1311
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -202823,21 +209574,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -202849,46 +209600,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4224
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -202899,10 +209654,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -202911,14 +209666,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -202931,7 +209686,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -202977,8 +209732,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1273
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_DTL0_EPS0_FL0_GRVW4_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1312
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -202987,25 +209742,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -203013,46 +209768,46 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -203063,11 +209818,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -203075,8 +209830,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -203094,7 +209851,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -203139,8 +209896,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1274
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_DTL0_EPS0_FL1_GRVW4_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1313
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB0_PGR0_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -203149,27 +209906,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -203177,13 +209932,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -203197,30 +209952,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 16
+    LSPB: 32
     LVCA: 32
-    LVCB: 16
+    LVCB: 8
     LVPA: 8
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 1544
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -203229,9 +209988,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -203239,13 +209998,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -203259,8 +210018,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -203305,15 +210064,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1275
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x16_SE_DTL0_EPS0_FL0_GRVW1_LPB0_PGR0_PLR1_TT2_2_USFGRO1_VW2_WG16_8_2_WGM8
+    SolutionIndex: 1314
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_LPB1_PGR1_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [2, 2]
     ThreadTile0: 2
@@ -203325,15 +210084,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -203341,54 +210100,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 16
+    LVCA: 32
     LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 520
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -203396,9 +210151,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -203407,8 +210162,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -203427,8 +210182,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -203473,35 +210228,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1276
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
+    SolutionIndex: 1315
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB1_PGR0_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -203515,58 +210270,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 32
     LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1040
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -203575,12 +210326,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -203593,8 +210346,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -203639,37 +210392,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1277
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_DTL0_EPS1_FL1_GRVW4_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM8
+    SolutionIndex: 1316
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB1_PGR0_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -203677,7 +210428,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -203686,14 +210437,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -203703,28 +210454,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 32
-    LSPA: 32
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
     LSPB: 32
-    LVCA: 8
+    LVCA: 32
     LVCB: 8
-    LVPA: 32
-    LVPB: 8
+    LVPA: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
+    LdsNumElements: 1792
     LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -203732,10 +210483,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -203743,14 +210494,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -203764,7 +210515,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -203809,31 +210560,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1278
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_DTL0_EPS1_FL0_GRVW4_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1317
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR0_TT2_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -203845,7 +210596,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -203865,45 +210616,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
-    LSCB: 32
+    LSCB: 8
     LSPA: 8
-    LSPB: 8
+    LSPB: 32
     LVCA: 32
-    LVCB: 32
+    LVCB: 8
     LVPA: 8
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 8
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -203911,13 +210662,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -203977,35 +210728,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1279
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_DTL0_EPS1_FL0_GRVW1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1318
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -204019,59 +210770,55 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
+    LSPA: 4
+    LSPB: 8
+    LVCA: 64
+    LVCB: 32
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -204079,12 +210826,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -204097,7 +210846,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -204143,37 +210892,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1280
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_DTL0_EPS1_FL1_GRVW2_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1319
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_AMAS1_EPS0_FL0_GRVW1_GSU8_LPB1_PGR0_PLR1_TT4_4_USFGRO1_VW1_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 1
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -204181,15 +210928,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -204197,34 +210944,30 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 256
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -204235,11 +210978,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -204247,13 +210990,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -204267,7 +211010,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -204313,35 +211056,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1281
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_DTL0_EPS1_FL0_GRVW4_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    SolutionIndex: 1320
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_AMAS1_EPS0_FL0_GRVW2_GSU1_LPB0_PGR0_PLR1_TT4_2_USFGRO1_VW1_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 1
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -204349,50 +211092,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 4
-    LSPB: 32
-    LVCA: 64
-    LVCB: 8
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetB: 512
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -204401,9 +211148,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -204411,14 +211158,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -204431,8 +211176,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -204477,15 +211222,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1282
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB0_PGR0_PLR0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1321
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_AMAS3_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -204493,15 +211238,17 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -204513,16 +211260,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -204533,28 +211280,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 4
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -204567,7 +211314,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -204575,12 +211322,16 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -204627,6 +211378,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -204643,8 +211395,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1283
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS3_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1322
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -204663,17 +211415,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -204681,7 +211431,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -204689,36 +211439,36 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 2
-    LSPB: 32
-    LVCA: 128
-    LVCB: 8
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -204735,26 +211485,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -204797,6 +211549,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -204813,8 +211566,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1284
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1323
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -204823,21 +211576,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -204849,7 +211602,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -204857,40 +211610,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -204903,26 +211656,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -204965,6 +211720,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -204981,8 +211737,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1285
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1324
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -204991,25 +211747,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -205017,44 +211773,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -205067,22 +211827,22 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -205099,8 +211859,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -205129,6 +211889,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -205145,8 +211906,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1286
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB0_PGR0_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1325
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -205155,25 +211916,27 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -205181,50 +211944,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1544
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -205235,22 +211998,22 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -205268,7 +212031,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -205297,6 +212060,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -205313,8 +212077,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1287
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_LPB1_PGR1_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1326
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -205323,25 +212087,27 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -205355,40 +212121,44 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 32
+    LSPB: 96
     LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LVCB: 2
+    LVPA: 4
+    LVPB: 24
     LdcEqualsLdd: false
-    LdsNumElements: 520
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -205400,21 +212170,21 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -205431,7 +212201,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -205461,6 +212231,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -205477,8 +212248,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1288
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB1_PGR0_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 1327
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -205487,25 +212258,27 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -205513,46 +212286,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 64
+    LSCB: 8
     LSPA: 8
-    LSPB: 16
+    LSPB: 96
     LVCA: 32
-    LVCB: 16
-    LVPA: 8
-    LVPB: 16
+    LVCB: 2
+    LVPA: 4
+    LVPB: 24
     LdcEqualsLdd: false
-    LdsNumElements: 1040
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -205563,26 +212340,26 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -205595,8 +212372,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -205625,6 +212402,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -205641,8 +212419,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1289
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x16_SE_AMAS1_EPS0_FL0_GRVW1_GSU1_LPB1_PGR0_PLR0_TT2_2_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1328
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -205651,25 +212429,27 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -205684,41 +212464,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 32
+    LSPB: 96
     LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 32
+    LVCB: 2
+    LVPA: 4
+    LVPB: 24
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -205732,25 +212512,25 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -205764,7 +212544,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -205793,6 +212573,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -205809,8 +212590,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1290
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x64x8_SE_AMAS1_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR0_TT2_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 1329
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -205819,21 +212600,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -205853,66 +212636,68 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 128
     LSCB: 8
     LSPA: 8
-    LSPB: 32
+    LSPB: 64
     LVCA: 32
-    LVCB: 8
-    LVPA: 8
+    LVCB: 4
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -205932,7 +212717,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -205961,6 +212746,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -205977,35 +212763,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1291
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x32x8_SE_AMAS3_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_2_WGM8
+    SolutionIndex: 1330
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -206013,76 +212799,82 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 4
-    LSPB: 8
-    LVCA: 64
-    LVCB: 32
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 1
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -206095,8 +212887,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -206125,6 +212917,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -206141,35 +212934,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1292
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x32_SE_AMAS1_EPS0_FL0_GRVW1_GSU8_LPB1_PGR0_PLR1_TT4_4_USFGRO1_VW1_WG16_8_2_WGM1
+    SolutionIndex: 1331
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -206177,15 +212970,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -206193,54 +212986,60 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 256
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -206259,7 +213058,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -206289,6 +213088,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -206305,31 +213105,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1293
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x16_SE_AMAS1_EPS0_FL0_GRVW2_GSU1_LPB0_PGR0_PLR1_TT4_2_USFGRO1_VW1_WG4_16_4_WGM1
+    SolutionIndex: 1332
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -206341,14 +213141,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -206367,28 +213167,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -206396,22 +213196,26 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -206455,6 +213259,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: true
       TLUB: false
@@ -206471,20 +213276,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1294
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_AMAS3_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    SolutionIndex: 1333
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -206492,12 +213297,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -206535,22 +213338,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -206564,9 +213367,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -206577,13 +213380,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -206644,8 +213447,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1295
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1334
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -206654,10 +213457,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -206680,44 +213483,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
     LSPB: 64
-    LVCA: 16
+    LVCA: 64
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -206734,10 +213537,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -206748,13 +213551,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -206815,8 +213616,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1296
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1335
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -206825,21 +213626,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -206851,16 +213654,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -206877,22 +213680,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -206905,10 +213708,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -206919,14 +213722,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -206940,7 +213741,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -206986,8 +213787,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1297
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x32_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1336
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -206996,10 +213797,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -207008,9 +213809,11 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -207022,7 +213825,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -207031,7 +213834,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -207048,18 +213851,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -207076,10 +213879,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -207090,8 +213893,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -207109,7 +213912,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -207155,8 +213958,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1298
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1337
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -207165,10 +213968,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -207177,9 +213980,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -207193,7 +213996,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -207202,7 +214005,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -207219,18 +214022,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -207247,10 +214050,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -207261,8 +214064,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -207326,8 +214129,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1299
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1338
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -207336,10 +214139,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -207348,9 +214151,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -207372,8 +214175,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -207384,28 +214187,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 8
     LSPA: 8
-    LSPB: 96
+    LSPB: 64
     LVCA: 32
-    LVCB: 2
-    LVPA: 4
-    LVPB: 24
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -207419,10 +214222,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -207432,8 +214235,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -207451,7 +214254,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -207497,8 +214300,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1300
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1339
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -207507,17 +214310,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -207535,16 +214338,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -207555,45 +214358,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 96
-    LVCA: 32
-    LVCB: 2
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 24
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 96
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 96
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -207603,8 +214406,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -207668,33 +214473,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1301
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1340
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 6
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -207706,16 +214509,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -207726,34 +214529,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 96
-    LVCA: 32
-    LVCB: 2
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 4
-    LVPB: 24
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -207762,9 +214565,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 96
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 96
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -207774,11 +214577,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -207839,33 +214644,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1302
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1341
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 6
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -207877,14 +214680,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -207903,28 +214706,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -207932,10 +214735,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -207945,13 +214748,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -207966,7 +214767,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -208012,20 +214813,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1303
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1342
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -208033,10 +214834,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -208056,42 +214859,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3104
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -208103,9 +214906,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -208116,14 +214919,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -208137,7 +214940,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -208173,6 +214976,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -208183,8 +214987,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1304
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1343
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -208193,19 +214997,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -208227,42 +215031,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 4
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3104
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -208274,9 +215078,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -208287,14 +215091,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -208344,6 +215148,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -208354,8 +215159,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1305
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1344
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -208364,19 +215169,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -208390,50 +215195,46 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
+    LSPB: 16
+    LVCA: 64
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -208444,10 +215245,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -208458,14 +215259,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -208478,7 +215279,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -208515,6 +215316,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -208525,8 +215327,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1306
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1345
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -208535,13 +215337,13 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -208549,7 +215351,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -208587,22 +215389,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 16
-    LSPA: 8
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -208616,9 +215418,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -208629,13 +215431,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -208686,6 +215488,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -208696,8 +215499,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1307
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1346
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -208706,10 +215509,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -208732,44 +215535,44 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 4
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 64
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -208786,10 +215589,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -208800,11 +215603,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -208855,6 +215660,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -208865,8 +215671,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1308
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1347
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -208875,23 +215681,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -208903,16 +215707,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -208929,24 +215733,20 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -208957,10 +215757,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -208971,8 +215771,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -208989,8 +215791,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -209026,6 +215828,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -209036,8 +215839,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1309
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1348
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_GSU1_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -209046,10 +215849,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -209060,9 +215863,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -209074,16 +215875,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -209100,24 +215901,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 6208
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -209128,10 +215929,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -209142,8 +215943,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -209161,7 +215964,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -209197,6 +216000,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -209207,8 +216011,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1310
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1349
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -209217,10 +216021,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -209231,9 +216035,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -209253,7 +216055,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -209261,34 +216063,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
     LSPB: 64
     LVCA: 32
     LVCB: 4
-    LVPA: 2
+    LVPA: 4
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3088
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -209300,9 +216102,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -209313,7 +216115,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -209368,6 +216170,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -209378,8 +216181,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1311
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1350
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -209388,17 +216191,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -209416,7 +216219,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -209425,7 +216228,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -209442,18 +216245,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 32
+    LVCA: 16
     LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -209470,10 +216273,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -209484,8 +216287,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -209539,6 +216342,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -209549,8 +216353,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1312
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1351
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -209559,10 +216363,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -209571,9 +216375,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -209594,9 +216398,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -209616,36 +216420,36 @@
     LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
+    LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -209655,10 +216459,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -209712,6 +216514,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -209722,15 +216525,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1313
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    SolutionIndex: 1352
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -209743,10 +216546,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -209758,7 +216563,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -209766,46 +216571,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
     LVPA: 4
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -209814,9 +216619,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -209826,14 +216631,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -209847,7 +216652,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -209883,6 +216688,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -209893,31 +216699,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1314
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
+    SolutionIndex: 1353
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -209929,54 +216735,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
     LVPA: 4
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -209985,9 +216791,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -209997,12 +216803,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -210016,7 +216824,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -210052,6 +216860,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: false
@@ -210062,33 +216871,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1315
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
+    SolutionIndex: 1354
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -210100,13 +216907,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -210127,21 +216934,17 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
+    LSCB: 16
     LSPA: 4
-    LSPB: 32
+    LSPB: 16
     LVCA: 64
-    LVCB: 8
+    LVCB: 16
     LVPA: 4
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3104
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3136
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -210154,11 +216957,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -210168,14 +216971,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 8
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -210188,7 +216991,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -210236,8 +217039,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1316
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1355
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x16_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -210246,11 +217049,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -210258,9 +217061,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -210280,42 +217083,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 8
-    LSPA: 4
-    LSPB: 32
-    LVCA: 64
-    LVCB: 8
+    LSPA: 8
+    LSPB: 128
+    LVCA: 32
+    LVCB: 2
     LVPA: 4
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3104
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
     LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -210328,9 +217131,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -210340,14 +217143,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -210408,8 +217211,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1317
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1356
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -210418,19 +217221,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -210444,46 +217247,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 128
+    LSCB: 8
     LSPA: 4
-    LSPB: 16
+    LSPB: 64
     LVCA: 64
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -210494,10 +217301,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -210508,14 +217315,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -210528,7 +217335,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -210576,8 +217383,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1318
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1357
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -210586,21 +217393,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -210618,42 +217425,38 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 4
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -210667,9 +217470,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -210680,14 +217483,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -210700,7 +217503,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -210748,8 +217551,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1319
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1358
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW2_GSU1_LPB0_PGR0_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -210758,17 +217561,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -210784,7 +217587,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -210793,7 +217596,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -210810,18 +217613,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -210838,10 +217641,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -210852,8 +217655,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -210873,7 +217676,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -210920,8 +217723,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1320
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1359
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -210930,10 +217733,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -210942,9 +217745,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -210956,16 +217759,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -210982,20 +217785,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -211006,10 +217813,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -211020,8 +217827,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -211040,7 +217847,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -211088,8 +217895,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1321
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_GSU1_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1360
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -211098,10 +217905,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -211112,7 +217919,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -211124,7 +217931,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -211133,7 +217940,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -211150,24 +217957,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6208
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -211178,10 +217985,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -211192,8 +217999,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -211260,8 +218067,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1322
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1361
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -211270,10 +218077,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -211284,7 +218091,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -211303,8 +218110,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -211312,34 +218119,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 8
     LSPA: 8
     LSPB: 64
     LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3088
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -211351,9 +218158,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -211364,8 +218171,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -211383,7 +218192,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -211430,8 +218239,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1323
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1362
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -211440,23 +218249,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -211468,16 +218275,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -211494,24 +218301,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -211522,10 +218329,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -211536,8 +218343,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -211602,8 +218411,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1324
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1363
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -211612,10 +218421,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -211626,9 +218435,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -211647,7 +218454,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -211666,24 +218473,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 16
-    LSPA: 16
+    LSPA: 8
     LSPB: 64
-    LVCA: 16
+    LVCA: 32
     LVCB: 4
-    LVPA: 4
+    LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -211695,9 +218502,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -211708,11 +218515,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -211774,8 +218583,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1325
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1364
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -211784,10 +218593,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -211799,8 +218608,6 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -211819,43 +218626,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 8
     LSPA: 4
-    LSPB: 32
+    LSPB: 64
     LVCA: 64
-    LVCB: 8
-    LVPA: 4
+    LVCB: 4
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -211867,10 +218674,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -211881,13 +218688,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -211901,7 +218706,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -211948,8 +218753,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1326
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1365
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -211958,21 +218763,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -211991,43 +218798,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 8
     LSPA: 4
-    LSPB: 32
+    LSPB: 64
     LVCA: 64
-    LVCB: 8
-    LVPA: 4
+    LVCB: 4
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -212039,10 +218846,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -212053,13 +218860,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -212073,7 +218878,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -212120,8 +218925,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1327
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB4_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1366
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -212130,21 +218935,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -212156,46 +218963,50 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -212206,11 +219017,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -212222,12 +219033,10 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 8
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -212240,7 +219049,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -212288,8 +219097,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1328
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x16_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1367
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -212298,21 +219107,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -212331,9 +219142,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -212344,28 +219155,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 128
     LSCB: 8
     LSPA: 8
-    LSPB: 128
+    LSPB: 64
     LVCA: 32
-    LVCB: 2
-    LVPA: 4
+    LVCB: 4
+    LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -212379,10 +219190,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -212393,9 +219204,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -212460,8 +219269,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1329
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1368
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -212470,21 +219279,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -212503,8 +219314,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -212512,11 +219323,11 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -212524,22 +219335,22 @@
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 4
+    LSPA: 8
     LSPB: 64
-    LVCA: 64
+    LVCA: 32
     LVCB: 4
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -212565,12 +219376,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -212632,8 +219441,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1330
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1369
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -212652,11 +219461,13 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -212668,44 +219479,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
-    LSPA: 4
+    LSCB: 8
+    LSPA: 2
     LSPB: 32
-    LVCA: 64
+    LVCA: 128
     LVCB: 8
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 2048
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -212718,11 +219533,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -212732,14 +219547,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -212752,7 +219567,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -212800,8 +219615,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1331
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW2_GSU1_LPB0_PGR0_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1370
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -212810,21 +219625,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -212844,7 +219659,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -212852,11 +219667,11 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -212864,16 +219679,16 @@
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 8
+    LSPA: 4
     LSPB: 64
-    LVCA: 32
+    LVCA: 64
     LVCB: 4
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -212892,9 +219707,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -212904,14 +219719,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -212925,7 +219740,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -212972,8 +219787,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1332
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1371
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -212982,19 +219797,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -213015,8 +219830,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -213024,11 +219839,11 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -213036,16 +219851,16 @@
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 8
+    LSPA: 4
     LSPB: 64
-    LVCA: 32
+    LVCA: 64
     LVCB: 4
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -213064,9 +219879,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -213076,14 +219891,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -213097,7 +219910,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -213144,8 +219957,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1333
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1372
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -213154,21 +219967,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -213187,9 +220002,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -213209,15 +220024,15 @@
     LSCA: 128
     LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 128
     LVCA: 32
-    LVCB: 4
+    LVCB: 2
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -213236,9 +220051,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -213248,10 +220063,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -213316,8 +220129,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1334
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1373
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -213326,11 +220139,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -213341,6 +220154,8 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -213378,22 +220193,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1824
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -213407,10 +220222,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -213420,15 +220235,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -213488,20 +220303,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1335
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1374
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -213509,8 +220324,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -213531,7 +220346,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -213550,22 +220365,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1824
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -213579,10 +220394,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -213592,15 +220407,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -213613,7 +220426,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -213660,20 +220473,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1336
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1375
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -213681,10 +220494,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -213696,16 +220511,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -213722,22 +220537,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 16
+    LSCA: 64
+    LSCB: 8
     LSPA: 8
-    LSPB: 64
-    LVCA: 32
+    LSPB: 32
+    LVCA: 16
     LVCB: 4
     LVPA: 2
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 800
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -213750,11 +220561,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -213764,15 +220575,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -213784,7 +220593,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -213832,20 +220641,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1337
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1376
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_EPS0_FL1_GRVW4_GSU1_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -213853,10 +220662,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -213875,9 +220686,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -213894,24 +220705,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
+    LSPB: 16
+    LVCA: 32
+    LVCB: 8
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1680
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 192
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -213923,10 +220734,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -213936,13 +220747,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -214002,33 +220815,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1338
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1377
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -214047,41 +220858,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
-    LSPA: 4
+    LSPA: 8
     LSPB: 64
-    LVCA: 64
-    LVCB: 4
+    LVCA: 16
+    LVCB: 2
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -214095,9 +220906,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -214109,12 +220920,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -214127,7 +220940,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -214174,33 +220987,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1339
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1378
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -214220,7 +221031,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -214228,32 +221039,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
-    LSPA: 8
-    LSPB: 64
+    LSPA: 4
+    LSPB: 32
     LVCA: 32
     LVCB: 4
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -214267,9 +221078,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -214281,12 +221092,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -214299,7 +221110,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -214346,29 +221157,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1340
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1379
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -214385,64 +221196,60 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSPA: 1
+    LSPB: 16
+    LVCA: 128
+    LVCB: 8
+    LVPA: 1
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1296
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -214453,12 +221260,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -214470,7 +221279,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -214518,15 +221327,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1341
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1380
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB2_PGR0_PLR1_TT8_4_USFGRO1_VW2_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -214534,17 +221343,15 @@
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -214557,47 +221364,43 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSPA: 1
+    LSPB: 16
+    LVCA: 128
+    LVCB: 8
+    LVPA: 1
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1312
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
@@ -214606,15 +221409,15 @@
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -214626,11 +221429,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -214642,7 +221447,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -214690,15 +221495,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1342
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1381
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -214706,17 +221511,15 @@
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -214729,12 +221532,12 @@
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
     DepthU: 8
-    DirectToLds: false
-    DirectToLdsA: false
+    DirectToLds: true
+    DirectToLdsA: true
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -214756,37 +221559,33 @@
     KernelLanguage: Assembly
     LSCA: 128
     LSCB: 8
-    LSPA: 2
-    LSPB: 32
+    LSPA: 1
+    LSPB: 16
     LVCA: 128
     LVCB: 8
-    LVPA: 2
-    LVPB: 32
+    LVPA: 1
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1312
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
     LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: false
+    LocalWriteUseSgprA: true
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -214796,15 +221595,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -214816,7 +221615,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -214864,28 +221663,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1343
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW1_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1382
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -214900,13 +221699,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -214926,22 +221725,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2560
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -214954,11 +221749,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -214968,13 +221763,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
     NumLoadsB: 2
-    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -214988,8 +221783,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -215036,8 +221831,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1344
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1383
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_EPS0_FL0_GRVW2_GSU1_LPB0_PGR0_PLR0_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -215046,11 +221841,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -215058,9 +221853,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -215072,14 +221867,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -215098,22 +221893,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 4
-    LSPB: 64
-    LVCA: 64
-    LVCB: 4
-    LVPA: 2
-    LVPB: 32
+    LSCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1536
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -215126,11 +221921,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -215140,11 +221935,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsCoalescedA: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 3
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 3
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -215159,7 +221956,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -215206,8 +222003,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1345
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT8_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1384
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -215216,11 +222013,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -215230,9 +222027,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -215252,40 +222047,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 96
     LSCB: 8
-    LSPA: 8
-    LSPB: 128
-    LVCA: 32
-    LVCB: 2
-    LVPA: 2
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
+    LVCB: 4
+    LVPA: 3
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -215299,10 +222094,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -215312,11 +222107,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -215378,8 +222173,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1346
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1385
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -215388,22 +222183,22 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangA: 3
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -215423,8 +222218,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -215432,34 +222227,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
+    LSCA: 96
     LSCB: 8
-    LSPA: 8
-    LSPB: 32
-    LVCA: 16
+    LSPA: 5
+    LSPB: 64
+    LVCA: 48
     LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LVPA: 3
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1824
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -215471,10 +222266,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -215484,15 +222279,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -215505,7 +222298,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -215552,31 +222345,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1347
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1386
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 6
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 3
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -215596,7 +222391,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -215604,11 +222399,11 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -215617,21 +222412,21 @@
     LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 32
-    LVCA: 16
+    LSPB: 64
+    LVCA: 32
     LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LVPA: 4
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1824
+    LdsNumElements: 3328
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -215644,9 +222439,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -215656,13 +222451,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -215675,7 +222470,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -215722,33 +222517,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1348
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR0_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1387
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    fractionalPerpOverhangB: 32
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -215766,10 +222561,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -215780,7 +222575,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -215789,17 +222584,21 @@
     LSCA: 64
     LSCB: 8
     LSPA: 8
-    LSPB: 32
-    LVCA: 16
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSPB: 96
+    LVCA: 32
+    LVCB: 2
+    LVPA: 4
+    LVPB: 24
     LdcEqualsLdd: false
-    LdsNumElements: 800
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 768
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -215812,9 +222611,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -215824,13 +222623,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -215842,7 +222641,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -215890,29 +222689,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1349
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x8_SE_EPS0_FL1_GRVW4_GSU1_LPB4_PGR0_PLR1_TT4_4_USFGRO0_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1388
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -215928,7 +222727,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -215936,46 +222735,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 4
-    LSPB: 16
-    LVCA: 32
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
     LVCB: 8
-    LVPA: 2
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1680
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 192
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -215984,9 +222783,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -215997,14 +222796,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -216064,8 +222863,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1350
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x8_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG16_8_1_WGM1
+    SolutionIndex: 1389
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -216074,21 +222873,21 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -216100,16 +222899,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -216127,27 +222926,27 @@
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
     LVCA: 16
-    LVCB: 2
-    LVPA: 2
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -216156,9 +222955,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -216168,15 +222967,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -216189,7 +222986,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -216236,8 +223033,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1351
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPB0_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1390
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -216246,21 +223043,23 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -216272,54 +223071,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 4
-    LSPB: 32
-    LVCA: 32
-    LVCB: 4
-    LVPA: 2
-    LVPB: 16
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -216327,10 +223126,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -216340,13 +223139,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -216359,7 +223160,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -216406,33 +223207,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1352
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR0_TT4_8_USFGRO0_VW2_WG16_8_1_WGM8
+    SolutionIndex: 1391
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -216444,60 +223243,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
-    DirectToLds: true
-    DirectToLdsA: true
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 1
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
     LSPB: 16
-    LVCA: 128
-    LVCB: 8
-    LVPA: 1
-    LVPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1296
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: true
+    LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -216508,15 +223311,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -216528,7 +223331,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -216576,31 +223379,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1353
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB2_PGR0_PLR1_TT8_4_USFGRO1_VW2_WG16_8_1_WGM8
+    SolutionIndex: 1392
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -216612,60 +223415,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
-    DirectToLds: true
-    DirectToLdsA: true
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 1
-    LSPB: 16
-    LVCA: 128
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 1
-    LVPB: 16
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1312
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: true
+    LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -216676,15 +223483,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -216696,7 +223503,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -216744,31 +223551,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1354
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1393
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -216780,60 +223587,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
-    DirectToLds: true
-    DirectToLdsA: true
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
-    LSCB: 8
-    LSPA: 1
-    LSPB: 16
-    LVCA: 128
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 1
-    LVPB: 16
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1312
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
-    LocalWriteUseSgprA: true
+    LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -216844,15 +223655,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 8
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -216864,7 +223675,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -216912,31 +223723,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1355
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_EPS0_FL0_GRVW1_GSU1_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1394
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -216948,61 +223759,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
+    LSCA: 16
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 8
     LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LVCB: 32
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2560
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -217012,14 +223827,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 3
-    NumLoadsB: 2
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -217032,8 +223847,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -217080,31 +223895,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1356
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_EPS0_FL0_GRVW2_GSU1_LPB0_PGR0_PLR0_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1395
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -217116,14 +223931,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -217142,39 +223957,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 8
-    LVPB: 16
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -217184,11 +223999,9 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 3
-    NumLoadsB: 2
-    NumLoadsCoalescedA: 3
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
@@ -217252,31 +224065,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1357
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x16_SE_EPS1_FL0_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1396
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -217288,7 +224103,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -217297,14 +224112,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -217314,28 +224129,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
-    LSCB: 8
-    LSPA: 5
-    LSPB: 64
-    LVCA: 48
-    LVCB: 4
-    LVPA: 3
-    LVPB: 32
+    LSCA: 16
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -217343,10 +224158,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -217356,11 +224171,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -217422,32 +224237,32 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1358
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1397
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -217460,15 +224275,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -217477,47 +224292,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 96
-    LSCB: 8
-    LSPA: 5
-    LSPB: 64
-    LVCA: 48
-    LVCB: 4
-    LVPA: 3
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 96
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -217528,12 +224343,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -217594,33 +224411,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1359
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT6_4_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1398
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW2_GSU8_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 3
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -217632,16 +224447,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -217652,34 +224467,34 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
-    LVPA: 4
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -217687,10 +224502,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -217700,12 +224515,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -217766,33 +224583,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1360
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW2_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1399
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 32
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -217804,54 +224619,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 8
-    LSPA: 8
-    LSPB: 96
-    LVCA: 32
-    LVCB: 2
-    LVPA: 4
-    LVPB: 24
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -217859,10 +224674,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -217872,11 +224687,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -217938,33 +224755,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1361
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x96x8_SE_EPS1_FL1_GRVW4_GSU1_LPB0_PGR1_PLR1_TT4_6_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1400
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_VW2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -217976,15 +224791,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -217992,38 +224807,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 8
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3392
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -218031,10 +224846,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -218044,13 +224859,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -218112,31 +224925,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1362
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
+    SolutionIndex: 1401
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -218148,15 +224963,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -218164,26 +224979,26 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
@@ -218191,11 +225006,11 @@
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -218203,10 +225018,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -218216,11 +225031,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -218282,33 +225099,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1363
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_8_2_WGM1
+    SolutionIndex: 1402
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -218327,41 +225142,41 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 8
-    LVCA: 8
-    LVCB: 32
-    LVPA: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -218375,10 +225190,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -218388,14 +225203,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -218456,31 +225269,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1364
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1403
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -218492,7 +225307,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -218501,39 +225316,39 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 32
-    LSPA: 32
+    LSCA: 64
+    LSCB: 16
+    LSPA: 4
     LSPB: 16
-    LVCA: 8
+    LVCA: 64
     LVCB: 16
-    LVPA: 32
-    LVPB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -218546,11 +225361,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -218560,14 +225375,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -218628,31 +225443,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1365
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM8
+    SolutionIndex: 1404
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -218664,7 +225479,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -218672,8 +225487,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -218684,30 +225499,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 32
-    LVPB: 8
+    LSCA: 64
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -218718,11 +225533,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -218732,7 +225547,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -218800,31 +225615,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1366
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1405
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -218844,8 +225659,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -218856,30 +225671,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -218891,10 +225706,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -218904,13 +225719,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -218972,29 +225787,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1367
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM8
+    SolutionIndex: 1406
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
   - AggressivePerfMode: 1
@@ -219015,43 +225830,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 8
+    LSPB: 16
     LVCA: 16
-    LVCB: 32
-    LVPA: 16
+    LVCB: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -219063,10 +225878,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -219076,14 +225891,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -219144,31 +225957,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1368
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1407
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -219188,7 +226003,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -219196,34 +226011,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 64
     LSCB: 32
-    LSPA: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 8
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -219235,10 +226050,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -219248,12 +226063,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -219314,28 +226129,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1369
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG4_16_4_WGM8
+    SolutionIndex: 1408
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -219361,14 +226176,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -219378,22 +226193,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
+    LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 3648
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -219407,10 +226222,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -219424,7 +226239,7 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -219482,32 +226297,34 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1370
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPB2_PGR1_PLR1_TT4_2_USFGRO0_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1409
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_NLCA1_PGR1_PLR1_TT2_4_USFGRO0_VW2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
@@ -219524,15 +226341,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -219541,31 +226358,31 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 32
+    LSPB: 16
     LVCA: 16
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 2
     LocalDotLayout: 1
@@ -219578,11 +226395,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -219592,14 +226409,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -219656,35 +226471,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1371
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW2_GSU8_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG4_16_4_WGM1
+    SolutionIndex: 1410
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_NLCA1_PGR1_PLR1_TT2_4_USFGRO0_VW2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -219703,43 +226522,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
+    LSCA: 64
     LSCB: 32
     LSPA: 16
-    LSPB: 8
+    LSPB: 16
     LVCA: 16
-    LVCB: 32
-    LVPA: 8
+    LVCB: 16
+    LVPA: 4
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 640
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -219751,10 +226570,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -219764,10 +226583,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -219828,12 +226645,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1372
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1411
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -219842,21 +226661,23 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -219868,7 +226689,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -219876,46 +226697,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -219923,10 +226744,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -219936,13 +226757,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -219957,7 +226778,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -220000,35 +226821,37 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1373
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_VW2_WG16_4_4_WGM8
+    SolutionIndex: 1412
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_NLCA1_PGR1_PLR0_TT8_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -220040,15 +226863,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -220056,38 +226879,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 4
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -220095,10 +226918,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -220108,11 +226931,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -220170,37 +226995,37 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1374
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x8x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_2_USFGRO0_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1413
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -220212,7 +227037,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -220220,57 +227045,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -220280,8 +227105,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -220344,35 +227169,37 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1375
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1414
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -220384,7 +227211,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -220392,7 +227219,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -220400,38 +227227,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -220439,10 +227266,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -220452,11 +227279,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -220471,7 +227298,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -220514,35 +227341,37 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1376
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_GSU1_LPB2_PGR1_PLR1_TT2_4_USFGRO0_VW2_WG16_4_4_WGM1
+    SolutionIndex: 1415
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR0_TT8_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -220556,65 +227385,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 16
-    LSPA: 4
-    LSPB: 16
-    LVCA: 64
-    LVCB: 16
-    LVPA: 4
-    LVPB: 16
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -220624,13 +227453,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -220688,35 +227515,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1377
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW1_GSU1_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_4_4_WGM8
+    SolutionIndex: 1416
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -220735,9 +227566,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -220751,42 +227582,43 @@
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
     LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
+    LVCB: 4
     LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -220796,10 +227628,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -220809,8 +227639,10 @@
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -220860,19 +227692,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1378
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
+    SolutionIndex: 1417
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -220885,10 +227719,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -220900,15 +227736,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -220916,38 +227752,39 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 4
+    LSPB: 64
+    LVCA: 64
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -220955,10 +227792,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -220968,10 +227805,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -220981,15 +227816,17 @@
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -221032,35 +227869,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1379
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    SolutionIndex: 1418
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_NLCA1_PGR1_PLR0_TT8_4_USFGRO0_VW2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -221072,7 +227913,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -221095,31 +227936,32 @@
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -221127,10 +227969,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -221140,19 +227982,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -221202,24 +228046,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1380
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM1
+    SolutionIndex: 1419
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -221227,14 +228073,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
@@ -221244,7 +228090,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -221253,7 +228099,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -221265,66 +228111,68 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
+    LSCB: 16
     LSPA: 16
-    LSPB: 16
+    LSPB: 64
     LVCA: 16
-    LVCB: 16
+    LVCB: 4
     LVPA: 4
-    LVPB: 8
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -221374,19 +228222,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1381
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU1_LPB4_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG16_4_4_WGM8
+    SolutionIndex: 1420
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x16_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -221394,19 +228244,19 @@
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
@@ -221416,7 +228266,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -221424,7 +228274,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -221432,38 +228282,39 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -221471,32 +228322,33 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -221552,35 +228404,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1382
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_NLCA1_PGR1_PLR1_TT2_4_USFGRO0_VW2_WGM1
+    SolutionIndex: 1421
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
+    AssertFree0ElementMultiple: 4
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
@@ -221590,7 +228442,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -221598,7 +228450,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -221606,26 +228458,27 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 128
+    LSCB: 8
+    LSPA: 8
+    LSPB: 64
+    LVCA: 32
+    LVCB: 4
+    LVPA: 2
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3648
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
@@ -221633,11 +228486,11 @@
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -221645,32 +228498,33 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -221726,31 +228580,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1383
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_NLCA1_PGR1_PLR1_TT2_4_USFGRO0_VW2_WGM8
+    SolutionIndex: 1422
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD0_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -221764,54 +228618,55 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 64
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCB: 8
+    LSPA: 4
+    LSPB: 32
+    LVCA: 64
+    LVCB: 8
     LVPA: 4
-    LVPB: 8
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 640
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -221820,31 +228675,34 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -221900,33 +228758,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1384
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT4_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 1423
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x128x8_SE_AMAS3_DTL0_EPS1_GRVW1_LPB4_NLCA1_PBD0_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -221961,6 +228817,7 @@
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
@@ -221973,15 +228830,15 @@
     LVPA: 2
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -222001,7 +228858,6 @@
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
@@ -222019,8 +228875,10 @@
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -222076,8 +228934,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1385
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_NLCA1_PGR1_PLR0_TT8_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 1424
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD0_PGR1_PLR0_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -222098,7 +228956,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -222121,7 +228979,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -222135,25 +228993,26 @@
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 128
+    LSCA: 64
     LSCB: 8
     LSPA: 8
     LSPB: 64
-    LVCA: 32
-    LVCB: 4
+    LVCA: 16
+    LVCB: 2
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -222167,15 +229026,14 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
@@ -222188,20 +229046,22 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -222250,28 +229110,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1386
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 1425
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT64x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR0_TT4_8_USFGRO0_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -222286,7 +229146,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -222295,7 +229155,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -222309,27 +229169,28 @@
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 16
+    LSCB: 8
     LSPA: 8
-    LSPB: 64
+    LSPB: 32
     LVCA: 32
-    LVCB: 4
+    LVCB: 8
     LVPA: 2
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3360
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -222340,35 +229201,36 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -222424,20 +229286,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1387
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM1
+    SolutionIndex: 1426
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x32x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB4_NLCA1_PBD0_PGR1_PLR1_TT4_4_USFGRO0_VW4_WG32_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -222445,14 +229307,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 3
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -222460,50 +229322,47 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 128
-    LSCB: 8
-    LSPA: 8
-    LSPB: 64
-    LVCA: 32
-    LVCB: 4
+    LSCB: 16
+    LSPA: 2
+    LSPB: 16
+    LVCA: 128
+    LVCB: 16
     LVPA: 2
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2832
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -222514,39 +229373,42 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 48
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 48
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 8
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -222596,33 +229458,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1388
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR0_TT8_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 1427
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x48x16_SE_AMAS1_DTL0_EPS0_GRVW1_LPB1_NLCA1_PBD0_PGR0_PLR0_TT4_6_USFGRO1_VW1_WG32_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 6]
+    ThreadTile0: 4
+    ThreadTile1: 6
+    ThreadTileA: 4
+    ThreadTileB: 6
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -222641,7 +229501,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -222657,6 +229517,7 @@
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
@@ -222697,13 +229558,14 @@
     MacroTileShapeMin: 1
     MaxOccupancy: 40
     MaxVgprNumber: 256
-    MinGlobalWriteVectorWidth: 1
     MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -222713,8 +229575,10 @@
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -222770,33 +229634,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1389
-    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_NLCA1_PGR1_PLR1_TT8_4_USFGRO0_VW4_WGM8
+    SolutionIndex: 1428
+    SolutionNameMin: Cijk_Ailk_Bljk_SB_MT128x64x8_SE_AMAS3_DTL0_EPS1_GRVW4_LPB0_NLCA1_PBD0_PGR1_PLR1_TT4_8_USFGRO0_VW4_WG32_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
 - [2, 3, 0, 1]
 - - - [704, 1024, 1, 128]
     - [102, 3019.46]
@@ -223138,8 +230000,6 @@
     - [82, 5894.7]
   - - [4, 1408, 1, 3328]
     - [73, 552.574]
-  - - [196, 256, 64, 1024]
-    - [171, 5218.24]
   - - [6784, 2944, 1, 256]
     - [136, 8271.08]
   - - [64, 1856, 1, 1280]
@@ -223526,8 +230386,6 @@
     - [108, 5059.86]
   - - [256, 1856, 1, 128]
     - [101, 1858.72]
-  - - [49, 512, 64, 2048]
-    - [172, 3053.57]
   - - [704, 64, 1, 1280]
     - [51, 2849.39]
   - - [5888, 5056, 1, 256]
@@ -223930,8 +230788,6 @@
     - [121, 7892.46]
   - - [4, 448, 1, 256]
     - [43, 70.7951]
-  - - [196, 1024, 64, 256]
-    - [169, 6630.76]
   - - [5888, 128, 1, 256]
     - [119, 5714.99]
   - - [4096, 16, 1, 4096]
@@ -224990,8 +231846,6 @@
     - [125, 7447.08]
   - - [2944, 128, 1, 1280]
     - [130, 5417.17]
-  - - [49, 2048, 64, 512]
-    - [173, 5916.81]
   - - [2560, 32, 1, 2560]
     - [67, 4076.89]
   - - [64, 256, 1, 256]
@@ -225326,14 +232180,10 @@
     - [237, 8892.52]
   - - [4096, 192, 1, 2048]
     - [231, 8024.18]
-  - - [289, 160, 64, 768]
-    - [233, 6783.63]
   - - [1225, 192, 64, 384]
     - [220, 9373.83]
   - - [5329, 64, 64, 160]
     - [224, 9186.69]
-  - - [1225, 64, 64, 288]
-    - [215, 8492.41]
   - - [1225, 64, 64, 384]
     - [219, 8735.76]
   - - [289, 128, 64, 1024]
@@ -225344,40 +232194,22 @@
     - [221, 9052.45]
   - - [4096, 192, 1, 1280]
     - [236, 7561.85]
-  - - [289, 192, 64, 768]
-    - [232, 7882.5]
-  - - [1225, 48, 64, 256]
-    - [223, 6620.25]
   - - [289, 192, 64, 1024]
     - [230, 7346.99]
-  - - [1225, 64, 64, 192]
-    - [216, 8098.35]
   - - [1225, 96, 64, 384]
     - [217, 8303.08]
-  - - [1225, 48, 64, 288]
-    - [225, 6746.77]
   - - [4096, 320, 1, 2048]
     - [226, 8384.42]
   - - [4096, 256, 1, 1536]
     - [238, 8734.34]
-  - - [1225, 48, 64, 192]
-    - [225, 6516.36]
   - - [4096, 384, 1, 1280]
     - [235, 9023.24]
-  - - [1225, 64, 64, 256]
-    - [222, 8319.34]
   - - [4096, 448, 1, 1280]
     - [226, 8343.32]
-  - - [289, 128, 64, 768]
-    - [228, 7667.98]
   - - [289, 256, 64, 1024]
     - [229, 7535.46]
   - - [4096, 448, 1, 2048]
     - [226, 8572.31]
-  - - [5329, 80, 64, 64]
-    - [225, 6492.44]
-  - - [1225, 32, 64, 192]
-    - [218, 6278.54]
   - - [289, 384, 64, 1024]
     - [227, 7767.57]
   - - [1024, 3594, 1, 4096]
@@ -229020,8 +235852,6 @@
     - [663, 7772.99]
   - - [289, 256, 1, 1568]
     - [684, 3718.17]
-  - - [3136, 64, 64, 64]
-    - [623, 8201.15]
   - - [50176, 128, 1, 256]
     - [646, 8908.58]
   - - [5329, 64, 1, 448]
@@ -229098,8 +235928,6 @@
     - [639, 8622.65]
   - - [784, 96, 32, 192]
     - [654, 7092.36]
-  - - [3136, 64, 64, 256]
-    - [647, 9579.16]
   - - [289, 224, 1, 1344]
     - [684, 3180.01]
   - - [1001, 512, 1, 4096]
@@ -229168,8 +235996,6 @@
     - [684, 5904.14]
   - - [289, 384, 1, 2592]
     - [685, 5707.34]
-  - - [784, 128, 64, 512]
-    - [631, 8864.39]
   - - [12544, 1024, 1, 512]
     - [646, 10008.3]
   - - [12544, 256, 1, 512]
@@ -229190,8 +236016,6 @@
     - [667, 5718.69]
   - - [289, 128, 32, 768]
     - [625, 7289.25]
-  - - [3136, 256, 64, 64]
-    - [633, 9103.92]
   - - [196, 64, 1, 800]
     - [671, 915.62]
   - - [4096, 512, 1, 9216]
@@ -229214,8 +236038,6 @@
     - [621, 6990.51]
   - - [64, 384, 1, 1152]
     - [678, 1862.6]
-  - - [784, 512, 64, 128]
-    - [632, 9025.95]
   - - [3136, 512, 1, 2048]
     - [650, 7764.3]
   - - [6272, 144, 1, 512]
@@ -229246,6452 +236068,6498 @@
     - [688, 3580.87]
   - - [1001, 128, 1, 2048]
     - [689, 5587.87]
+  - - [3200, 1024, 1, 2048]
+    - [697, 9131.95]
+  - - [2048, 1024, 1, 256]
+    - [696, 8452.0]
+  - - [257, 1024, 1, 4096]
+    - [695, 4225.21]
+  - - [784, 128, 64, 512]
+    - [706, 9436.22]
+  - - [1225, 48, 64, 256]
+    - [710, 7670.22]
+  - - [289, 160, 64, 768]
+    - [717, 8253.88]
+  - - [3136, 64, 64, 64]
+    - [698, 8028.16]
+  - - [49, 2048, 64, 512]
+    - [719, 8608.21]
+  - - [1225, 32, 64, 192]
+    - [716, 6968.89]
+  - - [196, 1024, 64, 256]
+    - [708, 9669.3]
+  - - [784, 512, 64, 128]
+    - [706, 9635.3]
+  - - [196, 256, 64, 1024]
+    - [703, 8736.28]
+  - - [64, 448, 64, 2048]
+    - [709, 8841.76]
+  - - [64, 192, 64, 1280]
+    - [702, 9118.05]
+  - - [3136, 64, 64, 256]
+    - [705, 9678.4]
+  - - [49, 512, 64, 2048]
+    - [711, 7567.05]
+  - - [64, 320, 64, 1280]
+    - [700, 8738.13]
+  - - [3136, 256, 64, 64]
+    - [707, 8998.29]
+  - - [64, 384, 64, 1280]
+    - [704, 9903.91]
+  - - [1225, 48, 64, 192]
+    - [714, 7236.92]
+  - - [1225, 64, 64, 288]
+    - [715, 8893.83]
+  - - [289, 192, 64, 768]
+    - [720, 8850.42]
+  - - [289, 128, 64, 768]
+    - [712, 8442.75]
+  - - [64, 448, 64, 1280]
+    - [700, 8894.31]
+  - - [5329, 80, 64, 64]
+    - [718, 6687.37]
+  - - [64, 384, 64, 2048]
+    - [706, 10051.3]
+  - - [1225, 64, 64, 192]
+    - [713, 8339.5]
+  - - [64, 192, 64, 2048]
+    - [701, 9333.64]
+  - - [64, 320, 64, 2048]
+    - [699, 8473.34]
+  - - [1225, 48, 64, 288]
+    - [714, 7844.54]
+  - - [1225, 64, 64, 256]
+    - [721, 8721.52]
   - - [704, 1024, 1, 128]
-    - [797, 3019.56]
+    - [824, 3019.46]
   - - [1024, 1024, 1, 3328]
-    - [835, 8162.65]
+    - [862, 8162.55]
   - - [4, 704, 1, 1280]
-    - [738, 319.646]
+    - [765, 319.546]
   - - [4, 1856, 1, 3328]
-    - [768, 550.614]
+    - [795, 550.514]
   - - [1856, 448, 1, 3328]
-    - [820, 6813.15]
+    - [847, 6813.05]
   - - [2944, 4288, 1, 1280]
-    - [829, 8975.86]
+    - [856, 8975.76]
   - - [2368, 64, 1, 3328]
-    - [743, 5482.33]
+    - [770, 5482.23]
   - - [1760, 32, 1, 1760]
-    - [782, 3860.04]
+    - [809, 3859.94]
   - - [2368, 5888, 1, 256]
-    - [826, 8656.83]
+    - [853, 8656.73]
   - - [5888, 1856, 1, 256]
-    - [816, 7881.53]
+    - [843, 7881.43]
   - - [64, 3584, 1, 1280]
-    - [752, 4835.43]
+    - [779, 4835.33]
   - - [512, 24000, 1, 1536]
-    - [823, 8666.0]
+    - [850, 8665.9]
   - - [128, 6784, 1, 3328]
-    - [820, 7062.35]
+    - [847, 7062.25]
   - - [5888, 1408, 1, 256]
-    - [833, 8130.32]
+    - [860, 8130.22]
   - - [5888, 1856, 1, 3328]
-    - [823, 8840.85]
+    - [850, 8840.75]
   - - [512, 4, 1, 512]
-    - [708, 170.323]
+    - [735, 170.223]
   - - [35, 1500, 1, 2560]
-    - [712, 2896.65]
+    - [739, 2896.55]
   - - [1856, 4288, 1, 256]
-    - [812, 8374.73]
+    - [839, 8374.63]
   - - [1024, 5056, 1, 128]
-    - [809, 3304.35]
+    - [836, 3304.25]
   - - [5056, 5056, 1, 3328]
-    - [823, 8905.53]
+    - [850, 8905.43]
   - - [1408, 5888, 1, 1280]
-    - [823, 9418.2]
+    - [850, 9418.1]
   - - [2368, 448, 1, 128]
-    - [797, 3075.07]
+    - [824, 3074.97]
   - - [6144, 6000, 1, 2560]
-    - [823, 9336.43]
+    - [850, 9336.33]
   - - [2368, 6784, 1, 128]
-    - [796, 4919.36]
+    - [823, 4919.26]
   - - [1024, 3584, 1, 3328]
-    - [814, 8071.17]
+    - [841, 8071.07]
   - - [512, 48000, 1, 2048]
-    - [823, 8763.16]
+    - [850, 8763.06]
   - - [1408, 64, 1, 128]
-    - [719, 805.57]
+    - [746, 805.47]
   - - [256, 4288, 1, 3328]
-    - [845, 6331.96]
+    - [872, 6331.86]
   - - [5888, 1408, 1, 1280]
-    - [813, 9226.27]
+    - [840, 9226.17]
   - - [704, 1856, 1, 3328]
-    - [839, 6309.5]
+    - [866, 6309.4]
   - - [1408, 4288, 1, 256]
-    - [823, 8374.6]
+    - [850, 8374.5]
   - - [1024, 2368, 1, 256]
-    - [820, 7341.12]
+    - [847, 7341.02]
   - - [64, 4, 1, 256]
-    - [763, 13.1032]
+    - [790, 13.0032]
   - - [1408, 1856, 1, 1280]
-    - [830, 8773.05]
+    - [857, 8772.95]
   - - [1408, 64, 1, 1280]
-    - [776, 4050.08]
+    - [803, 4049.98]
   - - [448, 1024, 1, 1280]
-    - [839, 6071.26]
+    - [866, 6071.16]
   - - [4096, 32, 1, 4096]
-    - [773, 5491.82]
+    - [800, 5491.72]
   - - [256, 1408, 1, 3328]
-    - [825, 5351.49]
+    - [852, 5351.39]
   - - [5056, 5056, 1, 1280]
-    - [833, 9408.67]
+    - [860, 9408.57]
   - - [448, 5056, 1, 256]
-    - [838, 6680.54]
+    - [865, 6680.44]
   - - [704, 1856, 1, 1280]
-    - [815, 7504.03]
+    - [842, 7503.93]
   - - [128, 5056, 1, 128]
-    - [730, 2316.58]
+    - [757, 2316.48]
   - - [2368, 128, 1, 256]
-    - [815, 3660.22]
+    - [842, 3660.12]
   - - [1856, 1408, 1, 128]
-    - [802, 3885.97]
+    - [829, 3885.87]
   - - [64, 5056, 1, 256]
-    - [825, 3318.91]
+    - [852, 3318.81]
   - - [6784, 256, 1, 3328]
-    - [823, 7590.64]
+    - [850, 7590.54]
   - - [1408, 3584, 1, 256]
-    - [812, 8276.92]
+    - [839, 8276.82]
   - - [4288, 448, 1, 256]
-    - [825, 7139.79]
+    - [852, 7139.69]
   - - [64, 704, 1, 128]
-    - [726, 375.567]
+    - [753, 375.467]
   - - [1024, 1856, 1, 128]
-    - [795, 2890.66]
+    - [822, 2890.56]
   - - [4288, 2944, 1, 1280]
-    - [829, 8981.45]
+    - [856, 8981.35]
   - - [704, 5056, 1, 1280]
-    - [815, 7684.72]
+    - [842, 7684.62]
   - - [2368, 704, 1, 3328]
-    - [830, 7070.14]
+    - [857, 7070.04]
   - - [256, 5888, 1, 256]
-    - [815, 7319.45]
+    - [842, 7319.35]
   - - [1856, 4288, 1, 3328]
-    - [813, 9238.69]
+    - [840, 9238.59]
   - - [256, 2944, 1, 256]
-    - [815, 6090.31]
+    - [842, 6090.21]
   - - [5888, 1024, 1, 256]
-    - [819, 8270.05]
+    - [846, 8269.95]
   - - [448, 64, 1, 1280]
-    - [772, 2493.32]
+    - [799, 2493.22]
   - - [3072, 64, 1, 1024]
-    - [755, 3149.77]
+    - [782, 3149.67]
   - - [3584, 4, 1, 1280]
-    - [857, 567.862]
+    - [884, 567.762]
   - - [2560, 16, 1, 2560]
-    - [764, 2887.15]
+    - [791, 2887.05]
   - - [2944, 64, 1, 256]
-    - [755, 2565.76]
+    - [782, 2565.66]
   - - [128, 4, 1, 1280]
-    - [858, 78.8692]
+    - [885, 78.7692]
   - - [1408, 2944, 1, 256]
-    - [819, 8337.3]
+    - [846, 8337.2]
   - - [256, 1856, 1, 1280]
-    - [845, 6267.35]
+    - [872, 6267.25]
   - - [6784, 5056, 1, 3328]
-    - [829, 9424.0]
+    - [856, 9423.9]
   - - [5056, 5056, 1, 256]
-    - [816, 8758.33]
+    - [843, 8758.23]
   - - [128, 256, 1, 256]
-    - [771, 1205.36]
+    - [798, 1205.26]
   - - [64, 1024, 1, 1280]
-    - [782, 3566.68]
+    - [809, 3566.58]
   - - [2944, 4, 1, 256]
-    - [735, 319.449]
+    - [762, 319.349]
   - - [704, 5056, 1, 128]
-    - [804, 4073.83]
+    - [831, 4073.73]
   - - [4, 2368, 1, 1280]
-    - [763, 496.992]
+    - [790, 496.892]
   - - [2368, 2944, 1, 1280]
-    - [812, 9085.55]
+    - [839, 9085.45]
   - - [448, 448, 1, 3328]
-    - [790, 5428.76]
+    - [817, 5428.66]
   - - [6784, 6784, 1, 1280]
-    - [829, 8727.03]
+    - [856, 8726.93]
   - - [1024, 256, 1, 3328]
-    - [839, 5499.42]
+    - [866, 5499.32]
   - - [1408, 4288, 1, 1280]
-    - [813, 9094.42]
+    - [840, 9094.32]
   - - [3584, 4288, 1, 1280]
-    - [816, 8703.88]
+    - [843, 8703.78]
   - - [512, 6000, 1, 2560]
-    - [819, 8474.56]
+    - [846, 8474.46]
   - - [2368, 704, 1, 1280]
-    - [825, 7651.59]
+    - [852, 7651.49]
   - - [5056, 4288, 1, 3328]
-    - [833, 8545.35]
+    - [860, 8545.25]
   - - [3584, 2368, 1, 3328]
-    - [821, 8797.88]
+    - [848, 8797.78]
   - - [5888, 6784, 1, 1280]
-    - [819, 8785.18]
+    - [846, 8785.08]
   - - [64, 704, 1, 1280]
-    - [742, 2783.48]
+    - [769, 2783.38]
   - - [4288, 256, 1, 256]
-    - [815, 6162.78]
+    - [842, 6162.68]
   - - [2944, 128, 1, 128]
-    - [717, 1951.33]
+    - [744, 1951.23]
   - - [6144, 32, 1, 2560]
-    - [776, 4589.05]
+    - [803, 4588.95]
   - - [6784, 448, 1, 1280]
-    - [820, 8674.31]
+    - [847, 8674.21]
   - - [2944, 5888, 1, 256]
-    - [833, 8991.76]
+    - [860, 8991.66]
   - - [64, 64, 1, 1280]
-    - [793, 712.448]
+    - [820, 712.348]
   - - [4288, 2944, 1, 256]
-    - [829, 8678.14]
+    - [856, 8678.04]
   - - [5888, 704, 1, 1280]
-    - [819, 8652.71]
+    - [846, 8652.61]
   - - [5056, 4, 1, 3328]
-    - [735, 650.772]
+    - [762, 650.672]
   - - [1856, 64, 1, 1280]
-    - [752, 4471.97]
+    - [779, 4471.87]
   - - [1760, 16, 1, 1760]
-    - [792, 2592.23]
+    - [819, 2592.13]
   - - [448, 5888, 1, 128]
-    - [802, 3823.03]
+    - [829, 3822.93]
   - - [5888, 64, 1, 3328]
-    - [784, 6013.22]
+    - [811, 6013.12]
   - - [2944, 256, 1, 3328]
-    - [825, 7791.45]
+    - [852, 7791.35]
   - - [1024, 64, 1, 128]
-    - [726, 592.516]
+    - [753, 592.416]
   - - [5056, 2368, 1, 1280]
-    - [812, 9260.53]
+    - [839, 9260.43]
   - - [448, 3584, 1, 1280]
-    - [833, 6771.34]
+    - [860, 6771.24]
   - - [6784, 5888, 1, 256]
-    - [827, 7933.39]
+    - [854, 7933.29]
   - - [64, 1024, 1, 3328]
-    - [776, 4783.08]
+    - [803, 4782.98]
   - - [704, 128, 1, 1280]
-    - [782, 3971.98]
+    - [809, 3971.88]
   - - [4, 3584, 1, 128]
-    - [851, 59.5238]
+    - [878, 59.4238]
   - - [1408, 448, 1, 1280]
-    - [825, 5902.17]
+    - [852, 5902.07]
   - - [1024, 1408, 1, 256]
-    - [820, 5272.94]
+    - [847, 5272.84]
   - - [2368, 2368, 1, 3328]
-    - [825, 8488.76]
+    - [852, 8488.66]
   - - [1856, 6784, 1, 128]
-    - [802, 4742.51]
+    - [829, 4742.41]
   - - [5056, 704, 1, 3328]
-    - [828, 7772.48]
+    - [855, 7772.38]
   - - [1408, 1856, 1, 256]
-    - [846, 5229.84]
+    - [873, 5229.74]
   - - [1408, 704, 1, 3328]
-    - [846, 6954.93]
+    - [873, 6954.83]
   - - [2368, 5056, 1, 256]
-    - [819, 8580.68]
+    - [846, 8580.58]
   - - [1408, 256, 1, 1280]
-    - [845, 4790.11]
+    - [872, 4790.01]
   - - [3072, 128, 1, 1024]
-    - [841, 4579.87]
+    - [868, 4579.77]
   - - [3584, 2368, 1, 1280]
-    - [812, 8675.13]
+    - [839, 8675.03]
   - - [4288, 64, 1, 3328]
-    - [791, 5550.11]
+    - [818, 5550.01]
   - - [2368, 4, 1, 1280]
-    - [857, 537.518]
+    - [884, 537.418]
   - - [704, 5888, 1, 256]
-    - [813, 5305.88]
+    - [840, 5305.78]
   - - [6784, 2944, 1, 128]
-    - [809, 4344.21]
+    - [836, 4344.11]
   - - [6784, 64, 1, 256]
-    - [839, 4496.42]
+    - [866, 4496.32]
   - - [2944, 256, 1, 256]
-    - [825, 6553.7]
+    - [852, 6553.6]
   - - [2944, 6784, 1, 3328]
-    - [813, 8895.76]
+    - [840, 8895.66]
   - - [128, 1, 1, 1408]
-    - [793, 25.7]
+    - [820, 25.6]
   - - [704, 1408, 1, 3328]
-    - [827, 7913.21]
+    - [854, 7913.11]
   - - [3584, 704, 1, 3328]
-    - [812, 7526.43]
+    - [839, 7526.33]
   - - [2944, 256, 1, 128]
-    - [796, 2830.76]
+    - [823, 2830.66]
   - - [6784, 4, 1, 1280]
-    - [853, 645.235]
+    - [880, 645.135]
   - - [1024, 64, 1, 1280]
-    - [751, 3013.25]
+    - [778, 3013.15]
   - - [8448, 4, 1, 2816]
-    - [703, 984.768]
+    - [730, 984.668]
   - - [448, 4288, 1, 256]
-    - [825, 7139.79]
+    - [852, 7139.69]
   - - [64, 3584, 1, 3328]
-    - [749, 5683.27]
+    - [776, 5683.17]
   - - [704, 2368, 1, 1280]
-    - [833, 7045.3]
+    - [860, 7045.2]
   - - [1856, 2368, 1, 1280]
-    - [830, 8327.9]
+    - [857, 8327.8]
   - - [2368, 128, 1, 3328]
-    - [766, 6082.65]
+    - [793, 6082.55]
   - - [64, 193600, 1, 64]
-    - [815, 6747.77]
+    - [842, 6747.67]
   - - [1760, 128, 1, 1760]
-    - [743, 5513.07]
+    - [770, 5512.97]
   - - [448, 1408, 1, 256]
-    - [825, 5591.54]
+    - [852, 5591.44]
   - - [1856, 4288, 1, 1280]
-    - [823, 8647.72]
+    - [850, 8647.62]
   - - [64, 5056, 1, 3328]
-    - [783, 6096.59]
+    - [810, 6096.49]
   - - [512, 1500, 1, 2816]
-    - [825, 7879.3]
+    - [852, 7879.2]
   - - [1024, 448, 1, 128]
-    - [797, 1844.33]
+    - [824, 1844.23]
   - - [704, 4, 1, 1280]
-    - [763, 341.433]
+    - [790, 341.333]
   - - [704, 256, 1, 128]
-    - [797, 1001.34]
+    - [824, 1001.24]
   - - [256, 193600, 1, 64]
-    - [833, 8113.3]
+    - [860, 8113.2]
   - - [704, 2944, 1, 128]
-    - [804, 3747.13]
+    - [831, 3747.03]
   - - [1408, 1024, 1, 1280]
-    - [830, 7080.71]
+    - [857, 7080.61]
   - - [704, 6784, 1, 256]
-    - [848, 6630.47]
+    - [875, 6630.37]
   - - [6784, 704, 1, 256]
-    - [815, 8005.86]
+    - [842, 8005.76]
   - - [5056, 1408, 1, 128]
-    - [806, 4303.13]
+    - [833, 4303.03]
   - - [2048, 7000, 1, 2048]
-    - [823, 9269.2]
+    - [850, 9269.1]
   - - [256, 3584, 1, 3328]
-    - [817, 7334.48]
+    - [844, 7334.38]
   - - [5056, 704, 1, 256]
-    - [825, 7954.12]
+    - [852, 7954.02]
   - - [128, 1408, 1, 128]
-    - [720, 1243.02]
+    - [747, 1242.92]
   - - [3584, 4288, 1, 3328]
-    - [849, 7683.81]
+    - [876, 7683.71]
   - - [5888, 1856, 1, 1280]
-    - [813, 8831.34]
+    - [840, 8831.24]
   - - [256, 1408, 1, 256]
-    - [815, 4352.68]
+    - [842, 4352.58]
   - - [5056, 64, 1, 1280]
-    - [782, 5012.05]
+    - [809, 5011.95]
   - - [1024, 704, 1, 256]
-    - [815, 5710.17]
+    - [842, 5710.07]
   - - [64, 256, 1, 128]
-    - [721, 149.897]
+    - [748, 149.797]
   - - [2368, 3584, 1, 1280]
-    - [823, 8609.68]
+    - [850, 8609.58]
   - - [1024, 256, 1, 256]
-    - [839, 3276.9]
+    - [866, 3276.8]
   - - [1856, 4, 1, 1280]
-    - [737, 497.104]
+    - [764, 497.004]
   - - [448, 448, 1, 256]
-    - [825, 3117.83]
+    - [852, 3117.73]
   - - [2944, 3584, 1, 3328]
-    - [813, 8879.45]
+    - [840, 8879.35]
   - - [7680, 32, 1, 2560]
-    - [783, 5310.24]
+    - [810, 5310.14]
   - - [128, 4288, 1, 128]
-    - [723, 2116.2]
+    - [750, 2116.1]
   - - [256, 256, 1, 3328]
-    - [776, 4774.7]
+    - [803, 4774.6]
   - - [128, 1024, 1, 3328]
-    - [777, 5894.8]
+    - [804, 5894.7]
   - - [4, 1408, 1, 3328]
-    - [768, 552.674]
-  - - [196, 256, 64, 1024]
-    - [866, 5218.34]
+    - [795, 552.574]
   - - [6784, 2944, 1, 256]
-    - [831, 8271.18]
+    - [858, 8271.08]
   - - [64, 1856, 1, 1280]
-    - [782, 4167.96]
+    - [809, 4167.86]
   - - [64, 1024, 1, 128]
-    - [716, 589.188]
+    - [743, 589.088]
   - - [1024, 1500, 1, 2560]
-    - [820, 8407.88]
+    - [847, 8407.78]
   - - [1856, 2368, 1, 256]
-    - [815, 8092.15]
+    - [842, 8092.05]
   - - [3584, 256, 1, 128]
-    - [798, 2607.57]
+    - [825, 2607.47]
   - - [3584, 6784, 1, 3328]
-    - [832, 8558.83]
+    - [859, 8558.73]
   - - [256, 1024, 1, 256]
-    - [825, 3901.78]
+    - [852, 3901.68]
   - - [4, 6784, 1, 3328]
-    - [763, 662.575]
+    - [790, 662.475]
   - - [1024, 5888, 1, 3328]
-    - [823, 9161.76]
+    - [850, 9161.66]
   - - [1024, 128, 1, 1280]
-    - [780, 3942.12]
+    - [807, 3942.02]
   - - [3072, 32, 1, 1024]
-    - [757, 2840.49]
+    - [784, 2840.39]
   - - [6144, 24000, 1, 2560]
-    - [813, 7605.87]
+    - [840, 7605.77]
   - - [448, 1024, 1, 256]
-    - [815, 5062.19]
+    - [842, 5062.09]
   - - [5056, 4288, 1, 1280]
-    - [823, 9090.99]
+    - [850, 9090.89]
   - - [5888, 64, 1, 256]
-    - [825, 4449.78]
+    - [852, 4449.68]
   - - [1856, 256, 1, 1280]
-    - [839, 5834.46]
+    - [866, 5834.36]
   - - [64, 5888, 1, 3328]
-    - [777, 6152.44]
+    - [804, 6152.34]
   - - [2368, 2368, 1, 1280]
-    - [817, 8594.66]
+    - [844, 8594.56]
   - - [2944, 5888, 1, 128]
-    - [802, 4776.19]
+    - [829, 4776.09]
   - - [704, 5888, 1, 1280]
-    - [817, 8435.91]
+    - [844, 8435.81]
   - - [2368, 3584, 1, 128]
-    - [799, 4590.71]
+    - [826, 4590.61]
   - - [1856, 5056, 1, 128]
-    - [810, 4503.48]
+    - [837, 4503.38]
   - - [4608, 1, 1, 1536]
-    - [708, 226.955]
+    - [735, 226.855]
   - - [448, 256, 1, 3328]
-    - [752, 5415.56]
+    - [779, 5415.46]
   - - [2944, 6784, 1, 1280]
-    - [836, 8385.11]
+    - [863, 8385.01]
   - - [448, 1856, 1, 128]
-    - [806, 2618.96]
+    - [833, 2618.86]
   - - [128, 1024, 1, 128]
-    - [715, 940.527]
+    - [742, 940.427]
   - - [7680, 4, 1, 2560]
-    - [739, 985.104]
+    - [766, 985.004]
   - - [1024, 704, 1, 1280]
-    - [825, 7204.56]
+    - [852, 7204.46]
   - - [128, 5888, 1, 256]
-    - [815, 6313.52]
+    - [842, 6313.42]
   - - [1024, 5056, 1, 1280]
-    - [820, 8979.76]
+    - [847, 8979.66]
   - - [4288, 1024, 1, 256]
-    - [812, 7198.29]
+    - [839, 7198.19]
   - - [2944, 2368, 1, 128]
-    - [797, 4624.57]
+    - [824, 4624.47]
   - - [704, 704, 1, 3328]
-    - [838, 5870.71]
+    - [865, 5870.61]
   - - [704, 1408, 1, 1280]
-    - [827, 7680.32]
+    - [854, 7680.22]
   - - [5888, 448, 1, 1280]
-    - [815, 7718.66]
+    - [842, 7718.56]
   - - [3584, 256, 1, 3328]
-    - [820, 7523.88]
+    - [847, 7523.78]
   - - [704, 5888, 1, 3328]
-    - [825, 8196.99]
+    - [852, 8196.89]
   - - [704, 1856, 1, 128]
-    - [803, 3388.43]
+    - [830, 3388.33]
   - - [128, 3584, 1, 3328]
-    - [777, 6626.5]
+    - [804, 6626.4]
   - - [4, 4288, 1, 128]
-    - [850, 159.648]
+    - [877, 159.548]
   - - [128, 704, 1, 1280]
-    - [740, 4038.73]
+    - [767, 4038.63]
   - - [3584, 2944, 1, 256]
-    - [813, 7685.99]
+    - [840, 7685.89]
   - - [1856, 128, 1, 3328]
-    - [769, 6070.63]
+    - [796, 6070.53]
   - - [1856, 2368, 1, 3328]
-    - [830, 8460.62]
+    - [857, 8460.52]
   - - [512, 6000, 1, 2816]
-    - [833, 9019.55]
+    - [860, 9019.45]
   - - [2944, 448, 1, 128]
-    - [796, 3027.73]
+    - [823, 3027.63]
   - - [64, 193600, 1, 256]
-    - [839, 7080.32]
+    - [866, 7080.22]
   - - [128, 2944, 1, 1280]
-    - [815, 5397.87]
+    - [842, 5397.77]
   - - [448, 2944, 1, 1280]
-    - [825, 6996.97]
+    - [852, 6996.87]
   - - [512, 24000, 1, 2048]
-    - [833, 8832.67]
+    - [860, 8832.57]
   - - [128, 256, 1, 3328]
-    - [772, 3531.57]
+    - [799, 3531.47]
   - - [1408, 5056, 1, 3328]
-    - [828, 7969.94]
+    - [855, 7969.84]
   - - [1856, 1856, 1, 3328]
-    - [815, 8140.34]
+    - [842, 8140.24]
   - - [3584, 128, 1, 256]
-    - [825, 4861.05]
+    - [852, 4860.95]
   - - [448, 1408, 1, 3328]
-    - [815, 6353.75]
+    - [842, 6353.65]
   - - [2368, 2368, 1, 256]
-    - [829, 8369.37]
+    - [856, 8369.27]
   - - [4288, 4288, 1, 1280]
-    - [819, 8666.52]
+    - [846, 8666.42]
   - - [64, 448, 1, 1280]
-    - [772, 2591.92]
+    - [799, 2591.82]
   - - [5888, 1024, 1, 1280]
-    - [812, 8526.6]
+    - [839, 8526.5]
   - - [704, 1024, 1, 256]
-    - [825, 4971.8]
+    - [852, 4971.7]
   - - [1024, 12544, 1, 256]
-    - [863, 8611.9]
+    - [890, 8611.8]
   - - [448, 4, 1, 256]
-    - [768, 78.6534]
+    - [795, 78.5534]
   - - [5888, 448, 1, 128]
-    - [799, 3592.03]
+    - [826, 3591.93]
   - - [512, 48000, 1, 2560]
-    - [833, 9237.44]
+    - [860, 9237.34]
   - - [8448, 16, 1, 2816]
-    - [698, 3360.21]
+    - [725, 3360.11]
   - - [704, 6784, 1, 3328]
-    - [834, 7774.95]
+    - [861, 7774.85]
   - - [5888, 5888, 1, 1280]
-    - [820, 9238.25]
+    - [847, 9238.15]
   - - [5056, 1024, 1, 1280]
-    - [848, 8227.88]
+    - [875, 8227.78]
   - - [448, 5888, 1, 3328]
-    - [823, 7777.63]
+    - [850, 7777.53]
   - - [3072, 2, 1, 1024]
-    - [760, 376.383]
+    - [787, 376.283]
   - - [1024, 2944, 1, 1280]
-    - [813, 8650.45]
+    - [840, 8650.35]
   - - [5056, 5888, 1, 1280]
-    - [823, 8861.6]
+    - [850, 8861.5]
   - - [4288, 5888, 1, 128]
-    - [803, 5049.01]
+    - [830, 5048.91]
   - - [256, 3584, 1, 256]
-    - [815, 6314.11]
+    - [842, 6314.01]
   - - [256, 4, 1, 1280]
-    - [859, 163.94]
+    - [886, 163.84]
   - - [1408, 3584, 1, 128]
-    - [803, 4290.22]
+    - [830, 4290.12]
   - - [256, 2944, 1, 3328]
-    - [825, 7620.99]
+    - [852, 7620.89]
   - - [448, 3584, 1, 128]
-    - [803, 3353.9]
+    - [830, 3353.8]
   - - [5888, 2944, 1, 1280]
-    - [813, 9498.31]
+    - [840, 9498.21]
   - - [4, 6784, 1, 1280]
-    - [763, 623.916]
+    - [790, 623.816]
   - - [2368, 5888, 1, 128]
-    - [802, 4840.29]
+    - [829, 4840.19]
   - - [35, 8457, 1, 1760]
-    - [709, 4059.88]
+    - [736, 4059.78]
   - - [64, 2944, 1, 128]
-    - [720, 1310.82]
+    - [747, 1310.72]
   - - [2368, 4, 1, 256]
-    - [854, 369.739]
+    - [881, 369.639]
   - - [3584, 5888, 1, 256]
-    - [831, 7996.33]
+    - [858, 7996.23]
   - - [2368, 1024, 1, 128]
-    - [797, 3915.07]
+    - [824, 3914.97]
   - - [2368, 704, 1, 128]
-    - [797, 3658.97]
+    - [824, 3658.87]
   - - [512, 32, 1, 512]
-    - [786, 1127.6]
+    - [813, 1127.5]
   - - [3584, 2368, 1, 128]
-    - [797, 4462.48]
+    - [824, 4462.38]
   - - [5056, 704, 1, 128]
-    - [796, 4062.21]
+    - [823, 4062.11]
   - - [448, 2368, 1, 128]
-    - [797, 2829.07]
+    - [824, 2828.97]
   - - [4, 5056, 1, 256]
-    - [745, 425.868]
+    - [772, 425.768]
   - - [5056, 1408, 1, 3328]
-    - [830, 8848.92]
+    - [857, 8848.82]
   - - [1408, 704, 1, 256]
-    - [825, 5394.56]
+    - [852, 5394.46]
   - - [6784, 1024, 1, 3328]
-    - [812, 9232.02]
+    - [839, 9231.92]
   - - [6784, 2944, 1, 3328]
-    - [823, 8714.84]
+    - [850, 8714.74]
   - - [7680, 1, 1, 2560]
-    - [759, 248.845]
+    - [786, 248.745]
   - - [1856, 1856, 1, 256]
-    - [824, 7586.58]
+    - [851, 7586.48]
   - - [64, 64, 1, 3328]
-    - [794, 1363.25]
+    - [821, 1363.15]
   - - [512, 1, 1, 512]
-    - [708, 43.2158]
+    - [735, 43.1158]
   - - [6784, 2368, 1, 1280]
-    - [825, 8665.74]
+    - [852, 8665.64]
   - - [4608, 2, 1, 1536]
-    - [708, 452.65]
+    - [735, 452.55]
   - - [4288, 3584, 1, 256]
-    - [833, 8936.7]
+    - [860, 8936.6]
   - - [4288, 5888, 1, 1280]
-    - [830, 8957.15]
+    - [857, 8957.05]
   - - [4608, 4, 1, 1536]
-    - [701, 846.737]
+    - [728, 846.637]
   - - [1024, 6000, 1, 1536]
-    - [823, 8398.54]
+    - [850, 8398.44]
   - - [8448, 32, 1, 2816]
-    - [783, 5343.07]
+    - [810, 5342.97]
   - - [448, 2944, 1, 3328]
-    - [830, 7247.04]
+    - [857, 7246.94]
   - - [4288, 1856, 1, 1280]
-    - [813, 8902.86]
+    - [840, 8902.76]
   - - [1856, 2944, 1, 3328]
-    - [825, 8622.86]
+    - [852, 8622.76]
   - - [256, 6784, 1, 3328]
-    - [825, 8050.77]
+    - [852, 8050.67]
   - - [512, 3000, 1, 1536]
-    - [846, 7108.12]
+    - [873, 7108.02]
   - - [64, 5888, 1, 256]
-    - [838, 3567.74]
+    - [865, 3567.64]
   - - [256, 5056, 1, 128]
-    - [805, 3041.12]
+    - [832, 3041.02]
   - - [5056, 1024, 1, 256]
-    - [829, 8401.47]
+    - [856, 8401.37]
   - - [704, 64, 1, 3328]
-    - [788, 4299.02]
+    - [815, 4298.92]
   - - [5056, 1856, 1, 3328]
-    - [833, 8660.77]
+    - [860, 8660.67]
   - - [4, 2944, 1, 3328]
-    - [763, 618.637]
+    - [790, 618.537]
   - - [512, 1500, 1, 2048]
-    - [845, 5481.22]
+    - [872, 5481.12]
   - - [1024, 1, 1, 500000]
-    - [699, 260.061]
+    - [726, 259.961]
   - - [256, 4, 1, 256]
-    - [763, 50.5123]
+    - [790, 50.4123]
   - - [6784, 128, 1, 3328]
-    - [817, 6950.91]
+    - [844, 6950.81]
   - - [4288, 1408, 1, 128]
-    - [797, 4539.58]
+    - [824, 4539.48]
   - - [1856, 5888, 1, 3328]
-    - [823, 8712.93]
+    - [850, 8712.83]
   - - [4288, 5056, 1, 256]
-    - [829, 8997.15]
+    - [856, 8997.05]
   - - [1408, 128, 1, 1280]
-    - [752, 4599.12]
+    - [779, 4599.02]
   - - [4096, 7000, 1, 4096]
-    - [819, 8555.89]
+    - [846, 8555.79]
   - - [5056, 256, 1, 3328]
-    - [825, 8257.16]
+    - [852, 8257.06]
   - - [704, 704, 1, 256]
-    - [815, 5852.39]
+    - [842, 5852.29]
   - - [1024, 3000, 1, 2560]
-    - [812, 8258.84]
+    - [839, 8258.74]
   - - [1024, 5888, 1, 1280]
-    - [812, 8988.99]
+    - [839, 8988.89]
   - - [6784, 2368, 1, 128]
-    - [798, 4562.25]
+    - [825, 4562.15]
   - - [4, 5056, 1, 1280]
-    - [763, 600.441]
+    - [790, 600.341]
   - - [256, 64, 1, 1280]
-    - [786, 1899.69]
+    - [813, 1899.59]
   - - [128, 1856, 1, 1280]
-    - [825, 5185.76]
+    - [852, 5185.66]
   - - [1856, 1024, 1, 1280]
-    - [830, 7875.95]
+    - [857, 7875.85]
   - - [6784, 4288, 1, 1280]
-    - [833, 8981.18]
+    - [860, 8981.08]
   - - [1856, 1856, 1, 1280]
-    - [814, 7794.71]
+    - [841, 7794.61]
   - - [35, 1500, 1, 2048]
-    - [714, 2192.6]
+    - [741, 2192.5]
   - - [3072, 24000, 1, 1024]
-    - [826, 8690.58]
+    - [853, 8690.48]
   - - [1408, 5056, 1, 1280]
-    - [825, 8427.87]
+    - [852, 8427.77]
   - - [4, 2368, 1, 3328]
-    - [768, 594.422]
+    - [795, 594.322]
   - - [5888, 1856, 1, 128]
-    - [797, 4294.05]
+    - [824, 4293.95]
   - - [448, 704, 1, 1280]
-    - [820, 4136.39]
+    - [847, 4136.29]
   - - [448, 6784, 1, 128]
-    - [798, 3976.2]
+    - [825, 3976.1]
   - - [1024, 448, 1, 3328]
-    - [830, 6376.33]
+    - [857, 6376.23]
   - - [2944, 128, 1, 256]
-    - [815, 4466.26]
+    - [842, 4466.16]
   - - [5056, 3584, 1, 128]
-    - [803, 4997.18]
+    - [830, 4997.08]
   - - [5888, 5888, 1, 3328]
-    - [833, 8870.37]
+    - [860, 8870.27]
   - - [6784, 1024, 1, 256]
-    - [812, 8520.53]
+    - [839, 8520.43]
   - - [2944, 2368, 1, 256]
-    - [849, 6174.59]
+    - [876, 6174.49]
   - - [256, 448, 1, 256]
-    - [825, 1844.33]
+    - [852, 1844.23]
   - - [5056, 5888, 1, 3328]
-    - [814, 8076.65]
+    - [841, 8076.55]
   - - [1856, 1024, 1, 256]
-    - [825, 7188.92]
+    - [852, 7188.82]
   - - [512, 48000, 1, 1536]
-    - [836, 7282.2]
+    - [863, 7282.1]
   - - [3584, 448, 1, 1280]
-    - [815, 6869.1]
+    - [842, 6869.0]
   - - [1024, 1024, 1, 1280]
-    - [825, 8027.45]
+    - [852, 8027.35]
   - - [448, 5888, 1, 256]
-    - [815, 5765.84]
+    - [842, 5765.74]
   - - [2048, 128, 1, 2048]
-    - [773, 4835.01]
+    - [800, 4834.91]
   - - [1408, 6784, 1, 3328]
-    - [825, 8613.76]
+    - [852, 8613.66]
   - - [448, 1024, 1, 128]
-    - [796, 2315.57]
+    - [823, 2315.47]
   - - [4288, 704, 1, 128]
-    - [797, 4138.92]
+    - [824, 4138.82]
   - - [128, 1856, 1, 128]
-    - [732, 1397.56]
+    - [759, 1397.46]
   - - [448, 2368, 1, 3328]
-    - [815, 6786.48]
+    - [842, 6786.38]
   - - [5056, 64, 1, 128]
-    - [797, 1664.84]
+    - [824, 1664.74]
   - - [5056, 2944, 1, 256]
-    - [848, 7697.49]
+    - [875, 7697.39]
   - - [6784, 5888, 1, 128]
-    - [797, 5003.67]
+    - [824, 5003.57]
   - - [1024, 700, 1, 512]
-    - [825, 6036.31]
+    - [852, 6036.21]
   - - [3072, 1, 1, 128]
-    - [779, 70.3171]
+    - [806, 70.2171]
   - - [1024, 4, 1, 256]
-    - [737, 154.302]
+    - [764, 154.202]
   - - [2944, 704, 1, 128]
-    - [803, 3697.0]
+    - [830, 3696.9]
   - - [128, 6784, 1, 1280]
-    - [815, 6731.51]
+    - [842, 6731.41]
   - - [1408, 3584, 1, 3328]
-    - [813, 9258.07]
+    - [840, 9257.97]
   - - [2368, 6784, 1, 256]
-    - [812, 8840.4]
+    - [839, 8840.3]
   - - [5056, 1408, 1, 1280]
-    - [813, 9240.84]
+    - [840, 9240.74]
   - - [5056, 4288, 1, 128]
-    - [808, 4309.18]
+    - [835, 4309.08]
   - - [4, 704, 1, 256]
-    - [763, 130.697]
+    - [790, 130.597]
   - - [4288, 2368, 1, 3328]
-    - [826, 8755.33]
+    - [853, 8755.23]
   - - [1408, 1856, 1, 128]
-    - [796, 3918.75]
+    - [823, 3918.65]
   - - [1408, 5888, 1, 3328]
-    - [833, 8910.47]
+    - [860, 8910.37]
   - - [1856, 256, 1, 256]
-    - [815, 5631.34]
+    - [842, 5631.24]
   - - [6784, 6784, 1, 256]
-    - [823, 9298.76]
+    - [850, 9298.66]
   - - [5888, 5056, 1, 128]
-    - [798, 4811.36]
+    - [825, 4811.26]
   - - [4288, 2368, 1, 128]
-    - [797, 4749.1]
+    - [824, 4749.0]
   - - [128, 5888, 1, 1280]
-    - [824, 6393.86]
+    - [851, 6393.76]
   - - [256, 4288, 1, 1280]
-    - [815, 6887.79]
+    - [842, 6887.69]
   - - [2368, 2944, 1, 256]
-    - [829, 8314.82]
+    - [856, 8314.72]
   - - [4, 1856, 1, 256]
-    - [852, 267.03]
+    - [879, 266.93]
   - - [3584, 1856, 1, 1280]
-    - [813, 8631.91]
+    - [840, 8631.81]
   - - [6784, 6784, 1, 128]
-    - [803, 5059.96]
+    - [830, 5059.86]
   - - [256, 1856, 1, 128]
-    - [796, 1858.82]
-  - - [49, 512, 64, 2048]
-    - [867, 3053.67]
+    - [823, 1858.72]
   - - [704, 64, 1, 1280]
-    - [746, 2849.49]
+    - [773, 2849.39]
   - - [5888, 5056, 1, 256]
-    - [832, 8202.52]
+    - [859, 8202.42]
   - - [8448, 48000, 1, 2816]
-    - [823, 4281.94]
+    - [850, 4281.84]
   - - [512, 6000, 1, 2048]
-    - [815, 8047.89]
+    - [842, 8047.79]
   - - [3584, 448, 1, 256]
-    - [825, 6805.43]
+    - [852, 6805.33]
   - - [448, 4288, 1, 128]
-    - [803, 3500.83]
+    - [830, 3500.73]
   - - [7680, 64, 1, 2560]
-    - [758, 5957.9]
+    - [785, 5957.8]
   - - [256, 6784, 1, 256]
-    - [825, 7331.83]
+    - [852, 7331.73]
   - - [1408, 4288, 1, 128]
-    - [797, 4501.49]
+    - [824, 4501.39]
   - - [2944, 704, 1, 3328]
-    - [825, 8439.7]
+    - [852, 8439.6]
   - - [128, 448, 1, 256]
-    - [746, 1555.19]
+    - [773, 1555.09]
   - - [2048, 32, 1, 2048]
-    - [757, 3226.49]
+    - [784, 3226.39]
   - - [3584, 3584, 1, 256]
-    - [829, 8784.9]
+    - [856, 8784.8]
   - - [448, 1408, 1, 128]
-    - [796, 2535.92]
+    - [823, 2535.82]
   - - [128, 256, 1, 1280]
-    - [772, 2896.72]
+    - [799, 2896.62]
   - - [3584, 5056, 1, 256]
-    - [816, 8566.52]
+    - [843, 8566.42]
   - - [6784, 128, 1, 256]
-    - [815, 6053.97]
+    - [842, 6053.87]
   - - [4288, 4, 1, 256]
-    - [735, 428.9]
+    - [762, 428.8]
   - - [64, 1408, 1, 3328]
-    - [740, 5025.11]
+    - [767, 5025.01]
   - - [704, 448, 1, 256]
-    - [839, 3409.74]
+    - [866, 3409.64]
   - - [2944, 2368, 1, 1280]
-    - [813, 9066.35]
+    - [840, 9066.25]
   - - [448, 64, 1, 3328]
-    - [788, 3528.96]
+    - [815, 3528.86]
   - - [704, 6784, 1, 128]
-    - [802, 4212.61]
+    - [829, 4212.51]
   - - [3584, 4, 1, 3328]
-    - [855, 658.353]
+    - [882, 658.253]
   - - [6784, 3584, 1, 256]
-    - [823, 9061.84]
+    - [850, 9061.74]
   - - [704, 448, 1, 128]
-    - [802, 1552.8]
+    - [829, 1552.7]
   - - [256, 128, 1, 128]
-    - [727, 281.975]
+    - [754, 281.875]
   - - [704, 1408, 1, 128]
-    - [802, 3026.76]
+    - [829, 3026.66]
   - - [4, 448, 1, 128]
-    - [851, 5.56127]
+    - [878, 5.46127]
   - - [4288, 128, 1, 1280]
-    - [782, 5471.64]
+    - [809, 5471.54]
   - - [128, 1408, 1, 256]
-    - [825, 2813.35]
+    - [852, 2813.25]
   - - [4, 2944, 1, 256]
-    - [745, 316.766]
+    - [772, 316.666]
   - - [64, 128, 1, 3328]
-    - [793, 1872.56]
+    - [820, 1872.46]
   - - [1856, 1408, 1, 256]
-    - [815, 7735.89]
+    - [842, 7735.79]
   - - [5056, 2368, 1, 128]
-    - [797, 4830.19]
+    - [824, 4830.09]
   - - [2944, 2944, 1, 3328]
-    - [833, 8890.11]
+    - [860, 8890.01]
   - - [5056, 6784, 1, 256]
-    - [823, 9015.25]
+    - [850, 9015.15]
   - - [1856, 3584, 1, 128]
-    - [804, 4455.12]
+    - [831, 4455.02]
   - - [5888, 4, 1, 1280]
-    - [853, 642.063]
+    - [880, 641.963]
   - - [128, 2944, 1, 128]
-    - [722, 2037.03]
+    - [749, 2036.93]
   - - [35, 8457, 1, 2560]
-    - [710, 3988.23]
+    - [737, 3988.13]
   - - [3584, 6784, 1, 128]
-    - [797, 4774.54]
+    - [824, 4774.44]
   - - [128, 4288, 1, 256]
-    - [815, 4851.85]
+    - [842, 4851.75]
   - - [704, 448, 1, 3328]
-    - [830, 4432.63]
+    - [857, 4432.53]
   - - [2368, 6784, 1, 1280]
-    - [813, 9161.48]
+    - [840, 9161.38]
   - - [128, 128, 1, 3328]
-    - [787, 2839.99]
+    - [814, 2839.89]
   - - [5056, 1856, 1, 256]
-    - [829, 8380.94]
+    - [856, 8380.84]
   - - [256, 128, 1, 256]
-    - [771, 1165.18]
+    - [798, 1165.08]
   - - [1024, 3000, 1, 2816]
-    - [830, 8714.27]
+    - [857, 8714.17]
   - - [1024, 1856, 1, 256]
-    - [820, 7014.79]
+    - [847, 7014.69]
   - - [64, 1, 1, 1216]
-    - [793, 11.8205]
+    - [820, 11.7205]
   - - [4288, 64, 1, 128]
-    - [724, 1669.65]
+    - [751, 1669.55]
   - - [256, 448, 1, 3328]
-    - [748, 5152.39]
+    - [775, 5152.29]
   - - [1408, 6784, 1, 1280]
-    - [833, 8735.22]
+    - [860, 8735.12]
   - - [3584, 3584, 1, 1280]
-    - [830, 9020.09]
+    - [857, 9019.99]
   - - [7680, 24000, 1, 2560]
-    - [833, 6940.24]
+    - [860, 6940.14]
   - - [64, 2368, 1, 1280]
-    - [743, 4433.07]
+    - [770, 4432.97]
   - - [448, 2368, 1, 1280]
-    - [818, 5352.92]
+    - [845, 5352.82]
   - - [4608, 48000, 1, 1536]
-    - [812, 8129.11]
+    - [839, 8129.01]
   - - [5888, 5888, 1, 128]
-    - [805, 4700.91]
+    - [832, 4700.81]
   - - [64, 6784, 1, 3328]
-    - [815, 6170.82]
+    - [842, 6170.72]
   - - [2944, 256, 1, 1280]
-    - [845, 6177.65]
+    - [872, 6177.55]
   - - [2048, 16, 1, 2048]
-    - [767, 2167.7]
+    - [794, 2167.6]
   - - [256, 2368, 1, 128]
-    - [796, 2037.77]
+    - [823, 2037.67]
   - - [5056, 2368, 1, 3328]
-    - [813, 9040.6]
+    - [840, 9040.5]
   - - [2944, 4288, 1, 256]
-    - [844, 7552.22]
+    - [871, 7552.12]
   - - [1408, 3584, 1, 1280]
-    - [820, 8808.76]
+    - [847, 8808.66]
   - - [2368, 64, 1, 256]
-    - [756, 2320.51]
+    - [783, 2320.41]
   - - [1024, 128, 1, 128]
-    - [716, 1075.56]
+    - [743, 1075.46]
   - - [704, 128, 1, 3328]
-    - [749, 4985.02]
+    - [776, 4984.92]
   - - [5888, 4, 1, 128]
-    - [850, 33.6558]
+    - [877, 33.5558]
   - - [1856, 704, 1, 256]
-    - [825, 7110.98]
+    - [852, 7110.88]
   - - [1024, 1500, 1, 2816]
-    - [820, 8499.88]
+    - [847, 8499.78]
   - - [8448, 1, 1, 2816]
-    - [703, 251.469]
+    - [730, 251.369]
   - - [1024, 4, 1, 3328]
-    - [859, 541.032]
+    - [886, 540.932]
   - - [1024, 6000, 1, 2048]
-    - [820, 8698.59]
+    - [847, 8698.49]
   - - [512, 24000, 1, 2560]
-    - [813, 8963.7]
+    - [840, 8963.6]
   - - [6144, 3000, 1, 2560]
-    - [836, 8761.97]
+    - [863, 8761.87]
   - - [2368, 6784, 1, 3328]
-    - [830, 8867.49]
+    - [857, 8867.39]
   - - [1856, 1408, 1, 1280]
-    - [817, 7908.53]
+    - [844, 7908.43]
   - - [1856, 448, 1, 1280]
-    - [830, 6544.01]
+    - [857, 6543.91]
   - - [6784, 704, 1, 128]
-    - [796, 4086.45]
+    - [823, 4086.35]
   - - [4, 4, 1, 256]
-    - [763, 0.852941]
+    - [790, 0.752941]
   - - [128, 5888, 1, 128]
-    - [720, 2582.25]
+    - [747, 2582.15]
   - - [5056, 2944, 1, 128]
-    - [800, 4579.17]
+    - [827, 4579.07]
   - - [1408, 5888, 1, 256]
-    - [812, 8810.77]
+    - [839, 8810.67]
   - - [704, 2944, 1, 1280]
-    - [827, 8420.9]
+    - [854, 8420.8]
   - - [4288, 64, 1, 1280]
-    - [752, 4906.15]
+    - [779, 4906.05]
   - - [256, 64, 1, 256]
-    - [754, 689.953]
+    - [781, 689.853]
   - - [1024, 1024, 1, 256]
-    - [830, 5528.01]
+    - [857, 5527.91]
   - - [704, 1856, 1, 256]
-    - [814, 4452.92]
+    - [841, 4452.82]
   - - [2560, 64, 1, 2560]
-    - [743, 4563.09]
+    - [770, 4562.99]
   - - [3584, 704, 1, 1280]
-    - [820, 7898.77]
+    - [847, 7898.67]
   - - [256, 128, 1, 1280]
-    - [772, 2865.06]
+    - [799, 2864.96]
   - - [5888, 2368, 1, 256]
-    - [819, 8628.37]
+    - [846, 8628.27]
   - - [256, 2368, 1, 1280]
-    - [815, 6073.57]
+    - [842, 6073.47]
   - - [2944, 6784, 1, 128]
-    - [796, 4756.77]
+    - [823, 4756.67]
   - - [3584, 448, 1, 3328]
-    - [815, 7265.07]
+    - [842, 7264.97]
   - - [1408, 4, 1, 256]
-    - [856, 234.157]
+    - [883, 234.057]
   - - [704, 2368, 1, 3328]
-    - [813, 7248.98]
+    - [840, 7248.88]
   - - [2944, 448, 1, 256]
-    - [820, 6365.89]
+    - [847, 6365.79]
   - - [1856, 448, 1, 128]
-    - [798, 2976.34]
+    - [825, 2976.24]
   - - [4608, 6000, 1, 1536]
-    - [833, 9469.42]
+    - [860, 9469.32]
   - - [2368, 128, 1, 1280]
-    - [782, 4773.39]
+    - [809, 4773.29]
   - - [256, 5888, 1, 128]
-    - [797, 3112.0]
+    - [824, 3111.9]
   - - [64, 6784, 1, 256]
-    - [815, 3755.14]
+    - [842, 3755.04]
   - - [64, 5056, 1, 1280]
-    - [776, 4935.6]
+    - [803, 4935.5]
   - - [4, 6784, 1, 128]
-    - [851, 111.142]
+    - [878, 111.042]
   - - [3025, 64, 64, 64]
-    - [865, 6643.75]
+    - [892, 6643.65]
   - - [2944, 2944, 1, 1280]
-    - [813, 8869.55]
+    - [840, 8869.45]
   - - [5056, 448, 1, 3328]
-    - [846, 6706.2]
+    - [873, 6706.1]
   - - [4, 3584, 1, 1280]
-    - [763, 573.54]
+    - [790, 573.44]
   - - [1408, 128, 1, 128]
-    - [715, 1293.19]
+    - [742, 1293.09]
   - - [6784, 704, 1, 3328]
-    - [830, 8368.33]
+    - [857, 8368.23]
   - - [128, 64, 1, 1280]
-    - [789, 1260.41]
+    - [816, 1260.31]
   - - [2368, 256, 1, 1280]
-    - [815, 6154.47]
+    - [842, 6154.37]
   - - [4, 448, 1, 3328]
-    - [768, 351.738]
+    - [795, 351.638]
   - - [5888, 4288, 1, 128]
-    - [797, 4340.99]
+    - [824, 4340.89]
   - - [4, 5888, 1, 256]
-    - [745, 428.318]
+    - [772, 428.218]
   - - [1408, 2944, 1, 3328]
-    - [812, 9400.85]
+    - [839, 9400.75]
   - - [3584, 704, 1, 128]
-    - [799, 3392.55]
+    - [826, 3392.45]
   - - [64, 1024, 1, 256]
-    - [746, 1762.41]
+    - [773, 1762.31]
   - - [2368, 448, 1, 1280]
-    - [839, 5972.58]
+    - [866, 5972.48]
   - - [128, 3584, 1, 256]
-    - [815, 5224.32]
+    - [842, 5224.22]
   - - [704, 448, 1, 1280]
-    - [815, 4566.86]
+    - [842, 4566.76]
   - - [448, 5056, 1, 128]
-    - [797, 3876.19]
+    - [824, 3876.09]
   - - [6144, 4, 1, 2560]
-    - [739, 948.751]
+    - [766, 948.651]
   - - [5056, 3584, 1, 256]
-    - [829, 8162.56]
+    - [856, 8162.46]
   - - [4288, 4288, 1, 256]
-    - [836, 7653.34]
+    - [863, 7653.24]
   - - [1408, 5056, 1, 128]
-    - [803, 4554.34]
+    - [830, 4554.24]
   - - [2944, 3584, 1, 128]
-    - [809, 4147.0]
+    - [836, 4146.9]
   - - [3584, 2368, 1, 256]
-    - [830, 8195.05]
+    - [857, 8194.95]
   - - [5888, 5056, 1, 1280]
-    - [829, 9413.43]
+    - [856, 9413.33]
   - - [128, 1024, 1, 1280]
-    - [782, 4433.83]
+    - [809, 4433.73]
   - - [8448, 24000, 1, 2816]
-    - [823, 5227.12]
+    - [850, 5227.02]
   - - [64, 704, 1, 256]
-    - [746, 1441.89]
+    - [773, 1441.79]
   - - [4288, 256, 1, 1280]
-    - [845, 5687.8]
+    - [872, 5687.7]
   - - [3584, 3584, 1, 3328]
-    - [820, 9183.63]
+    - [847, 9183.53]
   - - [704, 64, 1, 128]
-    - [724, 402.835]
+    - [751, 402.735]
   - - [3072, 1500, 1, 128]
-    - [819, 7395.08]
+    - [846, 7394.98]
   - - [2048, 3136, 1, 512]
-    - [861, 8447.3]
+    - [888, 8447.2]
   - - [3025, 256, 64, 64]
-    - [869, 8063.79]
+    - [896, 8063.69]
   - - [5888, 6784, 1, 256]
-    - [813, 9282.01]
+    - [840, 9281.91]
   - - [4288, 2944, 1, 3328]
-    - [813, 9153.87]
+    - [840, 9153.77]
   - - [2944, 64, 1, 128]
-    - [730, 1463.53]
+    - [757, 1463.43]
   - - [1024, 128, 1, 3328]
-    - [780, 5377.41]
+    - [807, 5377.31]
   - - [1024, 16, 1, 500000]
-    - [696, 3997.13]
+    - [723, 3997.03]
   - - [4288, 128, 1, 3328]
-    - [784, 6053.31]
+    - [811, 6053.21]
   - - [7680, 128, 1, 2560]
-    - [830, 7769.24]
+    - [857, 7769.14]
   - - [256, 5056, 1, 1280]
-    - [839, 7200.84]
+    - [866, 7200.74]
   - - [1408, 256, 1, 128]
-    - [807, 1671.74]
+    - [834, 1671.64]
   - - [2944, 5888, 1, 3328]
-    - [819, 8642.18]
+    - [846, 8642.08]
   - - [6784, 5888, 1, 1280]
-    - [833, 8871.15]
+    - [860, 8871.05]
   - - [3072, 1, 1, 1024]
-    - [779, 205.972]
+    - [806, 205.872]
   - - [704, 128, 1, 256]
-    - [742, 1935.39]
+    - [769, 1935.29]
   - - [5888, 4288, 1, 1280]
-    - [820, 9176.7]
+    - [847, 9176.6]
   - - [1024, 24000, 1, 2048]
-    - [819, 8667.79]
+    - [846, 8667.69]
   - - [448, 256, 1, 1280]
-    - [752, 4327.95]
+    - [779, 4327.85]
   - - [5888, 3584, 1, 128]
-    - [797, 4669.45]
+    - [824, 4669.35]
   - - [64, 4288, 1, 3328]
-    - [777, 5375.04]
+    - [804, 5374.94]
   - - [448, 4, 1, 1280]
-    - [768, 289.716]
+    - [795, 289.616]
   - - [6784, 6784, 1, 3328]
-    - [826, 8306.73]
+    - [853, 8306.63]
   - - [5056, 4, 1, 1280]
-    - [738, 607.199]
+    - [765, 607.099]
   - - [4, 5888, 1, 3328]
-    - [763, 651.538]
+    - [790, 651.438]
   - - [256, 1408, 1, 1280]
-    - [815, 5177.09]
+    - [842, 5176.99]
   - - [3072, 16, 1, 1024]
-    - [774, 2207.63]
+    - [801, 2207.53]
   - - [704, 3584, 1, 128]
-    - [807, 3653.51]
+    - [834, 3653.41]
   - - [1024, 2, 1, 512]
-    - [794, 156.138]
+    - [821, 156.038]
   - - [5888, 448, 1, 3328]
-    - [815, 7896.85]
+    - [842, 7896.75]
   - - [2368, 4288, 1, 1280]
-    - [812, 8517.63]
+    - [839, 8517.53]
   - - [4288, 2944, 1, 128]
-    - [801, 4439.26]
+    - [828, 4439.16]
   - - [256, 64, 1, 3328]
-    - [787, 2704.76]
+    - [814, 2704.66]
   - - [2944, 64, 1, 3328]
-    - [752, 5647.15]
+    - [779, 5647.05]
   - - [6784, 64, 1, 3328]
-    - [825, 6434.61]
+    - [852, 6434.51]
   - - [5056, 2944, 1, 3328]
-    - [836, 8497.2]
+    - [863, 8497.1]
   - - [448, 128, 1, 256]
-    - [754, 1516.64]
+    - [781, 1516.54]
   - - [2944, 3584, 1, 256]
-    - [830, 8365.83]
+    - [857, 8365.73]
   - - [1408, 1408, 1, 3328]
-    - [813, 8440.42]
+    - [840, 8440.32]
   - - [1856, 128, 1, 1280]
-    - [815, 5242.93]
+    - [842, 5242.83]
   - - [3584, 3584, 1, 128]
-    - [797, 4385.94]
+    - [824, 4385.84]
   - - [64, 3584, 1, 256]
-    - [815, 3276.9]
+    - [842, 3276.8]
   - - [1408, 4, 1, 3328]
-    - [738, 605.504]
+    - [765, 605.404]
   - - [128, 2944, 1, 3328]
-    - [783, 6295.75]
+    - [810, 6295.65]
   - - [3584, 704, 1, 256]
-    - [820, 7711.64]
+    - [847, 7711.54]
   - - [2944, 448, 1, 3328]
-    - [831, 6503.97]
+    - [858, 6503.87]
   - - [1024, 2, 1, 500000]
-    - [700, 521.803]
+    - [727, 521.703]
   - - [3584, 1408, 1, 3328]
-    - [822, 8296.2]
+    - [849, 8296.1]
   - - [704, 3584, 1, 1280]
-    - [827, 7670.65]
+    - [854, 7670.55]
   - - [1024, 1408, 1, 128]
-    - [802, 2830.61]
+    - [829, 2830.51]
   - - [1856, 6784, 1, 256]
-    - [833, 8149.67]
+    - [860, 8149.57]
   - - [4288, 448, 1, 3328]
-    - [814, 7406.44]
+    - [841, 7406.34]
   - - [6784, 4288, 1, 128]
-    - [809, 4418.09]
+    - [836, 4417.99]
   - - [6784, 704, 1, 1280]
-    - [830, 8302.45]
+    - [857, 8302.35]
   - - [6144, 1, 1, 2560]
-    - [739, 243.427]
+    - [766, 243.327]
   - - [3584, 6784, 1, 256]
-    - [812, 9036.59]
+    - [839, 9036.49]
   - - [6144, 16, 1, 2560]
-    - [746, 3266.69]
+    - [773, 3266.59]
   - - [3584, 64, 1, 128]
-    - [730, 1555.19]
+    - [757, 1555.09]
   - - [5888, 1024, 1, 3328]
-    - [820, 8888.08]
+    - [847, 8887.98]
   - - [448, 64, 1, 128]
-    - [716, 248.074]
+    - [743, 247.974]
   - - [704, 6784, 1, 1280]
-    - [816, 7892.56]
+    - [843, 7892.46]
   - - [4, 448, 1, 256]
-    - [738, 70.8951]
-  - - [196, 1024, 64, 256]
-    - [864, 6630.86]
+    - [765, 70.7951]
   - - [5888, 128, 1, 256]
-    - [814, 5715.09]
+    - [841, 5714.99]
   - - [4096, 16, 1, 4096]
-    - [760, 3251.5]
+    - [787, 3251.4]
   - - [1856, 5056, 1, 3328]
-    - [829, 8740.27]
+    - [856, 8740.17]
   - - [4, 6784, 1, 256]
-    - [852, 360.412]
+    - [879, 360.312]
   - - [1024, 3584, 1, 128]
-    - [797, 3456.27]
+    - [824, 3456.17]
   - - [64, 704, 1, 3328]
-    - [765, 3817.47]
+    - [792, 3817.37]
   - - [2368, 2944, 1, 128]
-    - [803, 4605.47]
+    - [830, 4605.37]
   - - [5056, 64, 1, 256]
-    - [815, 3863.79]
+    - [842, 3863.69]
   - - [512, 1500, 1, 1536]
-    - [815, 6801.56]
+    - [842, 6801.46]
   - - [512, 1, 1, 500000]
-    - [704, 261.068]
+    - [731, 260.968]
   - - [5888, 2944, 1, 3328]
-    - [819, 8501.88]
+    - [846, 8501.78]
   - - [128, 3584, 1, 1280]
-    - [820, 5938.64]
+    - [847, 5938.54]
   - - [1024, 704, 1, 128]
-    - [806, 2172.29]
+    - [833, 2172.19]
   - - [1408, 2368, 1, 128]
-    - [802, 4023.2]
+    - [829, 4023.1]
   - - [5888, 2368, 1, 128]
-    - [803, 4424.62]
+    - [830, 4424.52]
   - - [128, 5056, 1, 3328]
-    - [815, 6692.16]
+    - [842, 6692.06]
   - - [3584, 6784, 1, 1280]
-    - [813, 9488.64]
+    - [840, 9488.54]
   - - [4288, 1856, 1, 256]
-    - [823, 8287.52]
+    - [850, 8287.42]
   - - [1856, 5888, 1, 256]
-    - [834, 7707.83]
+    - [861, 7707.73]
   - - [256, 256, 1, 256]
-    - [781, 1613.29]
+    - [808, 1613.19]
   - - [4288, 4288, 1, 3328]
-    - [823, 8923.59]
+    - [850, 8923.49]
   - - [1024, 1024, 1, 128]
-    - [803, 2553.71]
+    - [830, 2553.61]
   - - [4288, 1408, 1, 1280]
-    - [823, 8930.47]
+    - [850, 8930.37]
   - - [3584, 5056, 1, 128]
-    - [807, 4495.15]
+    - [834, 4495.05]
   - - [4, 1024, 1, 3328]
-    - [763, 415.694]
+    - [790, 415.594]
   - - [4, 704, 1, 128]
-    - [851, 13.9634]
+    - [878, 13.8634]
   - - [4288, 2368, 1, 256]
-    - [848, 7135.08]
+    - [875, 7134.98]
   - - [2944, 5056, 1, 1280]
-    - [820, 9118.61]
+    - [847, 9118.51]
   - - [448, 6784, 1, 256]
-    - [844, 5430.31]
+    - [871, 5430.21]
   - - [64, 128, 1, 128]
-    - [727, 83.057]
+    - [754, 82.957]
   - - [1856, 2368, 1, 128]
-    - [803, 4422.75]
+    - [830, 4422.65]
   - - [6784, 2368, 1, 3328]
-    - [816, 8769.4]
+    - [843, 8769.3]
   - - [1408, 6784, 1, 128]
-    - [803, 4739.0]
+    - [830, 4738.9]
   - - [256, 1024, 1, 1280]
-    - [825, 5722.21]
+    - [852, 5722.11]
   - - [704, 4, 1, 128]
-    - [851, 8.66578]
+    - [878, 8.56578]
   - - [1408, 4, 1, 128]
-    - [851, 26.1439]
+    - [878, 26.0439]
   - - [4288, 128, 1, 256]
-    - [825, 4865.38]
+    - [852, 4865.28]
   - - [4288, 1856, 1, 3328]
-    - [812, 9250.04]
+    - [839, 9249.94]
   - - [3584, 448, 1, 128]
-    - [803, 3029.59]
+    - [830, 3029.49]
   - - [64, 4288, 1, 128]
-    - [720, 1535.38]
+    - [747, 1535.28]
   - - [64, 448, 1, 3328]
-    - [790, 3457.36]
+    - [817, 3457.26]
   - - [448, 4, 1, 3328]
-    - [768, 367.328]
+    - [795, 367.228]
   - - [256, 4, 1, 3328]
-    - [859, 320.389]
+    - [886, 320.289]
   - - [4, 1408, 1, 1280]
-    - [856, 344.039]
+    - [883, 343.939]
   - - [3584, 64, 1, 1280]
-    - [744, 5191.07]
+    - [771, 5190.97]
   - - [1408, 448, 1, 128]
-    - [804, 2218.24]
+    - [831, 2218.14]
   - - [3584, 1024, 1, 1280]
-    - [826, 8253.11]
+    - [853, 8253.01]
   - - [1856, 5056, 1, 256]
-    - [844, 7552.55]
+    - [871, 7552.45]
   - - [4, 3584, 1, 256]
-    - [763, 325.456]
+    - [790, 325.356]
   - - [6784, 4288, 1, 3328]
-    - [819, 8655.34]
+    - [846, 8655.24]
   - - [4, 2944, 1, 1280]
-    - [763, 547.821]
+    - [790, 547.721]
   - - [1024, 4288, 1, 256]
-    - [820, 7788.83]
+    - [847, 7788.73]
   - - [5888, 3584, 1, 3328]
-    - [823, 9173.39]
+    - [850, 9173.29]
   - - [1856, 4, 1, 256]
-    - [854, 282.919]
+    - [881, 282.819]
   - - [4, 256, 1, 256]
-    - [763, 49.7485]
+    - [790, 49.6485]
   - - [5056, 3584, 1, 3328]
-    - [829, 8457.53]
+    - [856, 8457.43]
   - - [1408, 128, 1, 3328]
-    - [783, 5714.52]
+    - [810, 5714.42]
   - - [4, 64, 1, 1280]
-    - [859, 42.7667]
+    - [886, 42.6667]
   - - [2368, 1408, 1, 1280]
-    - [820, 8224.92]
+    - [847, 8224.82]
   - - [5056, 2944, 1, 1280]
-    - [812, 9295.13]
+    - [839, 9295.03]
   - - [8448, 6000, 1, 2816]
-    - [816, 8037.97]
+    - [843, 8037.87]
   - - [4, 4, 1, 128]
-    - [851, 0.1433898]
+    - [878, 0.0433898]
   - - [3584, 256, 1, 256]
-    - [815, 6116.79]
+    - [842, 6116.69]
   - - [3584, 2944, 1, 1280]
-    - [812, 8796.49]
+    - [839, 8796.39]
   - - [1024, 6784, 1, 256]
-    - [819, 8187.86]
+    - [846, 8187.76]
   - - [4, 128, 1, 256]
-    - [763, 30.4407]
+    - [790, 30.3407]
   - - [6784, 448, 1, 256]
-    - [815, 7862.3]
+    - [842, 7862.2]
   - - [5124, 9124, 1, 2048]
-    - [817, 8176.41]
+    - [844, 8176.31]
   - - [2944, 5056, 1, 3328]
-    - [812, 9328.34]
+    - [839, 9328.24]
   - - [6784, 4, 1, 128]
-    - [850, 204.9]
+    - [877, 204.8]
   - - [2944, 1408, 1, 128]
-    - [801, 3838.2]
+    - [828, 3838.1]
   - - [448, 128, 1, 3328]
-    - [766, 4632.16]
+    - [793, 4632.06]
   - - [64, 2944, 1, 3328]
-    - [783, 5663.47]
+    - [810, 5663.37]
   - - [5056, 6784, 1, 3328]
-    - [819, 8420.17]
+    - [846, 8420.07]
   - - [704, 2368, 1, 128]
-    - [803, 3321.79]
+    - [830, 3321.69]
   - - [3072, 1500, 1, 1024]
-    - [820, 8221.77]
+    - [847, 8221.67]
   - - [128, 2944, 1, 256]
-    - [815, 4550.52]
+    - [842, 4550.42]
   - - [128, 6784, 1, 128]
-    - [720, 2767.76]
+    - [747, 2767.66]
   - - [3584, 4288, 1, 256]
-    - [819, 8808.64]
+    - [846, 8808.54]
   - - [448, 1856, 1, 256]
-    - [824, 5166.63]
+    - [851, 5166.53]
   - - [1856, 6784, 1, 3328]
-    - [816, 8339.76]
+    - [843, 8339.66]
   - - [3584, 128, 1, 3328]
-    - [825, 6791.57]
+    - [852, 6791.47]
   - - [64, 1856, 1, 256]
-    - [747, 2210.03]
+    - [774, 2209.93]
   - - [64, 448, 1, 256]
-    - [779, 1008.35]
+    - [806, 1008.25]
   - - [5888, 4288, 1, 256]
-    - [819, 8869.63]
+    - [846, 8869.53]
   - - [128, 1500, 1, 1280]
-    - [776, 4733.54]
+    - [803, 4733.44]
   - - [5056, 1408, 1, 256]
-    - [817, 7523.31]
+    - [844, 7523.21]
   - - [35, 8457, 1, 4096]
-    - [710, 4023.17]
+    - [737, 4023.07]
   - - [64, 256, 1, 1280]
-    - [771, 1941.91]
+    - [798, 1941.81]
   - - [2944, 4, 1, 128]
-    - [850, 95.7426]
+    - [877, 95.6426]
   - - [3584, 1024, 1, 256]
-    - [842, 6553.68]
+    - [869, 6553.58]
   - - [512, 6000, 1, 1536]
-    - [816, 7357.25]
+    - [843, 7357.15]
   - - [256, 704, 1, 256]
-    - [815, 2912.81]
+    - [842, 2912.71]
   - - [5888, 5888, 1, 256]
-    - [826, 8802.7]
+    - [853, 8802.6]
   - - [4288, 1024, 1, 1280]
-    - [819, 8248.83]
+    - [846, 8248.73]
   - - [5888, 128, 1, 3328]
-    - [769, 6848.59]
+    - [796, 6848.49]
   - - [448, 6784, 1, 3328]
-    - [815, 8343.78]
+    - [842, 8343.68]
   - - [2944, 1408, 1, 1280]
-    - [812, 9229.48]
+    - [839, 9229.38]
   - - [3072, 6000, 1, 1024]
-    - [833, 9015.01]
+    - [860, 9014.91]
   - - [1024, 32, 1, 512]
-    - [754, 1498.07]
+    - [781, 1497.97]
   - - [2944, 1856, 1, 3328]
-    - [829, 7176.48]
+    - [856, 7176.38]
   - - [2368, 64, 1, 128]
-    - [720, 1206.48]
+    - [747, 1206.38]
   - - [256, 1024, 1, 128]
-    - [797, 1178.28]
+    - [824, 1178.18]
   - - [3584, 5888, 1, 1280]
-    - [819, 9023.58]
+    - [846, 9023.48]
   - - [64, 4, 1, 128]
-    - [851, 1.089372]
+    - [878, 0.989372]
   - - [6784, 1856, 1, 1280]
-    - [813, 8964.51]
+    - [840, 8964.41]
   - - [2944, 5056, 1, 256]
-    - [819, 8860.12]
+    - [846, 8860.02]
   - - [5888, 256, 1, 3328]
-    - [830, 8308.66]
+    - [857, 8308.56]
   - - [2944, 4288, 1, 128]
-    - [798, 4507.61]
+    - [825, 4507.51]
   - - [3584, 1408, 1, 256]
-    - [813, 8234.71]
+    - [840, 8234.61]
   - - [704, 3584, 1, 3328]
-    - [825, 7377.26]
+    - [852, 7377.16]
   - - [5056, 448, 1, 1280]
-    - [814, 7145.47]
+    - [841, 7145.37]
   - - [3584, 1856, 1, 3328]
-    - [830, 8954.81]
+    - [857, 8954.71]
   - - [64, 1408, 1, 128]
-    - [727, 731.974]
+    - [754, 731.874]
   - - [4288, 6784, 1, 1280]
-    - [819, 9166.55]
+    - [846, 9166.45]
   - - [1024, 3000, 1, 2048]
-    - [830, 7723.83]
+    - [857, 7723.73]
   - - [1408, 704, 1, 1280]
-    - [820, 7863.1]
+    - [847, 7863.0]
   - - [2944, 1024, 1, 256]
-    - [813, 5035.02]
+    - [840, 5034.92]
   - - [256, 64, 1, 128]
-    - [719, 150.757]
+    - [746, 150.657]
   - - [2368, 4288, 1, 3328]
-    - [817, 8568.84]
+    - [844, 8568.74]
   - - [4, 1408, 1, 256]
-    - [763, 219.885]
+    - [790, 219.785]
   - - [1024, 1408, 1, 1280]
-    - [845, 6761.13]
+    - [872, 6761.03]
   - - [64, 64, 1, 256]
-    - [745, 198.694]
+    - [772, 198.594]
   - - [704, 256, 1, 3328]
-    - [815, 4291.62]
+    - [842, 4291.52]
   - - [6784, 5056, 1, 256]
-    - [814, 8545.02]
+    - [841, 8544.92]
   - - [1856, 1856, 1, 128]
-    - [802, 4034.93]
+    - [829, 4034.83]
   - - [4288, 5888, 1, 256]
-    - [833, 8998.05]
+    - [860, 8997.95]
   - - [4, 704, 1, 3328]
-    - [768, 452.4]
+    - [795, 452.3]
   - - [35, 8457, 1, 2048]
-    - [711, 3375.37]
+    - [738, 3375.27]
   - - [448, 2944, 1, 256]
-    - [815, 6346.74]
+    - [842, 6346.64]
   - - [4, 4288, 1, 3328]
-    - [768, 630.978]
+    - [795, 630.878]
   - - [2944, 6784, 1, 256]
-    - [842, 8002.92]
+    - [869, 8002.82]
   - - [2944, 2944, 1, 128]
-    - [797, 4661.41]
+    - [824, 4661.31]
   - - [4, 4, 1, 1280]
-    - [768, 3.14762]
+    - [795, 3.04762]
   - - [1856, 3584, 1, 1280]
-    - [812, 8677.66]
+    - [839, 8677.56]
   - - [64, 2944, 1, 256]
-    - [815, 2926.95]
+    - [842, 2926.85]
   - - [3584, 1408, 1, 1280]
-    - [826, 8238.9]
+    - [853, 8238.8]
   - - [448, 256, 1, 128]
-    - [727, 1042.72]
+    - [754, 1042.62]
   - - [4288, 448, 1, 128]
-    - [803, 3698.82]
+    - [830, 3698.72]
   - - [5056, 256, 1, 1280]
-    - [820, 7058.5]
+    - [847, 7058.4]
   - - [1856, 1408, 1, 3328]
-    - [817, 8348.35]
+    - [844, 8348.25]
   - - [128, 128, 1, 128]
-    - [727, 145.736]
+    - [754, 145.636]
   - - [1024, 4288, 1, 3328]
-    - [813, 8042.61]
+    - [840, 8042.51]
   - - [448, 2368, 1, 256]
-    - [825, 5935.0]
+    - [852, 5934.9]
   - - [1024, 4, 1, 128]
-    - [851, 15.93]
+    - [878, 15.83]
   - - [64, 1408, 1, 1280]
-    - [749, 3865.49]
+    - [776, 3865.39]
   - - [64, 6784, 1, 1280]
-    - [845, 5629.61]
+    - [872, 5629.51]
   - - [5056, 448, 1, 256]
-    - [815, 7637.91]
+    - [842, 7637.81]
   - - [2944, 2368, 1, 3328]
-    - [823, 9112.44]
+    - [850, 9112.34]
   - - [704, 4288, 1, 3328]
-    - [815, 7950.2]
+    - [842, 7950.1]
   - - [1408, 128, 1, 256]
-    - [815, 2898.17]
+    - [842, 2898.07]
   - - [1024, 1856, 1, 1280]
-    - [813, 8087.51]
+    - [840, 8087.41]
   - - [6784, 1856, 1, 256]
-    - [844, 7538.25]
+    - [871, 7538.15]
   - - [512, 48000, 1, 2816]
-    - [812, 9704.21]
+    - [839, 9704.11]
   - - [512, 3000, 1, 2816]
-    - [814, 7621.63]
+    - [841, 7621.53]
   - - [128, 2368, 1, 3328]
-    - [777, 6038.94]
+    - [804, 6038.84]
   - - [1024, 5888, 1, 256]
-    - [829, 8185.82]
+    - [856, 8185.72]
   - - [64, 2944, 1, 1280]
-    - [776, 4540.24]
+    - [803, 4540.14]
   - - [6784, 1408, 1, 256]
-    - [829, 8574.0]
+    - [856, 8573.9]
   - - [5056, 64, 1, 3328]
-    - [777, 6310.97]
+    - [804, 6310.87]
   - - [128, 704, 1, 128]
-    - [716, 696.618]
+    - [743, 696.518]
   - - [1408, 2368, 1, 256]
-    - [815, 4995.06]
+    - [842, 4994.96]
   - - [1408, 1408, 1, 256]
-    - [812, 7552.34]
+    - [839, 7552.24]
   - - [4, 64, 1, 128]
-    - [850, 1.90441]
+    - [877, 1.80441]
   - - [64, 128, 1, 1280]
-    - [789, 1272.64]
+    - [816, 1272.54]
   - - [1024, 8, 1, 500000]
-    - [697, 2013.23]
+    - [724, 2013.13]
   - - [4, 2368, 1, 128]
-    - [851, 49.9526]
+    - [878, 49.8526]
   - - [2368, 2368, 1, 128]
-    - [802, 4483.8]
+    - [829, 4483.7]
   - - [64, 5888, 1, 128]
-    - [719, 1957.67]
+    - [746, 1957.57]
   - - [5888, 4, 1, 3328]
-    - [852, 638.798]
+    - [879, 638.698]
   - - [6784, 1408, 1, 128]
-    - [797, 4715.61]
+    - [824, 4715.51]
   - - [1408, 5056, 1, 256]
-    - [829, 8557.67]
+    - [856, 8557.57]
   - - [512, 50176, 1, 128]
-    - [860, 8809.39]
+    - [887, 8809.29]
   - - [5056, 128, 1, 3328]
-    - [752, 6810.66]
+    - [779, 6810.56]
   - - [128, 128, 1, 1280]
-    - [786, 1899.69]
+    - [813, 1899.59]
   - - [512, 2, 1, 512]
-    - [706, 87.4813]
+    - [733, 87.3813]
   - - [448, 704, 1, 256]
-    - [825, 3765.97]
+    - [852, 3765.87]
   - - [4288, 3584, 1, 128]
-    - [810, 4563.77]
+    - [837, 4563.67]
   - - [2944, 128, 1, 3328]
-    - [752, 6507.45]
+    - [779, 6507.35]
   - - [128, 5056, 1, 1280]
-    - [815, 6557.85]
+    - [842, 6557.75]
   - - [3584, 5056, 1, 1280]
-    - [812, 9407.93]
+    - [839, 9407.83]
   - - [256, 448, 1, 1280]
-    - [776, 4096.1]
+    - [803, 4096.0]
   - - [704, 704, 1, 128]
-    - [802, 2374.31]
+    - [829, 2374.21]
   - - [5056, 4, 1, 128]
-    - [850, 125.52]
+    - [877, 125.42]
   - - [704, 256, 1, 1280]
-    - [825, 4016.23]
+    - [852, 4016.13]
   - - [64, 2368, 1, 3328]
-    - [782, 5159.29]
+    - [809, 5159.19]
   - - [1856, 1024, 1, 128]
-    - [802, 3356.47]
+    - [829, 3356.37]
   - - [1856, 64, 1, 128]
-    - [719, 945.644]
+    - [746, 945.544]
   - - [4096, 64, 1, 4096]
-    - [785, 6260.24]
+    - [812, 6260.14]
   - - [1024, 24000, 1, 1536]
-    - [829, 9368.5]
+    - [856, 9368.4]
   - - [704, 4288, 1, 256]
-    - [826, 7329.39]
+    - [853, 7329.29]
   - - [5888, 2368, 1, 1280]
-    - [815, 8624.71]
+    - [842, 8624.61]
   - - [6784, 1856, 1, 3328]
-    - [819, 9012.45]
+    - [846, 9012.35]
   - - [64, 128, 1, 256]
-    - [745, 374.591]
+    - [772, 374.491]
   - - [2368, 5888, 1, 1280]
-    - [813, 9045.76]
+    - [840, 9045.66]
   - - [5888, 256, 1, 1280]
-    - [830, 7999.17]
+    - [857, 7999.07]
   - - [4, 5888, 1, 1280]
-    - [763, 615.839]
+    - [790, 615.739]
   - - [704, 128, 1, 128]
-    - [719, 693.269]
+    - [746, 693.169]
   - - [1024, 4, 1, 1280]
-    - [858, 372.464]
+    - [885, 372.364]
   - - [2368, 1856, 1, 3328]
-    - [830, 8246.91]
+    - [857, 8246.81]
   - - [2368, 128, 1, 128]
-    - [720, 1963.53]
+    - [747, 1963.43]
   - - [2944, 704, 1, 256]
-    - [830, 7116.24]
+    - [857, 7116.14]
   - - [5056, 128, 1, 128]
-    - [723, 2519.49]
+    - [750, 2519.39]
   - - [2368, 1024, 1, 3328]
-    - [815, 7959.13]
+    - [842, 7959.03]
   - - [35, 700, 1, 2048]
-    - [711, 1766.86]
+    - [738, 1766.76]
   - - [256, 704, 1, 3328]
-    - [815, 4296.56]
+    - [842, 4296.46]
   - - [704, 3584, 1, 256]
-    - [814, 7441.61]
+    - [841, 7441.51]
   - - [704, 2944, 1, 3328]
-    - [831, 7195.81]
+    - [858, 7195.71]
   - - [6784, 1024, 1, 128]
-    - [802, 4509.18]
+    - [829, 4509.08]
   - - [256, 448, 1, 128]
-    - [727, 838.003]
+    - [754, 837.903]
   - - [448, 1024, 1, 3328]
-    - [825, 6515.65]
+    - [852, 6515.55]
   - - [2944, 1024, 1, 3328]
-    - [820, 8751.63]
+    - [847, 8751.53]
   - - [2944, 5056, 1, 128]
-    - [797, 4799.73]
+    - [824, 4799.63]
   - - [2368, 256, 1, 256]
-    - [814, 4754.67]
+    - [841, 4754.57]
   - - [1408, 6784, 1, 256]
-    - [842, 7477.09]
+    - [869, 7476.99]
   - - [6784, 1408, 1, 3328]
-    - [820, 8968.57]
+    - [847, 8968.47]
   - - [4288, 6784, 1, 128]
-    - [795, 4455.74]
+    - [822, 4455.64]
   - - [1408, 2944, 1, 128]
-    - [807, 3862.79]
+    - [834, 3862.69]
   - - [704, 64, 1, 256]
-    - [746, 1441.89]
+    - [773, 1441.79]
   - - [3072, 4, 1, 1024]
-    - [764, 711.803]
+    - [791, 711.703]
   - - [256, 2368, 1, 3328]
-    - [839, 5199.73]
+    - [866, 5199.63]
   - - [6784, 2944, 1, 1280]
-    - [823, 8914.45]
+    - [850, 8914.35]
   - - [4288, 1856, 1, 128]
-    - [803, 4683.3]
+    - [830, 4683.2]
   - - [1856, 2944, 1, 128]
-    - [797, 4589.34]
+    - [824, 4589.24]
   - - [6784, 448, 1, 128]
-    - [797, 3918.53]
+    - [824, 3918.43]
   - - [64, 3584, 1, 128]
-    - [728, 1468.11]
+    - [755, 1468.01]
   - - [448, 5056, 1, 1280]
-    - [820, 7561.4]
+    - [847, 7561.3]
   - - [4288, 5056, 1, 1280]
-    - [812, 9304.11]
+    - [839, 9304.01]
   - - [2368, 1856, 1, 128]
-    - [802, 4322.17]
+    - [829, 4322.07]
   - - [128, 448, 1, 1280]
-    - [782, 3336.48]
+    - [809, 3336.38]
   - - [4288, 704, 1, 256]
-    - [825, 7834.65]
+    - [852, 7834.55]
   - - [256, 3584, 1, 128]
-    - [798, 2500.96]
+    - [825, 2500.86]
   - - [5888, 704, 1, 256]
-    - [844, 7244.49]
+    - [871, 7244.39]
   - - [3584, 1024, 1, 128]
-    - [809, 3169.03]
+    - [836, 3168.93]
   - - [256, 5888, 1, 3328]
-    - [830, 7763.47]
+    - [857, 7763.37]
   - - [1408, 4288, 1, 3328]
-    - [812, 9273.8]
+    - [839, 9273.7]
   - - [6784, 4288, 1, 256]
-    - [820, 8825.2]
+    - [847, 8825.1]
   - - [4288, 256, 1, 128]
-    - [799, 2621.54]
+    - [826, 2621.44]
   - - [448, 1856, 1, 3328]
-    - [840, 5859.8]
+    - [867, 5859.7]
   - - [5888, 256, 1, 256]
-    - [830, 7124.84]
+    - [857, 7124.74]
   - - [1024, 4, 1, 500000]
-    - [695, 1030.2]
+    - [722, 1030.1]
   - - [6784, 1024, 1, 1280]
-    - [812, 9083.11]
+    - [839, 9083.01]
   - - [5888, 1024, 1, 128]
-    - [799, 4297.16]
+    - [826, 4297.06]
   - - [1024, 128, 1, 256]
-    - [815, 2086.82]
+    - [842, 2086.72]
   - - [512, 16, 1, 500000]
-    - [696, 3921.96]
+    - [723, 3921.86]
   - - [128, 64, 1, 3328]
-    - [786, 1969.97]
+    - [813, 1969.87]
   - - [448, 64, 1, 256]
-    - [771, 1092.37]
+    - [798, 1092.27]
   - - [2368, 256, 1, 128]
-    - [802, 2174.84]
+    - [829, 2174.74]
   - - [6784, 3584, 1, 1280]
-    - [812, 9558.82]
+    - [839, 9558.72]
   - - [1024, 6784, 1, 1280]
-    - [821, 8637.72]
+    - [848, 8637.62]
   - - [2944, 64, 1, 1280]
-    - [743, 4770.13]
+    - [770, 4770.03]
   - - [1408, 2944, 1, 1280]
-    - [812, 9238.47]
+    - [839, 9238.37]
   - - [256, 1856, 1, 256]
-    - [838, 4498.43]
+    - [865, 4498.33]
   - - [1408, 2368, 1, 3328]
-    - [820, 8344.97]
+    - [847, 8344.87]
   - - [2944, 4, 1, 3328]
-    - [855, 661.209]
+    - [882, 661.109]
   - - [128, 1408, 1, 3328]
-    - [783, 5641.42]
+    - [810, 5641.32]
   - - [2944, 1856, 1, 128]
-    - [797, 4488.04]
+    - [824, 4487.94]
   - - [256, 2944, 1, 128]
-    - [807, 2233.18]
+    - [834, 2233.08]
   - - [256, 6784, 1, 128]
-    - [796, 3139.9]
+    - [823, 3139.8]
   - - [2368, 4, 1, 128]
-    - [851, 38.7612]
+    - [878, 38.6612]
   - - [1408, 256, 1, 3328]
-    - [847, 4927.67]
+    - [874, 4927.57]
   - - [1856, 4, 1, 128]
-    - [851, 42.3719]
+    - [878, 42.2719]
   - - [1024, 16, 1, 512]
-    - [763, 1115.61]
+    - [790, 1115.51]
   - - [5056, 6784, 1, 128]
-    - [798, 4963.45]
+    - [825, 4963.35]
   - - [4288, 5056, 1, 128]
-    - [796, 4928.09]
+    - [823, 4927.99]
   - - [1856, 5888, 1, 128]
-    - [803, 4865.15]
+    - [830, 4865.05]
   - - [7680, 2, 1, 2560]
-    - [739, 499.612]
+    - [766, 499.512]
   - - [3584, 1856, 1, 256]
-    - [829, 7978.38]
+    - [856, 7978.28]
   - - [4288, 3584, 1, 1280]
-    - [829, 7852.26]
+    - [856, 7852.16]
   - - [2368, 448, 1, 256]
-    - [844, 5238.93]
+    - [871, 5238.83]
   - - [4288, 256, 1, 3328]
-    - [815, 6751.34]
+    - [842, 6751.24]
   - - [1856, 704, 1, 128]
-    - [797, 3525.56]
+    - [824, 3525.46]
   - - [1408, 64, 1, 256]
-    - [756, 1884.8]
+    - [783, 1884.7]
   - - [64, 1856, 1, 128]
-    - [733, 888.205]
+    - [760, 888.105]
   - - [4, 256, 1, 128]
-    - [850, 7.38178]
+    - [877, 7.28178]
   - - [512, 16, 1, 512]
-    - [763, 663.756]
+    - [790, 663.656]
   - - [704, 5888, 1, 128]
-    - [797, 4424.55]
+    - [824, 4424.45]
   - - [6784, 3584, 1, 128]
-    - [799, 3823.4]
+    - [826, 3823.3]
   - - [1024, 64, 1, 256]
-    - [741, 1379.81]
+    - [768, 1379.71]
   - - [64, 2368, 1, 256]
-    - [815, 2424.93]
+    - [842, 2424.83]
   - - [5124, 1500, 1, 2048]
-    - [833, 8391.84]
+    - [860, 8391.74]
   - - [4288, 5056, 1, 3328]
-    - [819, 9274.14]
+    - [846, 9274.04]
   - - [4, 1856, 1, 1280]
-    - [763, 453.474]
+    - [790, 453.374]
   - - [4288, 128, 1, 128]
-    - [797, 2157.8]
+    - [824, 2157.7]
   - - [512, 2, 1, 500000]
-    - [707, 516.895]
+    - [734, 516.795]
   - - [1408, 1408, 1, 128]
-    - [798, 3600.49]
+    - [825, 3600.39]
   - - [7680, 16, 1, 2560]
-    - [778, 3542.59]
+    - [805, 3542.49]
   - - [1856, 128, 1, 128]
-    - [730, 1532.8]
+    - [757, 1532.7]
   - - [5056, 2368, 1, 256]
-    - [842, 7684.07]
+    - [869, 7683.97]
   - - [4288, 704, 1, 3328]
-    - [815, 7642.96]
+    - [842, 7642.86]
   - - [448, 3584, 1, 256]
-    - [825, 6734.07]
+    - [852, 6733.97]
   - - [2368, 64, 1, 1280]
-    - [776, 3962.24]
+    - [803, 3962.14]
   - - [2368, 1024, 1, 1280]
-    - [827, 7989.64]
+    - [854, 7989.54]
   - - [2944, 1408, 1, 3328]
-    - [830, 8954.66]
+    - [857, 8954.56]
   - - [6144, 1500, 1, 2560]
-    - [848, 8170.07]
+    - [875, 8169.97]
   - - [4224, 1, 1, 128]
-    - [779, 76.9]
+    - [806, 76.8]
   - - [1024, 1408, 1, 3328]
-    - [845, 6961.38]
+    - [872, 6961.28]
   - - [2944, 5888, 1, 1280]
-    - [826, 8797.53]
+    - [853, 8797.43]
   - - [8448, 2, 1, 2816]
-    - [701, 496.958]
+    - [728, 496.858]
   - - [1408, 4, 1, 1280]
-    - [856, 471.891]
+    - [883, 471.791]
   - - [5888, 3584, 1, 256]
-    - [833, 8246.3]
+    - [860, 8246.2]
   - - [2368, 5056, 1, 128]
-    - [796, 4906.9]
+    - [823, 4906.8]
   - - [1408, 1856, 1, 3328]
-    - [820, 9006.8]
+    - [847, 9006.7]
   - - [4, 4, 1, 3328]
-    - [768, 5.83793]
+    - [795, 5.73793]
   - - [5888, 5056, 1, 3328]
-    - [833, 8545.1]
+    - [860, 8545.0]
   - - [7680, 6000, 1, 2560]
-    - [826, 7996.0]
+    - [853, 7995.9]
   - - [6784, 1408, 1, 1280]
-    - [820, 8888.13]
+    - [847, 8888.03]
   - - [4, 1024, 1, 1280]
-    - [768, 302.109]
+    - [795, 302.009]
   - - [512, 3000, 1, 2560]
-    - [820, 7809.43]
+    - [847, 7809.33]
   - - [704, 2944, 1, 256]
-    - [825, 4909.24]
+    - [852, 4909.14]
   - - [4288, 64, 1, 256]
-    - [825, 3264.72]
+    - [852, 3264.62]
   - - [6784, 5888, 1, 3328]
-    - [833, 9544.52]
+    - [860, 9544.42]
   - - [2368, 4288, 1, 128]
-    - [796, 4873.03]
+    - [823, 4872.93]
   - - [64, 4288, 1, 1280]
-    - [782, 4656.42]
+    - [809, 4656.32]
   - - [6784, 64, 1, 1280]
-    - [815, 6230.43]
+    - [842, 6230.33]
   - - [3584, 128, 1, 128]
-    - [723, 2315.57]
+    - [750, 2315.47]
   - - [1024, 6784, 1, 128]
-    - [797, 3758.94]
+    - [824, 3758.84]
   - - [1024, 1500, 1, 1536]
-    - [846, 6972.0]
+    - [873, 6971.9]
   - - [1408, 64, 1, 3328]
-    - [749, 5079.58]
+    - [776, 5079.48]
   - - [6784, 4, 1, 256]
-    - [735, 487.938]
+    - [762, 487.838]
   - - [1408, 1408, 1, 1280]
-    - [848, 7423.31]
+    - [875, 7423.21]
   - - [256, 2368, 1, 256]
-    - [815, 4986.9]
+    - [842, 4986.8]
   - - [3072, 3000, 1, 1024]
-    - [817, 7844.01]
+    - [844, 7843.91]
   - - [448, 4288, 1, 3328]
-    - [816, 7204.79]
+    - [843, 7204.69]
   - - [2368, 1408, 1, 256]
-    - [848, 5897.96]
+    - [875, 5897.86]
   - - [704, 2368, 1, 256]
-    - [815, 7000.93]
+    - [842, 7000.83]
   - - [1024, 24000, 1, 2560]
-    - [842, 8562.31]
+    - [869, 8562.21]
   - - [2944, 448, 1, 1280]
-    - [830, 7155.93]
+    - [857, 7155.83]
   - - [5888, 2368, 1, 3328]
-    - [829, 9252.42]
+    - [856, 9252.32]
   - - [1024, 256, 1, 128]
-    - [811, 1255.88]
+    - [838, 1255.78]
   - - [5124, 9124, 1, 1760]
-    - [823, 9168.49]
+    - [850, 9168.39]
   - - [448, 1408, 1, 1280]
-    - [815, 6150.34]
+    - [842, 6150.24]
   - - [448, 1856, 1, 1280]
-    - [830, 6489.76]
+    - [857, 6489.66]
   - - [4288, 448, 1, 1280]
-    - [845, 6887.02]
+    - [872, 6886.92]
   - - [5888, 704, 1, 3328]
-    - [825, 8230.64]
+    - [852, 8230.54]
   - - [4, 1856, 1, 128]
-    - [851, 27.0964]
+    - [878, 26.9964]
   - - [5056, 256, 1, 128]
-    - [796, 3469.01]
+    - [823, 3468.91]
   - - [1856, 256, 1, 128]
-    - [797, 2534.16]
+    - [824, 2534.06]
   - - [128, 2368, 1, 256]
-    - [815, 3660.22]
+    - [842, 3660.12]
   - - [704, 4, 1, 256]
-    - [763, 134.596]
+    - [790, 134.496]
   - - [1024, 6784, 1, 3328]
-    - [817, 8482.75]
+    - [844, 8482.65]
   - - [1408, 5888, 1, 128]
-    - [797, 4644.52]
+    - [824, 4644.42]
   - - [4288, 4, 1, 128]
-    - [850, 35.8799]
+    - [877, 35.7799]
   - - [512, 3136, 1, 2048]
-    - [862, 6386.69]
+    - [889, 6386.59]
   - - [1408, 1024, 1, 256]
-    - [815, 5440.82]
+    - [842, 5440.72]
   - - [128, 64, 1, 256]
-    - [745, 380.019]
+    - [772, 379.919]
   - - [8448, 1500, 1, 2816]
-    - [812, 9155.92]
+    - [839, 9155.82]
   - - [256, 704, 1, 128]
-    - [797, 895.623]
+    - [824, 895.523]
   - - [2560, 7000, 1, 2560]
-    - [824, 8565.66]
+    - [851, 8565.56]
   - - [5888, 64, 1, 1280]
-    - [839, 5007.83]
+    - [866, 5007.73]
   - - [128, 4, 1, 3328]
-    - [858, 165.21]
+    - [885, 165.11]
   - - [5056, 6784, 1, 1280]
-    - [823, 9331.48]
+    - [850, 9331.38]
   - - [1024, 448, 1, 1280]
-    - [825, 6501.46]
+    - [852, 6501.36]
   - - [704, 5056, 1, 3328]
-    - [812, 8090.13]
+    - [839, 8090.03]
   - - [128, 5056, 1, 256]
-    - [825, 5537.37]
+    - [852, 5537.27]
   - - [3584, 5056, 1, 3328]
-    - [821, 8633.24]
+    - [848, 8633.14]
   - - [1856, 4, 1, 3328]
-    - [859, 582.814]
+    - [886, 582.714]
   - - [4, 2944, 1, 128]
-    - [850, 114.292]
+    - [877, 114.192]
   - - [2368, 2944, 1, 3328]
-    - [829, 8749.55]
+    - [856, 8749.45]
   - - [448, 448, 1, 1280]
-    - [753, 4694.93]
+    - [780, 4694.83]
   - - [128, 4, 1, 128]
-    - [850, 4.94734]
+    - [877, 4.84734]
   - - [2368, 3584, 1, 256]
-    - [829, 8418.59]
+    - [856, 8418.49]
   - - [4608, 3000, 1, 1536]
-    - [819, 9076.47]
+    - [846, 9076.37]
   - - [1024, 256, 1, 1280]
-    - [825, 5562.84]
+    - [852, 5562.74]
   - - [5056, 3584, 1, 1280]
-    - [819, 8365.09]
+    - [846, 8364.99]
   - - [5124, 9124, 1, 4096]
-    - [829, 8648.58]
+    - [856, 8648.48]
   - - [7680, 48000, 1, 2560]
-    - [823, 4098.26]
+    - [850, 4098.16]
   - - [1856, 704, 1, 1280]
-    - [815, 8141.04]
+    - [842, 8140.94]
   - - [1856, 2944, 1, 1280]
-    - [817, 8214.4]
+    - [844, 8214.3]
   - - [4608, 1500, 1, 1536]
-    - [825, 8424.53]
+    - [852, 8424.43]
   - - [1024, 48000, 1, 2816]
-    - [816, 8513.18]
+    - [843, 8513.08]
   - - [5124, 9124, 1, 2560]
-    - [833, 8641.24]
+    - [860, 8641.14]
   - - [128, 1024, 1, 256]
-    - [747, 2356.45]
+    - [774, 2356.35]
   - - [2944, 1408, 1, 256]
-    - [829, 8254.29]
+    - [856, 8254.19]
   - - [4288, 1408, 1, 3328]
-    - [823, 9138.49]
+    - [850, 9138.39]
   - - [3584, 64, 1, 3328]
-    - [736, 5629.62]
+    - [763, 5629.52]
   - - [5888, 2944, 1, 128]
-    - [797, 4119.33]
+    - [824, 4119.23]
   - - [2944, 1024, 1, 128]
-    - [799, 4002.96]
+    - [826, 4002.86]
   - - [128, 1, 1, 1024]
-    - [793, 20.0805]
+    - [820, 19.9805]
   - - [5124, 700, 1, 2048]
-    - [830, 7653.84]
+    - [857, 7653.74]
   - - [4, 4288, 1, 1280]
-    - [763, 587.749]
+    - [790, 587.649]
   - - [6784, 5056, 1, 128]
-    - [802, 4855.85]
+    - [829, 4855.75]
   - - [256, 1024, 1, 3328]
-    - [825, 6116.28]
+    - [852, 6116.18]
   - - [3584, 4, 1, 256]
-    - [737, 395.576]
+    - [764, 395.476]
   - - [1856, 64, 1, 3328]
-    - [752, 5732.6]
+    - [779, 5732.5]
   - - [4, 128, 1, 3328]
-    - [858, 162.689]
+    - [885, 162.589]
   - - [256, 12544, 1, 1024]
-    - [862, 7628.92]
+    - [889, 7628.82]
   - - [5888, 1408, 1, 3328]
-    - [823, 9524.43]
+    - [850, 9524.33]
   - - [448, 2944, 1, 128]
-    - [797, 3163.91]
+    - [824, 3163.81]
   - - [2368, 1856, 1, 256]
-    - [825, 8167.36]
+    - [852, 8167.26]
   - - [256, 5056, 1, 256]
-    - [815, 7292.13]
+    - [842, 7292.03]
   - - [5056, 5056, 1, 128]
-    - [803, 5043.99]
+    - [830, 5043.89]
   - - [448, 3584, 1, 3328]
-    - [820, 6839.56]
+    - [847, 6839.46]
   - - [4, 5056, 1, 3328]
-    - [768, 639.886]
+    - [795, 639.786]
   - - [256, 256, 1, 128]
-    - [727, 554.902]
+    - [754, 554.802]
   - - [5888, 256, 1, 128]
-    - [799, 3562.47]
+    - [826, 3562.37]
   - - [4, 5056, 1, 128]
-    - [850, 149.907]
+    - [877, 149.807]
   - - [448, 256, 1, 256]
-    - [746, 2121.5]
+    - [773, 2121.4]
   - - [704, 4, 1, 3328]
-    - [856, 455.919]
+    - [883, 455.819]
   - - [1408, 256, 1, 256]
-    - [815, 4352.68]
+    - [842, 4352.58]
   - - [3584, 1856, 1, 128]
-    - [806, 3933.23]
+    - [833, 3933.13]
   - - [4288, 4288, 1, 128]
-    - [797, 4888.61]
+    - [824, 4888.51]
   - - [1856, 1024, 1, 3328]
-    - [833, 8242.64]
+    - [860, 8242.54]
   - - [1856, 4288, 1, 128]
-    - [802, 4647.4]
+    - [829, 4647.3]
   - - [1024, 6000, 1, 2560]
-    - [827, 8526.75]
+    - [854, 8526.65]
   - - [1024, 5056, 1, 256]
-    - [812, 7343.83]
+    - [839, 7343.73]
   - - [5056, 5888, 1, 128]
-    - [801, 4053.5]
+    - [828, 4053.4]
   - - [2368, 1408, 1, 3328]
-    - [815, 8466.2]
+    - [842, 8466.1]
   - - [1024, 48000, 1, 1536]
-    - [833, 9487.74]
+    - [860, 9487.64]
   - - [5888, 448, 1, 256]
-    - [846, 6081.54]
+    - [873, 6081.44]
   - - [5888, 6784, 1, 128]
-    - [798, 4820.27]
+    - [825, 4820.17]
   - - [2368, 4, 1, 3328]
-    - [857, 620.628]
+    - [884, 620.528]
   - - [6784, 5056, 1, 1280]
-    - [842, 8525.5]
+    - [869, 8525.4]
   - - [5056, 704, 1, 1280]
-    - [812, 7933.06]
+    - [839, 7932.96]
   - - [1024, 48000, 1, 2560]
-    - [833, 8877.94]
+    - [860, 8877.84]
   - - [4608, 32, 1, 1536]
-    - [762, 3556.83]
+    - [789, 3556.73]
   - - [1024, 2368, 1, 128]
-    - [805, 2943.75]
+    - [832, 2943.65]
   - - [128, 704, 1, 256]
-    - [746, 2059.8]
+    - [773, 2059.7]
   - - [2368, 448, 1, 3328]
-    - [825, 5290.42]
+    - [852, 5290.32]
   - - [128, 5888, 1, 3328]
-    - [825, 7764.43]
+    - [852, 7764.33]
   - - [448, 128, 1, 1280]
-    - [776, 3373.28]
+    - [803, 3373.18]
   - - [6784, 4, 1, 3328]
-    - [735, 676.063]
+    - [762, 675.963]
   - - [4288, 4, 1, 1280]
-    - [768, 564.775]
+    - [795, 564.675]
   - - [1024, 64, 1, 3328]
-    - [782, 4293.48]
+    - [809, 4293.38]
   - - [3072, 48000, 1, 1024]
-    - [832, 7826.51]
+    - [859, 7826.41]
   - - [256, 4, 1, 128]
-    - [851, 4.93304]
+    - [878, 4.83304]
   - - [1024, 5888, 1, 128]
-    - [810, 3610.46]
+    - [837, 3610.36]
   - - [3584, 5888, 1, 128]
-    - [798, 4722.35]
+    - [825, 4722.25]
   - - [5056, 5888, 1, 256]
-    - [833, 9159.11]
+    - [860, 9159.01]
   - - [2368, 1024, 1, 256]
-    - [825, 7482.71]
+    - [852, 7482.61]
   - - [2944, 1856, 1, 256]
-    - [829, 8209.0]
+    - [856, 8208.9]
   - - [1856, 6784, 1, 1280]
-    - [825, 8205.43]
+    - [852, 8205.33]
   - - [64, 5056, 1, 128]
-    - [720, 2079.35]
+    - [747, 2079.25]
   - - [64, 6784, 1, 128]
-    - [720, 2437.58]
+    - [747, 2437.48]
   - - [448, 704, 1, 128]
-    - [796, 1506.45]
+    - [823, 1506.35]
   - - [4, 1024, 1, 128]
-    - [851, 17.3463]
+    - [878, 17.2463]
   - - [1408, 448, 1, 256]
-    - [815, 5545.45]
+    - [842, 5545.35]
   - - [1408, 704, 1, 128]
-    - [801, 2931.65]
+    - [828, 2931.55]
   - - [64, 256, 1, 3328]
-    - [787, 2816.52]
+    - [814, 2816.42]
   - - [8448, 3000, 1, 2816]
-    - [821, 8872.99]
+    - [848, 8872.89]
   - - [6784, 448, 1, 3328]
-    - [815, 7555.48]
+    - [842, 7555.38]
   - - [5056, 1856, 1, 1280]
-    - [813, 8652.36]
+    - [840, 8652.26]
   - - [1408, 1024, 1, 3328]
-    - [817, 7781.42]
+    - [844, 7781.32]
   - - [2368, 256, 1, 3328]
-    - [821, 5392.06]
+    - [848, 5391.96]
   - - [7680, 1500, 1, 2560]
-    - [819, 8919.72]
+    - [846, 8919.62]
   - - [5888, 3584, 1, 1280]
-    - [819, 9235.85]
+    - [846, 9235.75]
   - - [1856, 3584, 1, 3328]
-    - [830, 8348.83]
+    - [857, 8348.73]
   - - [5888, 128, 1, 1280]
-    - [815, 5928.61]
+    - [842, 5928.51]
   - - [1024, 2944, 1, 256]
-    - [846, 6630.27]
+    - [873, 6630.17]
   - - [448, 6784, 1, 1280]
-    - [827, 8332.45]
+    - [854, 8332.35]
   - - [256, 3584, 1, 1280]
-    - [817, 7140.19]
+    - [844, 7140.09]
   - - [448, 128, 1, 128]
-    - [719, 552.813]
+    - [746, 552.713]
   - - [704, 5056, 1, 256]
-    - [825, 7959.68]
+    - [852, 7959.58]
   - - [3584, 1024, 1, 3328]
-    - [817, 8386.84]
+    - [844, 8386.74]
   - - [2944, 1856, 1, 1280]
-    - [833, 7670.29]
+    - [860, 7670.19]
   - - [128, 256, 1, 128]
-    - [734, 258.37]
+    - [761, 258.27]
   - - [5056, 256, 1, 256]
-    - [825, 5736.77]
+    - [852, 5736.67]
   - - [2944, 4288, 1, 3328]
-    - [812, 8730.8]
+    - [839, 8730.7]
   - - [2368, 3584, 1, 3328]
-    - [814, 8437.71]
+    - [841, 8437.61]
   - - [2944, 704, 1, 1280]
-    - [825, 8342.53]
+    - [852, 8342.43]
   - - [128, 4, 1, 256]
-    - [745, 24.9242]
+    - [772, 24.8242]
   - - [2944, 3584, 1, 1280]
-    - [827, 8322.11]
+    - [854, 8322.01]
   - - [1856, 5888, 1, 1280]
-    - [812, 8911.91]
+    - [839, 8911.81]
   - - [256, 256, 1, 1280]
-    - [776, 3653.67]
+    - [803, 3653.57]
   - - [4608, 24000, 1, 1536]
-    - [826, 8931.06]
+    - [853, 8930.96]
   - - [4288, 1408, 1, 256]
-    - [813, 8338.45]
+    - [840, 8338.35]
   - - [3584, 64, 1, 256]
-    - [825, 3414.07]
+    - [852, 3413.97]
   - - [64, 1856, 1, 3328]
-    - [752, 5460.23]
+    - [779, 5460.13]
   - - [256, 1408, 1, 128]
-    - [796, 1424.09]
+    - [823, 1423.99]
   - - [5888, 1408, 1, 128]
-    - [807, 4177.88]
+    - [834, 4177.78]
   - - [4288, 2368, 1, 1280]
-    - [816, 8596.05]
+    - [843, 8595.95]
   - - [4, 4288, 1, 256]
-    - [852, 370.954]
+    - [879, 370.854]
   - - [256, 4288, 1, 128]
-    - [797, 2907.99]
+    - [824, 2907.89]
   - - [256, 128, 1, 3328]
-    - [790, 3644.88]
+    - [817, 3644.78]
   - - [512, 8, 1, 500000]
-    - [702, 2025.89]
+    - [729, 2025.79]
   - - [6784, 2368, 1, 256]
-    - [815, 8470.41]
+    - [842, 8470.31]
   - - [5888, 128, 1, 128]
-    - [720, 2604.55]
+    - [747, 2604.45]
   - - [1408, 448, 1, 3328]
-    - [825, 6540.62]
+    - [852, 6540.52]
   - - [1024, 24000, 1, 2816]
-    - [842, 8364.03]
+    - [869, 8363.93]
   - - [704, 1024, 1, 1280]
-    - [825, 7277.28]
+    - [852, 7277.18]
   - - [1856, 256, 1, 3328]
-    - [815, 7039.14]
+    - [842, 7039.04]
   - - [1856, 2944, 1, 256]
-    - [824, 8151.59]
+    - [851, 8151.49]
   - - [5056, 1024, 1, 128]
-    - [798, 4422.82]
+    - [825, 4422.72]
   - - [64, 5888, 1, 1280]
-    - [776, 4854.62]
+    - [803, 4854.52]
   - - [7680, 3000, 1, 2560]
-    - [829, 8789.57]
+    - [856, 8789.47]
   - - [4224, 1500, 1, 176]
-    - [825, 7902.14]
+    - [852, 7902.04]
   - - [5124, 700, 1, 2560]
-    - [815, 8232.59]
+    - [842, 8232.49]
   - - [6784, 256, 1, 128]
-    - [796, 3548.92]
+    - [823, 3548.82]
   - - [5888, 704, 1, 128]
-    - [803, 3959.65]
+    - [830, 3959.55]
   - - [6784, 64, 1, 128]
-    - [731, 2150.82]
+    - [758, 2150.72]
   - - [4, 448, 1, 1280]
-    - [856, 268.063]
+    - [883, 267.963]
   - - [1024, 4288, 1, 1280]
-    - [830, 8363.72]
+    - [857, 8363.62]
   - - [2368, 5056, 1, 3328]
-    - [829, 8581.85]
+    - [856, 8581.75]
   - - [448, 4, 1, 128]
-    - [850, 16.8673]
+    - [877, 16.7673]
   - - [4, 256, 1, 3328]
-    - [859, 201.988]
+    - [886, 201.888]
   - - [4288, 1024, 1, 3328]
-    - [825, 8567.72]
+    - [852, 8567.62]
   - - [6144, 48000, 1, 2560]
-    - [833, 3751.68]
+    - [860, 3751.58]
   - - [1024, 5056, 1, 3328]
-    - [812, 9440.66]
+    - [839, 9440.56]
   - - [1024, 1856, 1, 3328]
-    - [833, 8244.36]
+    - [860, 8244.26]
   - - [704, 704, 1, 1280]
-    - [825, 5529.99]
+    - [852, 5529.89]
   - - [128, 2368, 1, 1280]
-    - [782, 5062.38]
+    - [809, 5062.28]
   - - [3584, 4, 1, 128]
-    - [851, 61.5949]
+    - [878, 61.4949]
   - - [3584, 256, 1, 1280]
-    - [849, 6260.24]
+    - [876, 6260.14]
   - - [4, 128, 1, 128]
-    - [850, 1.2587]
+    - [877, 1.1587]
   - - [128, 4288, 1, 3328]
-    - [761, 6186.15]
+    - [788, 6186.05]
   - - [5124, 1500, 1, 2560]
-    - [829, 8432.62]
+    - [856, 8432.52]
   - - [3584, 128, 1, 1280]
-    - [815, 6547.85]
+    - [842, 6547.75]
   - - [4, 256, 1, 1280]
-    - [768, 180.144]
+    - [795, 180.044]
   - - [128, 704, 1, 3328]
-    - [740, 5177.81]
+    - [767, 5177.71]
   - - [4288, 6784, 1, 256]
-    - [813, 9005.34]
+    - [840, 9005.24]
   - - [3584, 2944, 1, 3328]
-    - [830, 8872.27]
+    - [857, 8872.17]
   - - [128, 1856, 1, 256]
-    - [815, 3690.48]
+    - [842, 3690.38]
   - - [64, 4288, 1, 256]
-    - [815, 3007.57]
+    - [842, 3007.47]
   - - [4, 3584, 1, 3328]
-    - [745, 639.99]
+    - [772, 639.89]
   - - [64, 4, 1, 3328]
-    - [859, 98.7074]
+    - [886, 98.6074]
   - - [4, 64, 1, 3328]
-    - [859, 91.9069]
+    - [886, 91.8069]
   - - [35, 700, 1, 2560]
-    - [713, 2397.65]
+    - [740, 2397.55]
   - - [5888, 2944, 1, 256]
-    - [823, 9031.28]
+    - [850, 9031.18]
   - - [4, 2368, 1, 256]
-    - [763, 256.968]
+    - [790, 256.868]
   - - [1856, 64, 1, 256]
-    - [747, 2222.96]
+    - [774, 2222.86]
   - - [5056, 128, 1, 1280]
-    - [815, 6557.85]
+    - [842, 6557.75]
   - - [448, 4288, 1, 1280]
-    - [839, 6891.66]
+    - [866, 6891.56]
   - - [256, 4288, 1, 256]
-    - [815, 6250.51]
+    - [842, 6250.41]
   - - [1024, 4288, 1, 128]
-    - [799, 3951.41]
+    - [826, 3951.31]
   - - [4, 1024, 1, 256]
-    - [763, 182.144]
+    - [790, 182.044]
   - - [5056, 4288, 1, 256]
-    - [819, 8933.43]
+    - [846, 8933.33]
   - - [1024, 448, 1, 256]
-    - [825, 4573.33]
+    - [852, 4573.23]
   - - [1024, 3584, 1, 256]
-    - [820, 7447.18]
+    - [847, 7447.08]
   - - [2944, 128, 1, 1280]
-    - [825, 5417.27]
-  - - [49, 2048, 64, 512]
-    - [868, 5916.91]
+    - [852, 5417.17]
   - - [2560, 32, 1, 2560]
-    - [762, 4076.99]
+    - [789, 4076.89]
   - - [64, 256, 1, 256]
-    - [779, 689.953]
+    - [806, 689.853]
   - - [1024, 4, 1, 512]
-    - [771, 288.17]
+    - [798, 288.07]
   - - [128, 2368, 1, 128]
-    - [725, 1809.68]
+    - [752, 1809.58]
   - - [256, 704, 1, 1280]
-    - [815, 4033.08]
+    - [842, 4032.98]
   - - [64, 2368, 1, 128]
-    - [716, 1165.88]
+    - [743, 1165.78]
   - - [176, 1500, 1, 1408]
-    - [743, 4922.13]
+    - [770, 4922.03]
   - - [448, 5888, 1, 1280]
-    - [825, 7550.21]
+    - [852, 7550.11]
   - - [512, 3000, 1, 2048]
-    - [847, 6562.44]
+    - [874, 6562.34]
   - - [5056, 448, 1, 128]
-    - [797, 3947.97]
+    - [824, 3947.87]
   - - [4288, 704, 1, 1280]
-    - [815, 8243.82]
+    - [842, 8243.72]
   - - [3584, 2944, 1, 128]
-    - [807, 4284.88]
+    - [834, 4284.78]
   - - [6784, 256, 1, 1280]
-    - [815, 7955.21]
+    - [842, 7955.11]
   - - [256, 2944, 1, 1280]
-    - [845, 6691.9]
+    - [872, 6691.8]
   - - [2560, 128, 1, 2560]
-    - [783, 5347.23]
+    - [810, 5347.13]
   - - [2368, 5888, 1, 3328]
-    - [820, 8919.07]
+    - [847, 8918.97]
   - - [4, 64, 1, 256]
-    - [768, 13.1032]
+    - [795, 13.0032]
   - - [704, 1024, 1, 3328]
-    - [845, 6648.12]
+    - [872, 6648.02]
   - - [2368, 1856, 1, 1280]
-    - [831, 8016.51]
+    - [858, 8016.41]
   - - [448, 5056, 1, 3328]
-    - [815, 8231.73]
+    - [842, 8231.63]
   - - [128, 448, 1, 128]
-    - [724, 441.208]
+    - [751, 441.108]
   - - [128, 6784, 1, 256]
-    - [825, 5850.05]
+    - [852, 5849.95]
   - - [512, 4, 1, 500000]
-    - [705, 1027.14]
+    - [732, 1027.04]
   - - [3584, 4288, 1, 128]
-    - [801, 4260.9]
+    - [828, 4260.8]
   - - [64, 448, 1, 128]
-    - [724, 253.554]
+    - [751, 253.454]
   - - [1024, 6000, 1, 2816]
-    - [829, 8886.14]
+    - [856, 8886.04]
   - - [5888, 4288, 1, 3328]
-    - [829, 8968.16]
+    - [856, 8968.06]
   - - [2368, 704, 1, 256]
-    - [845, 4663.24]
+    - [872, 4663.14]
   - - [256, 1856, 1, 3328]
-    - [817, 6480.63]
+    - [844, 6480.53]
   - - [1856, 128, 1, 256]
-    - [815, 3726.66]
+    - [842, 3726.56]
   - - [6784, 128, 1, 128]
-    - [718, 2824.01]
+    - [745, 2823.91]
   - - [3584, 1408, 1, 128]
-    - [801, 3666.78]
+    - [828, 3666.68]
   - - [1856, 5056, 1, 1280]
-    - [812, 8651.36]
+    - [839, 8651.26]
   - - [2944, 1024, 1, 1280]
-    - [823, 8765.21]
+    - [850, 8765.11]
   - - [5056, 4, 1, 256]
-    - [737, 428.688]
+    - [764, 428.588]
   - - [3584, 5888, 1, 3328]
-    - [823, 9347.75]
+    - [850, 9347.65]
   - - [2368, 4288, 1, 256]
-    - [833, 8013.1]
+    - [860, 8013.0]
   - - [1024, 2368, 1, 3328]
-    - [820, 8119.29]
+    - [847, 8119.19]
   - - [128, 3584, 1, 128]
-    - [720, 2584.62]
+    - [747, 2584.52]
   - - [704, 1408, 1, 256]
-    - [825, 6792.27]
+    - [852, 6792.17]
   - - [4096, 128, 1, 4096]
-    - [847, 6624.84]
+    - [874, 6624.74]
   - - [1024, 2944, 1, 128]
-    - [799, 3771.37]
+    - [826, 3771.27]
   - - [1024, 3584, 1, 1280]
-    - [820, 8952.71]
+    - [847, 8952.61]
   - - [4288, 5888, 1, 3328]
-    - [833, 9048.05]
+    - [860, 9047.95]
   - - [4288, 4, 1, 3328]
-    - [738, 615.206]
+    - [765, 615.106]
   - - [4608, 16, 1, 1536]
-    - [742, 2894.94]
+    - [769, 2894.84]
   - - [5888, 64, 1, 128]
-    - [729, 1827.16]
+    - [756, 1827.06]
   - - [4, 5888, 1, 128]
-    - [850, 179.544]
+    - [877, 179.444]
   - - [1024, 2944, 1, 3328]
-    - [821, 8298.77]
+    - [848, 8298.67]
   - - [2048, 64, 1, 2048]
-    - [750, 4963.77]
+    - [777, 4963.67]
   - - [6144, 2, 1, 2560]
-    - [739, 477.88]
+    - [766, 477.78]
   - - [256, 6784, 1, 1280]
-    - [813, 7491.94]
+    - [840, 7491.84]
   - - [1856, 3584, 1, 256]
-    - [825, 7580.6]
+    - [852, 7580.5]
   - - [128, 448, 1, 3328]
-    - [776, 4417.71]
+    - [803, 4417.61]
   - - [6784, 1856, 1, 128]
-    - [804, 4621.74]
+    - [831, 4621.64]
   - - [1024, 1500, 1, 2048]
-    - [825, 6284.5]
+    - [852, 6284.4]
   - - [5056, 128, 1, 256]
-    - [825, 5705.16]
+    - [852, 5705.06]
   - - [512, 24000, 1, 2816]
-    - [812, 8919.85]
+    - [839, 8919.75]
   - - [256, 5888, 1, 1280]
-    - [827, 7978.0]
+    - [854, 7977.9]
   - - [4, 128, 1, 1280]
-    - [768, 94.2609]
+    - [795, 94.1609]
   - - [4288, 6784, 1, 3328]
-    - [833, 9012.58]
+    - [860, 9012.48]
   - - [6784, 128, 1, 1280]
-    - [817, 6807.35]
+    - [844, 6807.25]
   - - [64, 1408, 1, 256]
-    - [746, 2045.19]
+    - [773, 2045.09]
   - - [2368, 1408, 1, 128]
-    - [797, 4340.73]
+    - [824, 4340.63]
   - - [1856, 448, 1, 256]
-    - [846, 3639.99]
+    - [873, 3639.89]
   - - [1408, 1024, 1, 128]
-    - [805, 3417.68]
+    - [832, 3417.58]
   - - [128, 64, 1, 128]
-    - [726, 68.7241]
+    - [753, 68.6241]
   - - [6784, 3584, 1, 3328]
-    - [823, 9425.63]
+    - [850, 9425.53]
   - - [1760, 7000, 1, 1760]
-    - [820, 8780.41]
+    - [847, 8780.31]
   - - [1024, 704, 1, 3328]
-    - [837, 5644.6]
+    - [864, 5644.5]
   - - [64, 64, 1, 128]
-    - [716, 38.2023]
+    - [743, 38.1023]
   - - [2368, 5056, 1, 1280]
-    - [834, 8462.41]
+    - [861, 8462.31]
   - - [64, 4, 1, 1280]
-    - [768, 46.6455]
+    - [795, 46.5455]
   - - [1408, 2368, 1, 1280]
-    - [820, 8235.08]
+    - [847, 8234.98]
   - - [128, 1408, 1, 1280]
-    - [782, 4491.66]
+    - [809, 4491.56]
   - - [1024, 1, 1, 512]
-    - [786, 82.02]
+    - [813, 81.92]
   - - [4, 1408, 1, 128]
-    - [850, 56.42]
+    - [877, 56.32]
   - - [704, 4288, 1, 128]
-    - [804, 3942.96]
+    - [831, 3942.86]
   - - [128, 1856, 1, 3328]
-    - [770, 6111.93]
+    - [797, 6111.83]
   - - [2944, 2944, 1, 256]
-    - [829, 8640.22]
+    - [856, 8640.12]
   - - [2944, 4, 1, 1280]
-    - [763, 554.265]
+    - [790, 554.165]
   - - [5888, 4, 1, 256]
-    - [745, 435.744]
+    - [772, 435.644]
   - - [6784, 256, 1, 256]
-    - [825, 7025.96]
+    - [852, 7025.86]
   - - [256, 5056, 1, 3328]
-    - [825, 8249.57]
+    - [852, 8249.47]
   - - [128, 4288, 1, 1280]
-    - [815, 5561.74]
+    - [842, 5561.64]
   - - [5056, 1856, 1, 128]
-    - [809, 3975.28]
+    - [836, 3975.18]
   - - [1024, 3000, 1, 1536]
-    - [830, 8544.54]
+    - [857, 8544.44]
   - - [5056, 1024, 1, 3328]
-    - [823, 9361.47]
+    - [850, 9361.37]
   - - [128, 128, 1, 256]
-    - [775, 699.151]
+    - [802, 699.051]
   - - [1760, 64, 1, 1760]
-    - [743, 4956.26]
+    - [770, 4956.16]
   - - [4288, 3584, 1, 3328]
-    - [843, 7506.18]
+    - [870, 7506.08]
   - - [448, 704, 1, 3328]
-    - [815, 4697.66]
+    - [842, 4697.56]
   - - [448, 448, 1, 128]
-    - [732, 1249.62]
+    - [759, 1249.52]
   - - [1024, 2368, 1, 1280]
-    - [825, 7756.44]
+    - [852, 7756.34]
   - - [1856, 704, 1, 3328]
-    - [825, 8340.66]
+    - [852, 8340.56]
   - - [512, 1500, 1, 2560]
-    - [827, 6041.39]
+    - [854, 6041.29]
   - - [5888, 6784, 1, 3328]
-    - [823, 9199.38]
+    - [850, 9199.28]
   - - [704, 4288, 1, 1280]
-    - [817, 8342.06]
+    - [844, 8341.96]
   - - [128, 50176, 1, 512]
-    - [863, 7589.48]
+    - [890, 7589.38]
   - - [704, 256, 1, 256]
-    - [815, 2912.81]
+    - [842, 2912.71]
   - - [1024, 48000, 1, 2048]
-    - [820, 8947.42]
+    - [847, 8947.32]
   - - [4288, 1024, 1, 128]
-    - [796, 4291.75]
+    - [823, 4291.65]
   - - [3136, 64, 128, 64]
-    - [878, 8175.16]
+    - [905, 8175.06]
   - - [784, 128, 128, 512]
-    - [877, 8190.63]
+    - [904, 8190.53]
   - - [784, 512, 256, 128]
-    - [875, 8637.24]
+    - [902, 8637.14]
   - - [3136, 256, 256, 64]
-    - [875, 8663.18]
+    - [902, 8663.08]
   - - [3136, 64, 128, 256]
-    - [873, 8943.56]
+    - [900, 8943.46]
   - - [3136, 64, 256, 64]
-    - [878, 8267.22]
+    - [905, 8267.12]
   - - [784, 512, 128, 128]
-    - [875, 8564.35]
+    - [902, 8564.25]
   - - [784, 128, 256, 512]
-    - [879, 8377.16]
+    - [906, 8377.06]
   - - [3136, 64, 256, 256]
-    - [880, 9033.98]
+    - [907, 9033.88]
   - - [3136, 256, 128, 64]
-    - [875, 8624.56]
+    - [902, 8624.46]
   - - [1024, 256, 1, 1024]
-    - [901, 6331.13]
+    - [928, 6331.03]
   - - [1024, 512, 1, 2048]
-    - [900, 8100.14]
+    - [927, 8100.04]
   - - [512, 200, 1, 512]
-    - [909, 2861.93]
+    - [936, 2861.83]
   - - [4096, 256, 1, 2048]
-    - [892, 8812.82]
+    - [919, 8812.72]
   - - [4096, 512, 1, 1024]
-    - [902, 9068.87]
+    - [929, 9068.77]
   - - [1024, 200, 1, 1024]
-    - [901, 5110.12]
+    - [928, 5110.02]
   - - [1024, 512, 1, 1024]
-    - [894, 7785.35]
+    - [921, 7785.25]
   - - [2048, 256, 1, 4096]
-    - [904, 8438.81]
+    - [931, 8438.71]
   - - [2048, 768, 1, 512]
-    - [886, 8618.53]
+    - [913, 8618.43]
   - - [512, 256, 1, 1024]
-    - [906, 4835.03]
+    - [933, 4834.93]
   - - [512, 768, 1, 2048]
-    - [903, 6909.04]
+    - [930, 6908.94]
   - - [2048, 256, 1, 1024]
-    - [899, 7941.98]
+    - [926, 7941.88]
   - - [1024, 256, 1, 2048]
-    - [896, 6997.9]
+    - [923, 6997.8]
   - - [2048, 200, 1, 512]
-    - [899, 5649.76]
+    - [926, 5649.66]
   - - [4096, 200, 1, 1024]
-    - [897, 6678.93]
+    - [924, 6678.83]
   - - [2048, 200, 1, 4096]
-    - [905, 6706.69]
+    - [932, 6706.59]
   - - [2048, 512, 1, 1024]
-    - [902, 8549.0]
+    - [929, 8548.9]
   - - [1024, 1024, 1, 512]
-    - [897, 8046.73]
+    - [924, 8046.63]
   - - [1024, 200, 1, 4096]
-    - [896, 5884.36]
+    - [923, 5884.26]
   - - [2048, 512, 1, 4096]
-    - [907, 8995.94]
+    - [934, 8995.84]
   - - [4096, 512, 1, 2048]
-    - [902, 9298.18]
+    - [929, 9298.08]
   - - [4096, 1024, 1, 2048]
-    - [884, 9790.77]
+    - [911, 9790.67]
   - - [2048, 1024, 1, 2048]
-    - [885, 9278.9]
+    - [912, 9278.8]
   - - [1024, 200, 1, 512]
-    - [901, 4535.46]
+    - [928, 4535.36]
   - - [1024, 1024, 1, 4096]
-    - [892, 8967.39]
+    - [919, 8967.29]
   - - [2048, 1024, 1, 4096]
-    - [887, 9500.56]
+    - [914, 9500.46]
   - - [4096, 200, 1, 2048]
-    - [893, 7082.68]
+    - [920, 7082.58]
   - - [2048, 200, 1, 1024]
-    - [899, 6212.04]
+    - [926, 6211.94]
   - - [1024, 768, 1, 512]
-    - [900, 7401.81]
+    - [927, 7401.71]
   - - [2048, 512, 1, 512]
-    - [897, 8124.66]
+    - [924, 8124.56]
   - - [2048, 200, 1, 2048]
-    - [899, 6561.9]
+    - [926, 6561.8]
   - - [2048, 256, 1, 2048]
-    - [900, 8224.23]
+    - [927, 8224.13]
   - - [512, 768, 1, 512]
-    - [898, 6469.46]
+    - [925, 6469.36]
   - - [512, 200, 1, 1024]
-    - [901, 3755.74]
+    - [928, 3755.64]
   - - [4096, 1024, 1, 1024]
-    - [884, 9605.95]
+    - [911, 9605.85]
   - - [4096, 256, 1, 4096]
-    - [907, 8961.39]
+    - [934, 8961.29]
   - - [1024, 512, 1, 512]
-    - [900, 7109.09]
+    - [927, 7108.99]
   - - [512, 256, 1, 512]
-    - [908, 4033.08]
+    - [935, 4032.98]
   - - [1024, 256, 1, 4096]
-    - [896, 7326.4]
+    - [923, 7326.3]
   - - [1024, 200, 1, 2048]
-    - [889, 5530.56]
+    - [916, 5530.46]
   - - [2048, 1024, 1, 512]
-    - [890, 8995.93]
+    - [917, 8995.83]
   - - [1024, 1024, 1, 2048]
-    - [897, 8830.21]
+    - [924, 8830.11]
   - - [4096, 256, 1, 1024]
-    - [897, 8581.8]
+    - [924, 8581.7]
   - - [512, 768, 1, 1024]
-    - [898, 6876.01]
+    - [925, 6875.91]
   - - [1024, 512, 1, 4096]
-    - [894, 8484.15]
+    - [921, 8484.05]
   - - [1024, 256, 1, 512]
-    - [891, 5668.08]
+    - [918, 5667.98]
   - - [4096, 200, 1, 4096]
-    - [904, 7018.69]
+    - [931, 7018.59]
   - - [2048, 256, 1, 512]
-    - [904, 7079.09]
+    - [931, 7078.99]
   - - [512, 200, 1, 2048]
-    - [909, 4283.5]
+    - [936, 4283.4]
   - - [1024, 1024, 1, 1024]
-    - [892, 8565.37]
+    - [919, 8565.27]
   - - [2048, 512, 1, 2048]
-    - [892, 8850.59]
+    - [919, 8850.49]
   - - [4096, 1024, 1, 4096]
-    - [885, 9843.28]
+    - [912, 9843.18]
   - - [2048, 1024, 1, 1024]
-    - [890, 9234.21]
+    - [917, 9234.11]
   - - [4096, 384, 1, 2048]
-    - [932, 8892.62]
+    - [959, 8892.52]
   - - [4096, 192, 1, 2048]
-    - [926, 8024.28]
-  - - [289, 160, 64, 768]
-    - [928, 6783.73]
+    - [953, 8024.18]
   - - [1225, 192, 64, 384]
-    - [915, 9373.93]
+    - [942, 9373.83]
   - - [5329, 64, 64, 160]
-    - [919, 9186.79]
-  - - [1225, 64, 64, 288]
-    - [910, 8492.51]
+    - [946, 9186.69]
   - - [1225, 64, 64, 384]
-    - [914, 8735.86]
+    - [941, 8735.76]
   - - [289, 128, 64, 1024]
-    - [929, 7000.3]
+    - [956, 7000.2]
   - - [4096, 320, 1, 1280]
-    - [934, 8302.36]
+    - [961, 8302.26]
   - - [4096, 384, 1, 1536]
-    - [916, 9052.55]
+    - [943, 9052.45]
   - - [4096, 192, 1, 1280]
-    - [931, 7561.95]
-  - - [289, 192, 64, 768]
-    - [927, 7882.6]
-  - - [1225, 48, 64, 256]
-    - [918, 6620.35]
+    - [958, 7561.85]
   - - [289, 192, 64, 1024]
-    - [925, 7347.09]
-  - - [1225, 64, 64, 192]
-    - [911, 8098.45]
+    - [952, 7346.99]
   - - [1225, 96, 64, 384]
-    - [912, 8303.18]
-  - - [1225, 48, 64, 288]
-    - [920, 6746.87]
+    - [939, 8303.08]
   - - [4096, 320, 1, 2048]
-    - [921, 8384.52]
+    - [948, 8384.42]
   - - [4096, 256, 1, 1536]
-    - [933, 8734.44]
-  - - [1225, 48, 64, 192]
-    - [920, 6516.46]
+    - [960, 8734.34]
   - - [4096, 384, 1, 1280]
-    - [930, 9023.34]
-  - - [1225, 64, 64, 256]
-    - [917, 8319.44]
+    - [957, 9023.24]
   - - [4096, 448, 1, 1280]
-    - [921, 8343.42]
-  - - [289, 128, 64, 768]
-    - [923, 7668.08]
+    - [948, 8343.32]
   - - [289, 256, 64, 1024]
-    - [924, 7535.56]
+    - [951, 7535.46]
   - - [4096, 448, 1, 2048]
-    - [921, 8572.41]
-  - - [5329, 80, 64, 64]
-    - [920, 6492.54]
-  - - [1225, 32, 64, 192]
-    - [913, 6278.64]
+    - [948, 8572.31]
   - - [289, 384, 64, 1024]
-    - [922, 7767.67]
+    - [949, 7767.57]
   - - [1024, 3594, 1, 4096]
-    - [941, 8661.52]
+    - [968, 8661.42]
   - - [4096, 3103, 1, 1024]
-    - [951, 9652.23]
+    - [978, 9652.13]
   - - [4096, 3136, 1, 1024]
-    - [935, 9723.15]
+    - [962, 9723.05]
   - - [1024, 3141, 1, 4096]
-    - [953, 8612.12]
+    - [980, 8612.02]
   - - [64, 147, 432, 148]
-    - [968, 6372.03]
+    - [995, 6371.93]
   - - [4096, 3559, 1, 1024]
-    - [940, 9906.35]
+    - [967, 9906.25]
   - - [4096, 3368, 1, 1024]
-    - [935, 9721.01]
+    - [962, 9720.91]
   - - [1024, 3335, 1, 4096]
-    - [959, 8990.29]
+    - [986, 8990.19]
   - - [1024, 3510, 1, 4096]
-    - [959, 9440.68]
+    - [986, 9440.58]
   - - [4096, 3209, 1, 1024]
-    - [940, 9632.76]
+    - [967, 9632.66]
   - - [4096, 3322, 1, 1024]
-    - [939, 9939.52]
+    - [966, 9939.42]
   - - [1024, 3400, 1, 4096]
-    - [958, 9156.09]
+    - [985, 9155.99]
   - - [1024, 3995, 1, 4096]
-    - [941, 9610.25]
+    - [968, 9610.15]
   - - [1024, 3503, 1, 4096]
-    - [959, 9446.57]
+    - [986, 9446.47]
   - - [4096, 3594, 1, 1024]
-    - [950, 9691.96]
+    - [977, 9691.86]
   - - [4096, 3473, 1, 1024]
-    - [939, 9698.9]
+    - [966, 9698.8]
   - - [4096, 3522, 1, 1024]
-    - [940, 9816.92]
+    - [967, 9816.82]
   - - [1024, 3103, 1, 4096]
-    - [937, 8491.05]
+    - [964, 8490.95]
   - - [1024, 3214, 1, 4096]
-    - [958, 8667.67]
+    - [985, 8667.57]
   - - [4096, 3449, 1, 1024]
-    - [950, 9795.71]
+    - [977, 9795.61]
   - - [1024, 3136, 1, 4096]
-    - [959, 8500.61]
+    - [986, 8500.51]
   - - [1024, 3955, 1, 33708]
-    - [939, 9634.94]
+    - [966, 9634.84]
   - - [1024, 3780, 1, 4096]
-    - [942, 9088.88]
+    - [969, 9088.78]
   - - [1024, 3906, 1, 33708]
-    - [940, 9515.46]
+    - [967, 9515.36]
   - - [1024, 3386, 1, 4096]
-    - [959, 9116.05]
+    - [986, 9115.95]
   - - [4096, 3396, 1, 1024]
-    - [950, 9665.6]
+    - [977, 9665.5]
   - - [1024, 3183, 1, 4096]
-    - [937, 8662.94]
+    - [964, 8662.84]
   - - [1024, 3098, 1, 4096]
-    - [953, 8490.22]
+    - [980, 8490.12]
   - - [1024, 3548, 1, 4096]
-    - [959, 9555.63]
+    - [986, 9555.53]
   - - [1024, 3224, 1, 4096]
-    - [952, 8760.88]
+    - [979, 8760.78]
   - - [4096, 3469, 1, 1024]
-    - [939, 9687.21]
+    - [966, 9687.11]
   - - [1024, 3582, 1, 4096]
-    - [956, 9691.0]
+    - [983, 9690.9]
   - - [1024, 2977, 1, 4096]
-    - [941, 9379.38]
+    - [968, 9379.28]
   - - [1024, 3939, 1, 1024]
-    - [938, 9172.11]
+    - [965, 9172.01]
   - - [64, 123, 528, 123]
-    - [986, 6346.17]
+    - [1013, 6346.07]
   - - [64, 12, 5040, 12]
-    - [963, 1536.1]
+    - [990, 1536.0]
   - - [4096, 3176, 1, 1024]
-    - [951, 9712.2]
+    - [978, 9712.1]
   - - [1024, 3559, 1, 4096]
-    - [955, 9579.84]
+    - [982, 9579.74]
   - - [1024, 3478, 1, 4096]
-    - [959, 9373.85]
+    - [986, 9373.75]
   - - [4096, 3343, 1, 1024]
-    - [935, 9638.77]
+    - [962, 9638.67]
   - - [4096, 3440, 1, 1024]
-    - [935, 9853.96]
+    - [962, 9853.86]
   - - [1024, 3996, 1, 33708]
-    - [939, 9733.55]
+    - [966, 9733.45]
   - - [1024, 4012, 1, 4096]
-    - [940, 9636.99]
+    - [967, 9636.89]
   - - [1024, 3322, 1, 4096]
-    - [959, 8945.12]
+    - [986, 8945.02]
   - - [1024, 3990, 1, 33708]
-    - [939, 9720.31]
+    - [966, 9720.21]
   - - [1024, 3314, 1, 4096]
-    - [959, 8944.72]
+    - [986, 8944.62]
   - - [4096, 3513, 1, 1024]
-    - [939, 9794.95]
+    - [966, 9794.85]
   - - [1024, 3562, 1, 4096]
-    - [959, 9597.28]
+    - [986, 9597.18]
   - - [1024, 3443, 1, 4096]
-    - [959, 9279.52]
+    - [986, 9279.42]
   - - [1024, 3554, 1, 4096]
-    - [956, 9552.16]
+    - [983, 9552.06]
   - - [1024, 3063, 1, 4096]
-    - [941, 9622.58]
+    - [968, 9622.48]
   - - [64, 111, 576, 112]
-    - [986, 6274.65]
+    - [1013, 6274.55]
   - - [4096, 3460, 1, 1024]
-    - [939, 9665.69]
+    - [966, 9665.59]
   - - [1024, 3209, 1, 4096]
-    - [938, 8708.39]
+    - [965, 8708.29]
   - - [1024, 3147, 1, 4096]
-    - [959, 8492.23]
+    - [986, 8492.13]
   - - [4096, 3387, 1, 1024]
-    - [936, 9761.34]
+    - [963, 9761.24]
   - - [4096, 3436, 1, 1024]
-    - [935, 9815.15]
+    - [962, 9815.05]
   - - [1024, 3341, 1, 4096]
-    - [958, 9005.07]
+    - [985, 9004.97]
   - - [1024, 3516, 1, 4096]
-    - [958, 9471.39]
+    - [985, 9471.29]
   - - [4096, 3277, 1, 1024]
-    - [939, 9807.12]
+    - [966, 9807.02]
   - - [1024, 3454, 1, 4096]
-    - [959, 9301.03]
+    - [986, 9300.93]
   - - [1024, 3969, 1, 4096]
-    - [939, 9539.82]
+    - [966, 9539.72]
   - - [1024, 3999, 1, 4096]
-    - [940, 9607.52]
+    - [967, 9607.42]
   - - [1024, 4032, 1, 4096]
-    - [941, 9693.47]
+    - [968, 9693.37]
   - - [4096, 3541, 1, 1024]
-    - [940, 9866.73]
+    - [967, 9866.63]
   - - [4096, 3334, 1, 1024]
-    - [951, 9614.41]
+    - [978, 9614.31]
   - - [1024, 3365, 1, 4096]
-    - [959, 9058.58]
+    - [986, 9058.48]
   - - [1024, 3527, 1, 4096]
-    - [959, 9510.31]
+    - [986, 9510.21]
   - - [1024, 3190, 1, 4096]
-    - [958, 8627.8]
+    - [985, 8627.7]
   - - [4096, 3906, 1, 1024]
-    - [936, 9817.78]
+    - [963, 9817.68]
   - - [1024, 3593, 1, 4096]
-    - [941, 8663.09]
+    - [968, 8662.99]
   - - [1024, 3336, 1, 4096]
-    - [959, 8991.13]
+    - [986, 8991.03]
   - - [4096, 3504, 1, 1024]
-    - [939, 9769.86]
+    - [966, 9769.76]
   - - [4096, 3977, 1, 1024]
-    - [940, 9742.62]
+    - [967, 9742.52]
   - - [1024, 3906, 1, 4096]
-    - [940, 9386.25]
+    - [967, 9386.15]
   - - [4096, 3415, 1, 1024]
-    - [950, 9802.7]
+    - [977, 9802.6]
   - - [1024, 3295, 1, 4096]
-    - [958, 8879.26]
+    - [985, 8879.16]
   - - [4096, 3321, 1, 1024]
-    - [940, 9931.43]
+    - [967, 9931.33]
   - - [1024, 3072, 1, 4096]
-    - [941, 9671.71]
+    - [968, 9671.61]
   - - [1024, 3408, 1, 4096]
-    - [958, 9182.83]
+    - [985, 9182.73]
   - - [1024, 3522, 1, 4096]
-    - [959, 9484.63]
+    - [986, 9484.53]
   - - [4096, 3751, 1, 1024]
-    - [940, 9778.86]
+    - [967, 9778.76]
   - - [4096, 3378, 1, 1024]
-    - [950, 9692.77]
+    - [977, 9692.67]
   - - [64, 77, 816, 77]
-    - [992, 4850.29]
+    - [1019, 4850.19]
   - - [1024, 3925, 1, 33708]
-    - [939, 9560.88]
+    - [966, 9560.78]
   - - [1024, 3990, 1, 1024]
-    - [941, 9272.75]
+    - [968, 9272.65]
   - - [1024, 3290, 1, 4096]
-    - [952, 8905.61]
+    - [979, 8905.51]
   - - [4096, 3500, 1, 1024]
-    - [940, 9761.82]
+    - [967, 9761.72]
   - - [4096, 3565, 1, 1024]
-    - [939, 9919.37]
+    - [966, 9919.27]
   - - [1024, 3484, 1, 4096]
-    - [958, 9376.52]
+    - [985, 9376.42]
   - - [4096, 3395, 1, 1024]
-    - [951, 9788.16]
+    - [978, 9788.06]
   - - [64, 92, 688, 92]
-    - [978, 5606.1]
+    - [1005, 5606.0]
   - - [1024, 3681, 1, 1024]
-    - [943, 8690.23]
+    - [970, 8690.13]
   - - [64, 159, 400, 159]
-    - [970, 6518.97]
+    - [997, 6518.87]
   - - [1024, 3584, 1, 1024]
-    - [958, 9365.37]
+    - [985, 9365.27]
   - - [4096, 3093, 1, 1024]
-    - [950, 9623.41]
+    - [977, 9623.31]
   - - [1024, 4050, 1, 1024]
-    - [942, 9354.14]
+    - [969, 9354.04]
   - - [1024, 3301, 1, 4096]
-    - [959, 8889.04]
+    - [986, 8888.94]
   - - [1024, 3581, 1, 4096]
-    - [958, 9673.82]
+    - [985, 9673.72]
   - - [4096, 3374, 1, 1024]
-    - [951, 9707.33]
+    - [978, 9707.23]
   - - [1024, 3449, 1, 4096]
-    - [959, 9270.9]
+    - [986, 9270.8]
   - - [4096, 3215, 1, 1024]
-    - [940, 9645.25]
+    - [967, 9645.15]
   - - [4096, 3312, 1, 1024]
-    - [940, 9888.72]
+    - [967, 9888.62]
   - - [4096, 3479, 1, 1024]
-    - [940, 9698.61]
+    - [967, 9698.51]
   - - [4096, 3544, 1, 1024]
-    - [940, 9875.09]
+    - [967, 9874.99]
   - - [1024, 3263, 1, 4096]
-    - [959, 8787.61]
+    - [986, 8787.51]
   - - [4096, 3455, 1, 1024]
-    - [950, 9845.29]
+    - [977, 9845.19]
   - - [1024, 3379, 1, 4096]
-    - [956, 9100.01]
+    - [983, 9099.91]
   - - [1024, 3490, 1, 4096]
-    - [959, 9397.49]
+    - [986, 9397.39]
   - - [1024, 3368, 1, 4096]
-    - [959, 9079.25]
+    - [986, 9079.15]
   - - [4096, 3186, 1, 1024]
-    - [935, 9750.17]
+    - [962, 9750.07]
   - - [1024, 3428, 1, 4096]
-    - [959, 9232.92]
+    - [986, 9232.82]
   - - [64, 85, 752, 84]
-    - [974, 5342.67]
+    - [1001, 5342.57]
   - - [4096, 3561, 1, 1024]
-    - [940, 9914.02]
+    - [967, 9913.92]
   - - [4096, 3418, 1, 1024]
-    - [950, 9765.86]
+    - [977, 9765.76]
   - - [1024, 3064, 1, 4096]
-    - [941, 9621.68]
+    - [968, 9621.58]
   - - [4096, 3259, 1, 1024]
-    - [940, 9765.52]
+    - [967, 9765.42]
   - - [4096, 3308, 1, 1024]
-    - [939, 9900.46]
+    - [966, 9900.36]
   - - [1024, 3533, 1, 4096]
-    - [959, 9520.12]
+    - [986, 9520.02]
   - - [1024, 3344, 1, 4096]
-    - [959, 9014.55]
+    - [986, 9014.45]
   - - [1024, 4030, 1, 1024]
-    - [941, 9354.1]
+    - [968, 9354.0]
   - - [4096, 3459, 1, 1024]
-    - [940, 9656.2]
+    - [967, 9656.1]
   - - [1024, 3572, 1, 4096]
-    - [956, 9640.07]
+    - [983, 9639.97]
   - - [1024, 3925, 1, 1024]
-    - [952, 9173.74]
+    - [979, 9173.64]
   - - [4096, 3435, 1, 1024]
-    - [935, 9778.2]
+    - [962, 9778.1]
   - - [1024, 3956, 1, 4096]
-    - [942, 9498.56]
+    - [969, 9498.46]
   - - [1024, 3463, 1, 4096]
-    - [959, 9332.46]
+    - [986, 9332.36]
   - - [4096, 3182, 1, 1024]
-    - [950, 9826.84]
+    - [977, 9826.74]
   - - [4096, 3976, 1, 1024]
-    - [950, 9741.99]
+    - [977, 9741.89]
   - - [1024, 3417, 1, 4096]
-    - [959, 9208.97]
+    - [986, 9208.87]
   - - [1024, 3528, 1, 4096]
-    - [959, 9509.09]
+    - [986, 9508.99]
   - - [4096, 3446, 1, 1024]
-    - [950, 9816.97]
+    - [977, 9816.87]
   - - [64, 122, 528, 123]
-    - [986, 6325.98]
+    - [1013, 6325.88]
   - - [1024, 3543, 1, 4096]
-    - [959, 9538.73]
+    - [986, 9538.63]
   - - [4096, 3287, 1, 1024]
-    - [939, 9846.04]
+    - [966, 9845.94]
   - - [1024, 3499, 1, 4096]
-    - [959, 9428.51]
+    - [986, 9428.41]
   - - [1024, 3231, 1, 4096]
-    - [952, 8769.91]
+    - [979, 8769.81]
   - - [64, 17, 3632, 17]
-    - [974, 1934.94]
+    - [1001, 1934.84]
   - - [4096, 3519, 1, 1024]
-    - [939, 9804.38]
+    - [966, 9804.28]
   - - [4096, 3552, 1, 1024]
-    - [939, 9892.65]
+    - [966, 9892.55]
   - - [1024, 3458, 1, 4096]
-    - [959, 9312.28]
+    - [986, 9312.18]
   - - [64, 93, 688, 92]
-    - [978, 5660.22]
+    - [1005, 5660.12]
   - - [1024, 3374, 1, 4096]
-    - [953, 9110.41]
+    - [980, 9110.31]
   - - [1024, 3396, 1, 4096]
-    - [959, 9145.79]
+    - [986, 9145.69]
   - - [1024, 2967, 1, 4096]
-    - [941, 9364.76]
+    - [968, 9364.66]
   - - [64, 19, 3264, 19]
-    - [978, 2142.47]
+    - [1005, 2142.37]
   - - [4096, 3482, 1, 1024]
-    - [939, 9714.2]
+    - [966, 9714.1]
   - - [64, 32, 1984, 32]
-    - [989, 3619.91]
+    - [1016, 3619.81]
   - - [64, 102, 624, 99]
-    - [980, 5515.33]
+    - [1007, 5515.23]
   - - [1024, 3226, 1, 4096]
-    - [938, 8790.47]
+    - [965, 8790.37]
   - - [4096, 3377, 1, 1024]
-    - [936, 9684.08]
+    - [963, 9683.98]
   - - [4096, 3426, 1, 1024]
-    - [951, 9869.94]
+    - [978, 9869.84]
   - - [4096, 2935, 1, 1024]
-    - [951, 9762.11]
+    - [978, 9762.01]
   - - [64, 133, 480, 133]
-    - [990, 5891.32]
+    - [1017, 5891.22]
   - - [1024, 3439, 1, 4096]
-    - [959, 9253.99]
+    - [986, 9253.89]
   - - [4096, 3267, 1, 1024]
-    - [939, 9783.9]
+    - [966, 9783.8]
   - - [4096, 3499, 1, 1024]
-    - [940, 9761.11]
+    - [967, 9761.01]
   - - [4096, 3356, 1, 1024]
-    - [951, 9679.44]
+    - [978, 9679.34]
   - - [64, 232, 272, 232]
-    - [994, 7181.03]
+    - [1021, 7180.93]
   - - [64, 162, 400, 159]
-    - [954, 6444.63]
+    - [981, 6444.53]
   - - [4096, 3939, 1, 1024]
-    - [950, 9878.0]
+    - [977, 9877.9]
   - - [1024, 3526, 1, 4096]
-    - [959, 9508.1]
+    - [986, 9508.0]
   - - [1024, 3859, 1, 33708]
-    - [940, 9402.13]
+    - [967, 9402.03]
   - - [1024, 3385, 1, 4096]
-    - [958, 9107.28]
+    - [985, 9107.18]
   - - [1024, 3496, 1, 4096]
-    - [959, 9418.0]
+    - [986, 9417.9]
   - - [4096, 3141, 1, 1024]
-    - [951, 9682.54]
+    - [978, 9682.44]
   - - [4096, 3510, 1, 1024]
-    - [939, 9786.59]
+    - [966, 9786.49]
   - - [1024, 3434, 1, 4096]
-    - [959, 9246.7]
+    - [986, 9246.6]
   - - [4096, 3969, 1, 1024]
-    - [939, 9714.85]
+    - [966, 9714.75]
   - - [1024, 3121, 1, 4096]
-    - [937, 8464.32]
+    - [964, 8464.22]
   - - [1024, 3232, 1, 4096]
-    - [959, 8711.73]
+    - [986, 8711.63]
   - - [1024, 4030, 1, 33708]
-    - [940, 9816.31]
+    - [967, 9816.21]
   - - [1024, 3780, 1, 33708]
-    - [948, 9315.54]
+    - [975, 9315.44]
   - - [1024, 3969, 1, 1024]
-    - [937, 9248.54]
+    - [964, 9248.44]
   - - [4096, 3527, 1, 1024]
-    - [939, 9832.94]
+    - [966, 9832.84]
   - - [4096, 3336, 1, 1024]
-    - [936, 9623.35]
+    - [963, 9623.25]
   - - [4096, 3290, 1, 1024]
-    - [939, 9852.21]
+    - [966, 9852.11]
   - - [64, 9, 6544, 9]
-    - [979, 1068.24]
+    - [1006, 1068.14]
   - - [1024, 3469, 1, 4096]
-    - [959, 9350.55]
+    - [986, 9350.45]
   - - [4096, 3490, 1, 1024]
-    - [939, 9737.56]
+    - [966, 9737.46]
   - - [4096, 3064, 1, 1024]
-    - [939, 9890.02]
+    - [966, 9889.92]
   - - [4096, 3582, 1, 1024]
-    - [940, 9961.38]
+    - [967, 9961.28]
   - - [1024, 3956, 1, 1024]
-    - [937, 9294.25]
+    - [964, 9294.15]
   - - [4096, 3417, 1, 1024]
-    - [935, 9811.66]
+    - [962, 9811.56]
   - - [1024, 2736, 1, 4096]
-    - [941, 8636.7]
+    - [968, 8636.6]
   - - [64, 78, 816, 78]
-    - [978, 4946.1]
+    - [1005, 4946.0]
   - - [1024, 3205, 1, 4096]
-    - [953, 8657.21]
+    - [980, 8657.11]
   - - [1024, 3143, 1, 4096]
-    - [953, 8567.87]
+    - [980, 8567.77]
   - - [1024, 4020, 1, 4096]
-    - [941, 9664.62]
+    - [968, 9664.52]
   - - [1024, 3318, 1, 4096]
-    - [938, 8967.05]
+    - [965, 8966.95]
   - - [4096, 3364, 1, 1024]
-    - [951, 9697.18]
+    - [978, 9697.08]
   - - [1024, 3353, 1, 4096]
-    - [959, 9034.17]
+    - [986, 9034.07]
   - - [1024, 3464, 1, 4096]
-    - [959, 9326.05]
+    - [986, 9325.95]
   - - [4096, 3205, 1, 1024]
-    - [939, 9619.1]
+    - [966, 9619.0]
   - - [4096, 3318, 1, 1024]
-    - [940, 9932.66]
+    - [967, 9932.56]
   - - [1024, 3402, 1, 4096]
-    - [958, 9153.49]
+    - [985, 9153.39]
   - - [4096, 3181, 1, 1024]
-    - [950, 9789.15]
+    - [977, 9789.05]
   - - [4096, 3550, 1, 1024]
-    - [940, 9888.13]
+    - [967, 9888.03]
   - - [4096, 3445, 1, 1024]
-    - [950, 9752.65]
+    - [977, 9752.55]
   - - [1024, 3138, 1, 4096]
-    - [936, 8484.1]
+    - [963, 8484.0]
   - - [64, 99, 624, 99]
-    - [986, 5323.99]
+    - [1013, 5323.89]
   - - [4096, 3079, 1, 1024]
-    - [936, 9562.26]
+    - [963, 9562.16]
   - - [4096, 3144, 1, 1024]
-    - [950, 9686.66]
+    - [977, 9686.56]
   - - [4096, 3860, 1, 1024]
-    - [951, 9733.42]
+    - [978, 9733.32]
   - - [1024, 3515, 1, 4096]
-    - [959, 9478.44]
+    - [986, 9478.34]
   - - [4096, 3408, 1, 1024]
-    - [936, 9764.96]
+    - [963, 9764.86]
   - - [64, 101, 624, 102]
-    - [986, 5482.79]
+    - [1013, 5482.69]
   - - [1024, 3181, 1, 4096]
-    - [938, 8593.26]
+    - [965, 8593.16]
   - - [4096, 3298, 1, 1024]
-    - [940, 9867.72]
+    - [967, 9867.62]
   - - [4096, 3585, 1, 1024]
-    - [950, 9633.01]
+    - [977, 9632.91]
   - - [1024, 3550, 1, 4096]
-    - [959, 9564.46]
+    - [986, 9564.36]
   - - [1024, 4020, 1, 1024]
-    - [942, 9339.15]
+    - [969, 9339.05]
   - - [4096, 3481, 1, 1024]
-    - [940, 9714.0]
+    - [967, 9713.9]
   - - [4096, 3530, 1, 1024]
-    - [940, 9833.99]
+    - [967, 9833.89]
   - - [4096, 3425, 1, 1024]
-    - [936, 9675.66]
+    - [963, 9675.56]
   - - [4096, 4026, 1, 1024]
-    - [940, 9849.77]
+    - [967, 9849.67]
   - - [1024, 3860, 1, 1024]
-    - [953, 9073.59]
+    - [980, 9073.49]
   - - [4096, 3975, 1, 1024]
-    - [940, 9737.72]
+    - [967, 9737.62]
   - - [1024, 3286, 1, 4096]
-    - [937, 8884.24]
+    - [964, 8884.14]
   - - [1024, 3176, 1, 4096]
-    - [937, 8597.48]
+    - [964, 8597.38]
   - - [1024, 3894, 1, 4096]
-    - [941, 9359.13]
+    - [968, 9359.03]
   - - [4096, 3355, 1, 1024]
-    - [950, 9693.09]
+    - [977, 9692.99]
   - - [4096, 3404, 1, 1024]
-    - [950, 9786.12]
+    - [977, 9786.02]
   - - [1024, 3501, 1, 4096]
-    - [958, 9426.14]
+    - [985, 9426.04]
   - - [4096, 3245, 1, 1024]
-    - [940, 9723.57]
+    - [967, 9723.47]
   - - [1024, 3431, 1, 4096]
-    - [956, 9244.32]
+    - [983, 9244.22]
   - - [1024, 4000, 1, 1024]
-    - [952, 9344.03]
+    - [979, 9343.93]
   - - [4096, 3509, 1, 1024]
-    - [939, 9781.72]
+    - [966, 9781.62]
   - - [4096, 3558, 1, 1024]
-    - [940, 9905.15]
+    - [967, 9905.05]
   - - [1024, 3535, 1, 4096]
-    - [958, 9519.15]
+    - [985, 9519.05]
   - - [1024, 3414, 1, 4096]
-    - [956, 9198.05]
+    - [983, 9197.95]
   - - [1024, 3445, 1, 4096]
-    - [959, 9279.66]
+    - [986, 9279.56]
   - - [1024, 3436, 1, 4096]
-    - [959, 9259.7]
+    - [986, 9259.6]
   - - [4096, 3472, 1, 1024]
-    - [940, 9685.27]
+    - [967, 9685.17]
   - - [1024, 3211, 1, 4096]
-    - [938, 8708.41]
+    - [965, 8708.31]
   - - [64, 7, 8192, 7]
-    - [975, 802.916]
+    - [1002, 802.816]
   - - [4096, 3383, 1, 1024]
-    - [950, 9734.82]
+    - [977, 9734.72]
   - - [4096, 3448, 1, 1024]
-    - [951, 9828.54]
+    - [978, 9828.44]
   - - [1024, 3343, 1, 4096]
-    - [952, 9010.46]
+    - [979, 9010.36]
   - - [1024, 3518, 1, 4096]
-    - [959, 9468.02]
+    - [986, 9467.92]
   - - [4096, 3289, 1, 1024]
-    - [940, 9844.16]
+    - [967, 9844.06]
   - - [1024, 3440, 1, 4096]
-    - [955, 9269.52]
+    - [982, 9269.42]
   - - [1024, 4032, 1, 33708]
-    - [939, 9822.41]
+    - [966, 9822.31]
   - - [4096, 3489, 1, 1024]
-    - [939, 9742.03]
+    - [966, 9741.93]
   - - [4096, 3346, 1, 1024]
-    - [936, 9616.74]
+    - [963, 9616.64]
   - - [1024, 3534, 1, 4096]
-    - [958, 9524.29]
+    - [985, 9524.19]
   - - [1024, 3079, 1, 4096]
-    - [953, 8397.77]
+    - [980, 8397.67]
   - - [1024, 3955, 1, 4096]
-    - [940, 9492.25]
+    - [967, 9492.15]
   - - [4096, 3236, 1, 1024]
-    - [940, 9706.03]
+    - [967, 9705.93]
   - - [1024, 3545, 1, 4096]
-    - [958, 9551.97]
+    - [985, 9551.87]
   - - [1024, 3144, 1, 4096]
-    - [952, 8556.8]
+    - [979, 8556.7]
   - - [4096, 3780, 1, 1024]
-    - [939, 9847.6]
+    - [966, 9847.5]
   - - [4096, 3163, 1, 1024]
-    - [950, 9717.79]
+    - [977, 9717.69]
   - - [4096, 3468, 1, 1024]
-    - [940, 9686.49]
+    - [967, 9686.39]
   - - [1024, 3539, 1, 4096]
-    - [959, 9526.99]
+    - [986, 9526.89]
   - - [1024, 3541, 1, 4096]
-    - [959, 9532.86]
+    - [986, 9532.76]
   - - [4096, 3363, 1, 1024]
-    - [935, 9699.1]
+    - [962, 9699.0]
   - - [1024, 3475, 1, 4096]
-    - [959, 9357.1]
+    - [986, 9357.0]
   - - [4096, 3110, 1, 1024]
-    - [951, 9659.68]
+    - [978, 9659.58]
   - - [1024, 3509, 1, 4096]
-    - [958, 9450.59]
+    - [985, 9450.49]
   - - [1024, 3413, 1, 4096]
-    - [959, 9185.91]
+    - [986, 9185.81]
   - - [1024, 3975, 1, 1024]
-    - [937, 9315.52]
+    - [964, 9315.42]
   - - [4096, 3549, 1, 1024]
-    - [940, 9884.82]
+    - [967, 9884.72]
   - - [4096, 3342, 1, 1024]
-    - [950, 9644.37]
+    - [977, 9644.27]
   - - [1024, 2985, 1, 4096]
-    - [940, 9392.17]
+    - [967, 9392.07]
   - - [1024, 3876, 1, 33708]
-    - [939, 9442.32]
+    - [966, 9442.22]
   - - [4096, 3280, 1, 1024]
-    - [939, 9820.02]
+    - [966, 9819.92]
   - - [4096, 3191, 1, 1024]
-    - [951, 9862.18]
+    - [978, 9862.08]
   - - [4096, 3512, 1, 1024]
-    - [940, 9793.21]
+    - [967, 9793.11]
   - - [1024, 3560, 1, 4096]
-    - [956, 9555.55]
+    - [983, 9555.45]
   - - [4096, 2499, 1, 1024]
-    - [940, 9669.45]
+    - [967, 9669.35]
   - - [1024, 3248, 1, 4096]
-    - [937, 8811.94]
+    - [964, 8811.84]
   - - [4096, 3423, 1, 1024]
-    - [951, 9729.77]
+    - [978, 9729.67]
   - - [64, 111, 576, 111]
-    - [986, 5982.73]
+    - [1013, 5982.63]
   - - [4096, 3297, 1, 1024]
-    - [939, 9865.29]
+    - [966, 9865.19]
   - - [4096, 3154, 1, 1024]
-    - [951, 9613.52]
+    - [978, 9613.42]
   - - [1024, 3303, 1, 4096]
-    - [938, 8951.89]
+    - [965, 8951.79]
   - - [1024, 3222, 1, 4096]
-    - [958, 8682.99]
+    - [985, 8682.89]
   - - [1024, 3978, 1, 1024]
-    - [942, 9235.03]
+    - [969, 9234.93]
   - - [4096, 3529, 1, 1024]
-    - [940, 9831.72]
+    - [967, 9831.62]
   - - [4096, 3386, 1, 1024]
-    - [950, 9755.77]
+    - [977, 9755.67]
   - - [64, 134, 480, 134]
-    - [965, 5990.63]
+    - [992, 5990.53]
   - - [1024, 3451, 1, 4096]
-    - [956, 9277.71]
+    - [983, 9277.61]
   - - [4096, 3562, 1, 1024]
-    - [940, 9908.92]
+    - [967, 9908.82]
   - - [4096, 3276, 1, 1024]
-    - [939, 9818.14]
+    - [966, 9818.04]
   - - [64, 135, 480, 132]
-    - [994, 6071.87]
+    - [1021, 6071.77]
   - - [1024, 3894, 1, 33708]
-    - [939, 9487.89]
+    - [966, 9487.79]
   - - [64, 134, 480, 132]
-    - [993, 6091.75]
+    - [1020, 6091.65]
   - - [4096, 3540, 1, 1024]
-    - [940, 9862.89]
+    - [967, 9862.79]
   - - [1024, 3416, 1, 4096]
-    - [958, 9206.27]
+    - [985, 9206.17]
   - - [1024, 4005, 1, 33708]
-    - [939, 9757.29]
+    - [966, 9757.19]
   - - [1024, 3942, 1, 4096]
-    - [942, 9455.85]
+    - [969, 9455.75]
   - - [4096, 3403, 1, 1024]
-    - [950, 9739.46]
+    - [977, 9739.36]
   - - [4096, 3381, 1, 1024]
-    - [951, 9760.14]
+    - [978, 9760.04]
   - - [1024, 3492, 1, 4096]
-    - [955, 9391.79]
+    - [982, 9391.69]
   - - [4096, 3101, 1, 1024]
-    - [951, 9626.02]
+    - [978, 9625.92]
   - - [1024, 3430, 1, 4096]
-    - [959, 9232.14]
+    - [986, 9232.04]
   - - [1024, 3977, 1, 4096]
-    - [942, 9563.0]
+    - [969, 9562.9]
   - - [1024, 3640, 1, 4096]
-    - [941, 8761.5]
+    - [968, 8761.4]
   - - [4096, 3557, 1, 1024]
-    - [940, 9905.52]
+    - [967, 9905.42]
   - - [4096, 3414, 1, 1024]
-    - [936, 9755.49]
+    - [963, 9755.39]
   - - [1024, 3391, 1, 4096]
-    - [959, 9142.66]
+    - [986, 9142.56]
   - - [64, 134, 480, 135]
-    - [968, 5922.15]
+    - [995, 5922.05]
   - - [64, 16, 3840, 16]
-    - [984, 2080.61]
+    - [1011, 2080.51]
   - - [1024, 3356, 1, 4096]
-    - [959, 9051.09]
+    - [986, 9050.99]
   - - [4096, 3320, 1, 1024]
-    - [940, 9929.57]
+    - [967, 9929.47]
   - - [4096, 2765, 1, 1024]
-    - [940, 9750.28]
+    - [967, 9750.18]
   - - [64, 162, 400, 162]
-    - [957, 6515.29]
+    - [984, 6515.19]
   - - [1024, 3411, 1, 4096]
-    - [959, 9185.72]
+    - [986, 9185.62]
   - - [1024, 3978, 1, 4096]
-    - [939, 9562.77]
+    - [966, 9562.67]
   - - [4096, 3487, 1, 1024]
-    - [940, 9733.85]
+    - [967, 9733.75]
   - - [4096, 3520, 1, 1024]
-    - [939, 9813.95]
+    - [966, 9813.85]
   - - [4096, 3942, 1, 1024]
-    - [950, 9804.39]
+    - [977, 9804.29]
   - - [4096, 3431, 1, 1024]
-    - [935, 9819.06]
+    - [962, 9818.96]
   - - [1024, 3271, 1, 4096]
-    - [952, 8913.08]
+    - [979, 8912.98]
   - - [4096, 4020, 1, 1024]
-    - [939, 9831.42]
+    - [966, 9831.32]
   - - [1024, 3481, 1, 4096]
-    - [955, 9376.15]
+    - [982, 9376.05]
   - - [1024, 3419, 1, 4096]
-    - [958, 9208.68]
+    - [985, 9208.58]
   - - [1024, 4059, 1, 4096]
-    - [942, 9733.83]
+    - [969, 9733.73]
   - - [4096, 3345, 1, 1024]
-    - [951, 9651.43]
+    - [978, 9651.33]
   - - [4096, 3394, 1, 1024]
-    - [951, 9780.43]
+    - [978, 9780.33]
   - - [1024, 3298, 1, 4096]
-    - [958, 8889.63]
+    - [985, 8889.53]
   - - [4096, 3235, 1, 1024]
-    - [940, 9705.81]
+    - [967, 9705.71]
   - - [1024, 3681, 1, 33708]
-    - [947, 9146.22]
+    - [974, 9146.12]
   - - [1024, 3840, 1, 4096]
-    - [940, 9253.95]
+    - [967, 9253.85]
   - - [1024, 3362, 1, 4096]
-    - [959, 9059.81]
+    - [986, 9059.71]
   - - [4096, 3467, 1, 1024]
-    - [939, 9677.51]
+    - [966, 9677.41]
   - - [1024, 3349, 1, 4096]
-    - [959, 9034.07]
+    - [986, 9033.97]
   - - [1024, 3460, 1, 4096]
-    - [959, 9322.94]
+    - [986, 9322.84]
   - - [4096, 3214, 1, 1024]
-    - [940, 9644.46]
+    - [967, 9644.36]
   - - [1024, 3398, 1, 4096]
-    - [959, 9157.29]
+    - [986, 9157.19]
   - - [4096, 3478, 1, 1024]
-    - [939, 9706.66]
+    - [966, 9706.56]
   - - [1024, 4050, 1, 33708]
-    - [939, 9865.14]
+    - [966, 9865.04]
   - - [1024, 3244, 1, 4096]
-    - [955, 8744.53]
+    - [982, 8744.43]
   - - [4096, 3341, 1, 1024]
-    - [951, 9646.79]
+    - [978, 9646.69]
   - - [4096, 3454, 1, 1024]
-    - [936, 9880.56]
+    - [963, 9880.46]
   - - [1024, 3166, 1, 4096]
-    - [953, 8618.46]
+    - [980, 8618.36]
   - - [1024, 3425, 1, 4096]
-    - [959, 9225.32]
+    - [986, 9225.22]
   - - [4096, 3295, 1, 1024]
-    - [940, 9863.81]
+    - [967, 9863.71]
   - - [4096, 3072, 1, 1024]
-    - [939, 9971.09]
+    - [966, 9970.99]
   - - [4096, 3822, 1, 1024]
-    - [940, 9952.07]
+    - [967, 9951.97]
   - - [1024, 3681, 1, 4096]
-    - [941, 8856.94]
+    - [968, 8856.84]
   - - [1024, 4050, 1, 4096]
-    - [941, 9717.58]
+    - [968, 9717.48]
   - - [4096, 3495, 1, 1024]
-    - [939, 9741.14]
+    - [966, 9741.04]
   - - [4096, 3560, 1, 1024]
-    - [940, 9909.14]
+    - [967, 9909.04]
   - - [1024, 3524, 1, 4096]
-    - [958, 9503.2]
+    - [985, 9503.1]
   - - [1024, 3942, 1, 33708]
-    - [939, 9602.67]
+    - [966, 9602.57]
   - - [1024, 3304, 1, 4096]
-    - [938, 8928.76]
+    - [965, 8928.66]
   - - [1024, 3387, 1, 4096]
-    - [959, 9127.65]
+    - [986, 9127.55]
   - - [1024, 3498, 1, 4096]
-    - [958, 9423.39]
+    - [985, 9423.29]
   - - [4096, 3458, 1, 1024]
-    - [939, 9642.63]
+    - [966, 9642.53]
   - - [4096, 2967, 1, 1024]
-    - [939, 9626.71]
+    - [966, 9626.61]
   - - [64, 8, 7280, 8]
-    - [961, 1032.61]
+    - [988, 1032.51]
   - - [4096, 3385, 1, 1024]
-    - [935, 9735.77]
+    - [962, 9735.67]
   - - [4096, 3434, 1, 1024]
-    - [950, 9808.9]
+    - [977, 9808.8]
   - - [1024, 3519, 1, 4096]
-    - [959, 9484.83]
+    - [986, 9484.73]
   - - [1024, 3511, 1, 4096]
-    - [959, 9456.47]
+    - [986, 9456.37]
   - - [1024, 3288, 1, 4096]
-    - [958, 8864.05]
+    - [985, 8863.95]
   - - [1024, 2918, 1, 4096]
-    - [941, 9170.35]
+    - [968, 9170.25]
   - - [4096, 3573, 1, 1024]
-    - [940, 9945.85]
+    - [967, 9945.75]
   - - [1024, 3822, 1, 33708]
-    - [949, 9331.0]
+    - [976, 9330.9]
   - - [64, 102, 624, 102]
-    - [986, 5531.17]
+    - [1013, 5531.07]
   - - [4096, 3539, 1, 1024]
-    - [940, 9855.39]
+    - [967, 9855.29]
   - - [4096, 3332, 1, 1024]
-    - [951, 9648.97]
+    - [978, 9648.87]
   - - [4096, 3286, 1, 1024]
-    - [940, 9846.42]
+    - [967, 9846.32]
   - - [1024, 4026, 1, 4096]
-    - [941, 9675.94]
+    - [968, 9675.84]
   - - [1024, 3277, 1, 4096]
-    - [955, 8836.21]
+    - [982, 8836.11]
   - - [1024, 3471, 1, 4096]
-    - [959, 9346.33]
+    - [986, 9346.23]
   - - [4096, 3518, 1, 1024]
-    - [940, 9804.2]
+    - [967, 9804.1]
   - - [1024, 3393, 1, 4096]
-    - [959, 9148.99]
+    - [986, 9148.89]
   - - [4096, 3413, 1, 1024]
-    - [936, 9785.17]
+    - [963, 9785.07]
   - - [4096, 3303, 1, 1024]
-    - [940, 9884.37]
+    - [967, 9884.27]
   - - [1024, 3207, 1, 4096]
-    - [937, 8714.69]
+    - [964, 8714.59]
   - - [1024, 3894, 1, 1024]
-    - [953, 9181.51]
+    - [980, 9181.41]
   - - [1024, 3977, 1, 1024]
-    - [953, 9240.9]
+    - [980, 9240.8]
   - - [64, 135, 480, 133]
-    - [968, 5923.4]
+    - [995, 5923.3]
   - - [4096, 3535, 1, 1024]
-    - [940, 9839.55]
+    - [967, 9839.45]
   - - [4096, 3376, 1, 1024]
-    - [935, 9712.02]
+    - [962, 9711.92]
   - - [1024, 3355, 1, 4096]
-    - [959, 9043.27]
+    - [986, 9043.17]
   - - [64, 27, 2336, 27]
-    - [987, 2929.9]
+    - [1014, 2929.8]
   - - [1024, 3466, 1, 4096]
-    - [959, 9339.1]
+    - [986, 9339.0]
   - - [4096, 3266, 1, 1024]
-    - [940, 9789.29]
+    - [967, 9789.19]
   - - [1024, 3404, 1, 4096]
-    - [959, 9176.76]
+    - [986, 9176.66]
   - - [1024, 3999, 1, 1024]
-    - [952, 9391.91]
+    - [979, 9391.81]
   - - [64, 148, 432, 143]
-    - [965, 6182.92]
+    - [992, 6182.82]
   - - [4096, 3498, 1, 1024]
-    - [939, 9764.56]
+    - [966, 9764.46]
   - - [1024, 4032, 1, 1024]
-    - [937, 9402.03]
+    - [964, 9401.93]
   - - [1024, 3410, 1, 4096]
-    - [958, 9183.5]
+    - [985, 9183.4]
   - - [4096, 3393, 1, 1024]
-    - [951, 9695.49]
+    - [978, 9695.39]
   - - [1024, 3140, 1, 4096]
-    - [952, 8504.86]
+    - [979, 8504.76]
   - - [1024, 3910, 1, 33708]
-    - [939, 9526.06]
+    - [966, 9525.96]
   - - [1024, 3334, 1, 4096]
-    - [958, 8987.59]
+    - [985, 8987.49]
   - - [4096, 3140, 1, 1024]
-    - [951, 9660.71]
+    - [978, 9660.61]
   - - [1024, 4005, 1, 4096]
-    - [942, 9629.88]
+    - [969, 9629.78]
   - - [1024, 3579, 1, 4096]
-    - [958, 9661.45]
+    - [985, 9661.35]
   - - [4096, 3372, 1, 1024]
-    - [951, 9697.32]
+    - [978, 9697.22]
   - - [1024, 3245, 1, 4096]
-    - [952, 8847.76]
+    - [979, 8847.66]
   - - [64, 38, 1680, 38]
-    - [962, 3340.44]
+    - [989, 3340.34]
   - - [4096, 3956, 1, 1024]
-    - [951, 9911.15]
+    - [978, 9911.05]
   - - [4096, 3213, 1, 1024]
-    - [939, 9643.11]
+    - [966, 9643.01]
   - - [1024, 3361, 1, 4096]
-    - [959, 9062.24]
+    - [986, 9062.14]
   - - [1024, 3536, 1, 4096]
-    - [958, 9530.65]
+    - [985, 9530.55]
   - - [1024, 3968, 1, 1024]
-    - [953, 9377.92]
+    - [980, 9377.82]
   - - [4096, 3477, 1, 1024]
-    - [940, 9700.77]
+    - [967, 9700.67]
   - - [4096, 3526, 1, 1024]
-    - [940, 9824.41]
+    - [967, 9824.31]
   - - [1024, 4005, 1, 1024]
-    - [937, 9362.39]
+    - [964, 9362.29]
   - - [1024, 3530, 1, 4096]
-    - [956, 9487.17]
+    - [983, 9487.07]
   - - [1024, 3944, 1, 4096]
-    - [941, 9464.55]
+    - [968, 9464.45]
   - - [4096, 3453, 1, 1024]
-    - [950, 9826.77]
+    - [977, 9826.67]
   - - [4096, 3184, 1, 1024]
-    - [951, 9833.59]
+    - [978, 9833.49]
   - - [4096, 3579, 1, 1024]
-    - [940, 9962.55]
+    - [967, 9962.45]
   - - [4096, 3351, 1, 1024]
-    - [951, 9653.34]
+    - [978, 9653.24]
   - - [4096, 3416, 1, 1024]
-    - [935, 9810.4]
+    - [962, 9810.3]
   - - [64, 100, 624, 100]
-    - [986, 5408.55]
+    - [1013, 5408.45]
   - - [1024, 3822, 1, 4096]
-    - [941, 9196.2]
+    - [968, 9196.1]
   - - [1024, 3796, 1, 4096]
-    - [941, 9131.96]
+    - [968, 9131.86]
   - - [4096, 3257, 1, 1024]
-    - [939, 9767.34]
+    - [966, 9767.24]
   - - [4096, 3306, 1, 1024]
-    - [939, 9893.35]
+    - [966, 9893.25]
   - - [1024, 3505, 1, 4096]
-    - [959, 9450.02]
+    - [986, 9449.92]
   - - [1024, 3315, 1, 4096]
-    - [952, 8979.77]
+    - [979, 8979.67]
   - - [1024, 3486, 1, 4096]
-    - [958, 9393.48]
+    - [985, 9393.38]
   - - [4096, 3457, 1, 1024]
-    - [939, 9653.19]
+    - [966, 9653.09]
   - - [4096, 3870, 1, 1024]
-    - [936, 9717.51]
+    - [963, 9717.41]
   - - [1024, 3447, 1, 4096]
-    - [959, 9273.14]
+    - [986, 9273.04]
   - - [1024, 3558, 1, 4096]
-    - [956, 9567.33]
+    - [983, 9567.23]
   - - [4096, 3433, 1, 1024]
-    - [936, 9759.26]
+    - [963, 9759.16]
   - - [4096, 3180, 1, 1024]
-    - [951, 9738.63]
+    - [978, 9738.53]
   - - [1024, 3213, 1, 4096]
-    - [937, 8692.25]
+    - [964, 8692.15]
   - - [1024, 3900, 1, 4096]
-    - [941, 9388.61]
+    - [968, 9388.51]
   - - [4096, 3444, 1, 1024]
-    - [950, 9869.73]
+    - [977, 9869.63]
   - - [1024, 3504, 1, 4096]
-    - [959, 9429.38]
+    - [986, 9429.28]
   - - [4096, 4059, 1, 1024]
-    - [940, 9920.79]
+    - [967, 9920.69]
   - - [1024, 3442, 1, 4096]
-    - [959, 9273.01]
+    - [986, 9272.91]
   - - [4096, 3517, 1, 1024]
-    - [939, 9808.19]
+    - [966, 9808.09]
   - - [1024, 3566, 1, 4096]
-    - [958, 9622.89]
+    - [985, 9622.79]
   - - [4096, 3248, 1, 1024]
-    - [939, 9730.33]
+    - [966, 9730.23]
   - - [1024, 3547, 1, 4096]
-    - [958, 9564.73]
+    - [985, 9564.63]
   - - [64, 59, 1088, 59]
-    - [977, 4611.76]
+    - [1004, 4611.66]
   - - [1024, 3340, 1, 4096]
-    - [958, 8992.21]
+    - [985, 8992.11]
   - - [4096, 3480, 1, 1024]
-    - [940, 9710.17]
+    - [967, 9710.07]
   - - [1024, 3968, 1, 4096]
-    - [940, 9543.11]
+    - [967, 9543.01]
   - - [4096, 3424, 1, 1024]
-    - [936, 9808.66]
+    - [963, 9808.56]
   - - [1024, 3906, 1, 1024]
-    - [938, 9150.54]
+    - [965, 9150.44]
   - - [4096, 3265, 1, 1024]
-    - [939, 9786.85]
+    - [966, 9786.75]
   - - [1024, 3384, 1, 4096]
-    - [959, 9119.56]
+    - [986, 9119.46]
   - - [1024, 3494, 1, 4096]
-    - [956, 9415.52]
+    - [983, 9415.42]
   - - [1024, 3236, 1, 4096]
-    - [953, 8767.14]
+    - [980, 8767.04]
   - - [4096, 3497, 1, 1024]
-    - [940, 9750.86]
+    - [967, 9750.76]
   - - [4096, 3354, 1, 1024]
-    - [951, 9665.17]
+    - [978, 9665.07]
   - - [4096, 3055, 1, 1024]
-    - [940, 9884.09]
+    - [967, 9883.99]
   - - [64, 11, 5456, 11]
-    - [963, 1368.34]
+    - [990, 1368.24]
   - - [4096, 3244, 1, 1024]
-    - [939, 9720.02]
+    - [966, 9719.92]
   - - [4096, 3139, 1, 1024]
-    - [950, 9737.06]
+    - [977, 9736.96]
   - - [4096, 3508, 1, 1024]
-    - [939, 9771.66]
+    - [966, 9771.56]
   - - [4096, 4050, 1, 1024]
-    - [939, 9898.79]
+    - [966, 9898.69]
   - - [1024, 3472, 1, 4096]
-    - [958, 9353.83]
+    - [985, 9353.73]
   - - [1024, 3861, 1, 1024]
-    - [937, 9061.32]
+    - [964, 9061.22]
   - - [1024, 3910, 1, 1024]
-    - [941, 9043.54]
+    - [968, 9043.44]
   - - [4096, 3371, 1, 1024]
-    - [951, 9738.24]
+    - [978, 9738.14]
   - - [64, 65, 992, 65]
-    - [990, 4354.59]
+    - [1017, 4354.49]
   - - [1024, 3751, 1, 4096]
-    - [940, 9018.74]
+    - [967, 9018.64]
   - - [4096, 3325, 1, 1024]
-    - [939, 9958.73]
+    - [966, 9958.63]
   - - [1024, 3321, 1, 4096]
-    - [959, 8952.55]
+    - [986, 8952.45]
   - - [1024, 3944, 1, 1024]
-    - [938, 9117.35]
+    - [965, 9117.25]
   - - [4096, 3525, 1, 1024]
-    - [940, 9822.14]
+    - [967, 9822.04]
   - - [4096, 3382, 1, 1024]
-    - [951, 9720.21]
+    - [978, 9720.11]
   - - [64, 122, 528, 122]
-    - [986, 6389.33]
+    - [1013, 6389.23]
   - - [1024, 3453, 1, 4096]
-    - [956, 9305.03]
+    - [983, 9304.93]
   - - [4096, 3564, 1, 1024]
-    - [939, 9911.32]
+    - [966, 9911.22]
   - - [4096, 3288, 1, 1024]
-    - [939, 9841.17]
+    - [966, 9841.07]
   - - [1024, 3925, 1, 4096]
-    - [940, 9418.95]
+    - [967, 9418.85]
   - - [1024, 3057, 1, 4096]
-    - [941, 9590.51]
+    - [968, 9590.41]
   - - [4096, 3488, 1, 1024]
-    - [940, 9732.5]
+    - [967, 9732.4]
   - - [4096, 3046, 1, 1024]
-    - [940, 9850.72]
+    - [967, 9850.62]
   - - [1024, 3189, 1, 4096]
-    - [952, 8677.02]
+    - [979, 8676.92]
   - - [4096, 3399, 1, 1024]
-    - [936, 9673.09]
+    - [963, 9672.99]
   - - [1024, 3383, 1, 4096]
-    - [959, 9102.37]
+    - [986, 9102.27]
   - - [1024, 3415, 1, 4096]
-    - [959, 9216.37]
+    - [986, 9216.27]
   - - [1024, 3388, 1, 4096]
-    - [959, 9127.53]
+    - [986, 9127.43]
   - - [1024, 3376, 1, 4096]
-    - [956, 9090.53]
+    - [983, 9090.43]
   - - [1024, 3473, 1, 4096]
-    - [959, 9354.12]
+    - [986, 9354.02]
   - - [4096, 3162, 1, 1024]
-    - [935, 9694.83]
+    - [962, 9694.73]
   - - [1024, 3448, 1, 4096]
-    - [959, 9283.45]
+    - [986, 9283.35]
   - - [4096, 3362, 1, 1024]
-    - [951, 9673.33]
+    - [978, 9673.23]
   - - [64, 228, 272, 228]
-    - [944, 7039.13]
+    - [971, 7039.03]
   - - [1024, 3262, 1, 4096]
-    - [953, 8850.84]
+    - [980, 8850.74]
   - - [1024, 3184, 1, 4096]
-    - [938, 8625.37]
+    - [965, 8625.27]
   - - [1024, 3378, 1, 4096]
-    - [958, 9105.27]
+    - [985, 9105.17]
   - - [4096, 3548, 1, 1024]
-    - [939, 9877.83]
+    - [966, 9877.73]
   - - [4096, 2977, 1, 1024]
-    - [939, 9647.81]
+    - [966, 9647.71]
   - - [64, 21, 2976, 21]
-    - [974, 2364.81]
+    - [1001, 2364.71]
   - - [64, 112, 576, 111]
-    - [973, 5973.68]
+    - [1000, 5973.58]
   - - [4096, 3443, 1, 1024]
-    - [935, 9784.5]
+    - [962, 9784.4]
   - - [1024, 3289, 1, 4096]
-    - [959, 8874.04]
+    - [986, 8873.94]
   - - [1024, 3483, 1, 4096]
-    - [955, 9380.57]
+    - [982, 9380.47]
   - - [4096, 3190, 1, 1024]
-    - [951, 9850.96]
+    - [978, 9850.86]
   - - [1024, 3421, 1, 4096]
-    - [959, 9214.06]
+    - [986, 9213.96]
   - - [1024, 3514, 1, 4096]
-    - [958, 9458.23]
+    - [985, 9458.13]
   - - [1024, 3532, 1, 4096]
-    - [959, 9513.03]
+    - [986, 9512.93]
   - - [1024, 3565, 1, 4096]
-    - [958, 9630.6]
+    - [985, 9630.5]
   - - [4096, 3422, 1, 1024]
-    - [936, 9733.79]
+    - [963, 9733.69]
   - - [4096, 3263, 1, 1024]
-    - [940, 9776.94]
+    - [967, 9776.84]
   - - [4096, 3296, 1, 1024]
-    - [940, 9860.61]
+    - [967, 9860.51]
   - - [4096, 3640, 1, 1024]
-    - [950, 9782.3]
+    - [977, 9782.2]
   - - [4096, 3463, 1, 1024]
-    - [939, 9672.0]
+    - [966, 9671.9]
   - - [4096, 3528, 1, 1024]
-    - [940, 9829.98]
+    - [967, 9829.88]
   - - [1024, 3351, 1, 4096]
-    - [953, 9054.37]
+    - [980, 9054.27]
   - - [1024, 3462, 1, 4096]
-    - [959, 9327.85]
+    - [986, 9327.75]
   - - [4096, 3226, 1, 1024]
-    - [940, 9674.93]
+    - [967, 9674.83]
   - - [4096, 3439, 1, 1024]
-    - [935, 9823.18]
+    - [962, 9823.08]
   - - [4096, 3121, 1, 1024]
-    - [935, 9672.64]
+    - [962, 9672.54]
   - - [1024, 4059, 1, 33708]
-    - [939, 9885.72]
+    - [966, 9885.62]
   - - [1024, 3311, 1, 4096]
-    - [959, 8910.01]
+    - [986, 8909.91]
   - - [1024, 3230, 1, 4096]
-    - [959, 8705.9]
+    - [986, 8705.8]
   - - [4096, 3353, 1, 1024]
-    - [951, 9671.86]
+    - [978, 9671.76]
   - - [4096, 3402, 1, 1024]
-    - [936, 9727.04]
+    - [963, 9726.94]
   - - [1024, 3427, 1, 4096]
-    - [959, 9233.55]
+    - [986, 9233.45]
   - - [1024, 3346, 1, 4096]
-    - [959, 9015.77]
+    - [986, 9015.67]
   - - [1024, 3126, 1, 4096]
-    - [953, 8519.31]
+    - [980, 8519.21]
   - - [1024, 3796, 1, 1024]
-    - [937, 8916.75]
+    - [964, 8916.65]
   - - [1024, 3990, 1, 4096]
-    - [941, 9600.86]
+    - [968, 9600.76]
   - - [1024, 3257, 1, 4096]
-    - [937, 8790.42]
+    - [964, 8790.32]
   - - [4096, 3996, 1, 1024]
-    - [940, 9788.25]
+    - [967, 9788.15]
   - - [64, 143, 432, 143]
-    - [968, 6087.24]
+    - [995, 6087.14]
   - - [1024, 3306, 1, 4096]
-    - [952, 9035.69]
+    - [979, 9035.59]
   - - [1024, 3389, 1, 4096]
-    - [959, 9134.92]
+    - [986, 9134.82]
   - - [1024, 3500, 1, 4096]
-    - [959, 9443.33]
+    - [986, 9443.23]
   - - [1024, 3999, 1, 33708]
-    - [940, 9741.24]
+    - [967, 9741.14]
   - - [4096, 3486, 1, 1024]
-    - [940, 9719.67]
+    - [967, 9719.57]
   - - [1024, 3438, 1, 4096]
-    - [959, 9259.38]
+    - [986, 9259.28]
   - - [4096, 3616, 1, 1024]
-    - [950, 9739.77]
+    - [977, 9739.67]
   - - [1024, 3955, 1, 1024]
-    - [952, 9260.37]
+    - [979, 9260.27]
   - - [4096, 3430, 1, 1024]
-    - [951, 9819.95]
+    - [978, 9819.85]
   - - [4096, 3271, 1, 1024]
-    - [940, 9802.04]
+    - [967, 9801.94]
   - - [1024, 3364, 1, 4096]
-    - [952, 9144.63]
+    - [979, 9144.53]
   - - [64, 54, 1184, 54]
-    - [972, 4315.78]
+    - [999, 4315.68]
   - - [1024, 3497, 1, 4096]
-    - [959, 9429.42]
+    - [986, 9429.32]
   - - [4096, 3503, 1, 1024]
-    - [939, 9764.48]
+    - [966, 9764.38]
   - - [4096, 3344, 1, 1024]
-    - [936, 9614.16]
+    - [963, 9614.06]
   - - [1024, 3457, 1, 4096]
-    - [959, 9320.6]
+    - [986, 9320.5]
   - - [4096, 3466, 1, 1024]
-    - [939, 9677.81]
+    - [966, 9677.71]
   - - [1024, 3976, 1, 33708]
-    - [940, 9685.38]
+    - [967, 9685.28]
   - - [1024, 3395, 1, 4096]
-    - [958, 9146.39]
+    - [985, 9146.29]
   - - [4096, 3361, 1, 1024]
-    - [950, 9677.89]
+    - [977, 9677.79]
   - - [1024, 3751, 1, 33708]
-    - [948, 9234.69]
+    - [975, 9234.59]
   - - [1024, 3822, 1, 1024]
-    - [937, 8977.83]
+    - [964, 8977.73]
   - - [4096, 3315, 1, 1024]
-    - [940, 9922.54]
+    - [967, 9922.44]
   - - [1024, 3163, 1, 4096]
-    - [952, 8577.79]
+    - [979, 8577.69]
   - - [4096, 3547, 1, 1024]
-    - [940, 9882.92]
+    - [967, 9882.82]
   - - [4096, 3340, 1, 1024]
-    - [950, 9635.42]
+    - [977, 9635.32]
   - - [1024, 3296, 1, 4096]
-    - [959, 8874.66]
+    - [986, 8874.56]
   - - [1024, 3468, 1, 4096]
-    - [959, 9350.26]
+    - [986, 9350.16]
   - - [4096, 3294, 1, 1024]
-    - [939, 9856.87]
+    - [966, 9856.77]
   - - [1024, 3406, 1, 4096]
-    - [955, 9162.84]
+    - [982, 9162.74]
   - - [1024, 3860, 1, 33708]
-    - [939, 9403.56]
+    - [966, 9403.46]
   - - [1024, 3584, 1, 4096]
-    - [956, 9677.44]
+    - [983, 9677.34]
   - - [4096, 3189, 1, 1024]
-    - [951, 9820.69]
+    - [978, 9820.59]
   - - [4096, 3494, 1, 1024]
-    - [939, 9747.68]
+    - [966, 9747.58]
   - - [64, 135, 480, 135]
-    - [965, 5966.34]
+    - [992, 5966.24]
   - - [1024, 3093, 1, 4096]
-    - [953, 8446.06]
+    - [980, 8445.96]
   - - [4096, 3421, 1, 1024]
-    - [936, 9776.03]
+    - [963, 9775.93]
   - - [1024, 3479, 1, 4096]
-    - [959, 9376.54]
+    - [986, 9376.44]
   - - [1024, 3433, 1, 4096]
-    - [959, 9251.14]
+    - [986, 9251.04]
   - - [4096, 3311, 1, 1024]
-    - [939, 9901.53]
+    - [966, 9901.43]
   - - [1024, 3381, 1, 4096]
-    - [959, 9103.99]
+    - [986, 9103.89]
   - - [1024, 3996, 1, 4096]
-    - [940, 9609.56]
+    - [967, 9609.46]
   - - [4096, 3384, 1, 1024]
-    - [950, 9750.01]
+    - [977, 9749.91]
   - - [1024, 3247, 1, 4096]
-    - [938, 8872.59]
+    - [965, 8872.49]
   - - [1024, 3169, 1, 4096]
-    - [937, 8597.61]
+    - [964, 8597.51]
   - - [1024, 3088, 1, 4096]
-    - [953, 8410.07]
+    - [980, 8409.97]
   - - [1024, 3363, 1, 4096]
-    - [959, 9069.5]
+    - [986, 9069.4]
   - - [1024, 3538, 1, 4096]
-    - [958, 9529.68]
+    - [985, 9529.58]
   - - [1024, 3996, 1, 1024]
-    - [942, 9323.06]
+    - [969, 9322.96]
   - - [4096, 3169, 1, 1024]
-    - [936, 9821.4]
+    - [963, 9821.3]
   - - [4096, 3538, 1, 1024]
-    - [939, 9859.42]
+    - [966, 9859.32]
   - - [4096, 3401, 1, 1024]
-    - [936, 9754.5]
+    - [963, 9754.4]
   - - [4096, 3581, 1, 1024]
-    - [939, 9960.71]
+    - [966, 9960.61]
   - - [1024, 3180, 1, 4096]
-    - [937, 8635.05]
+    - [964, 8634.95]
   - - [1024, 3870, 1, 1024]
-    - [938, 9085.69]
+    - [965, 9085.59]
   - - [4096, 3555, 1, 1024]
-    - [939, 9905.74]
+    - [966, 9905.64]
   - - [4096, 3412, 1, 1024]
-    - [951, 9778.56]
+    - [978, 9778.46]
   - - [4096, 3302, 1, 1024]
-    - [939, 9888.71]
+    - [966, 9888.61]
   - - [1024, 3561, 1, 4096]
-    - [955, 9597.05]
+    - [982, 9596.95]
   - - [1024, 3302, 1, 4096]
-    - [959, 8900.87]
+    - [986, 8900.77]
   - - [1024, 3976, 1, 4096]
-    - [941, 9563.22]
+    - [968, 9563.12]
   - - [4096, 3485, 1, 1024]
-    - [939, 9722.57]
+    - [966, 9722.47]
   - - [4096, 3534, 1, 1024]
-    - [939, 9847.22]
+    - [966, 9847.12]
   - - [1024, 3110, 1, 4096]
-    - [952, 8458.56]
+    - [979, 8458.46]
   - - [1024, 3401, 1, 4096]
-    - [959, 9174.81]
+    - [986, 9174.71]
   - - [4096, 3216, 1, 1024]
-    - [939, 9645.49]
+    - [966, 9645.39]
   - - [1024, 4020, 1, 33708]
-    - [939, 9793.61]
+    - [966, 9793.51]
   - - [1024, 3215, 1, 4096]
-    - [959, 8677.51]
+    - [986, 8677.41]
   - - [4096, 3566, 1, 1024]
-    - [939, 9924.78]
+    - [966, 9924.68]
   - - [1024, 3137, 1, 4096]
-    - [937, 8547.07]
+    - [964, 8546.97]
   - - [4096, 3359, 1, 1024]
-    - [936, 9673.73]
+    - [963, 9673.63]
   - - [4096, 3392, 1, 1024]
-    - [951, 9757.51]
+    - [978, 9757.41]
   - - [1024, 3506, 1, 4096]
-    - [959, 9443.0]
+    - [986, 9442.9]
   - - [4096, 3233, 1, 1024]
-    - [939, 9698.7]
+    - [966, 9698.6]
   - - [1024, 3444, 1, 4096]
-    - [959, 9275.54]
+    - [986, 9275.44]
   - - [1024, 3975, 1, 4096]
-    - [940, 9556.87]
+    - [967, 9556.77]
   - - [1024, 3870, 1, 33708]
-    - [939, 9427.44]
+    - [966, 9427.34]
   - - [4096, 3465, 1, 1024]
-    - [940, 9675.01]
+    - [967, 9674.91]
   - - [4096, 3968, 1, 1024]
-    - [936, 9927.93]
+    - [963, 9927.83]
   - - [1024, 3523, 1, 4096]
-    - [959, 9494.15]
+    - [986, 9494.05]
   - - [64, 10, 5952, 10]
-    - [963, 1224.16]
+    - [990, 1224.06]
   - - [4096, 3990, 1, 1024]
-    - [939, 9771.27]
+    - [966, 9771.17]
   - - [1024, 3549, 1, 4096]
-    - [958, 9553.42]
+    - [985, 9553.32]
   - - [1024, 3342, 1, 4096]
-    - [959, 9007.31]
+    - [986, 9007.21]
   - - [4096, 3476, 1, 1024]
-    - [939, 9703.66]
+    - [966, 9703.56]
   - - [64, 232, 272, 228]
-    - [945, 7078.93]
+    - [972, 7078.83]
   - - [1024, 3418, 1, 4096]
-    - [959, 9213.09]
+    - [986, 9212.99]
   - - [1024, 3859, 1, 1024]
-    - [938, 9087.54]
+    - [965, 9087.44]
   - - [4096, 3339, 1, 1024]
-    - [951, 9594.0]
+    - [978, 9593.9]
   - - [4096, 3452, 1, 1024]
-    - [936, 9872.69]
+    - [963, 9872.59]
   - - [4096, 3293, 1, 1024]
-    - [939, 9842.65]
+    - [966, 9842.55]
   - - [4096, 3840, 1, 1024]
-    - [940, 10030.8]
+    - [967, 10030.7]
   - - [1024, 3369, 1, 4096]
-    - [937, 9099.72]
+    - [964, 9099.62]
   - - [64, 193, 320, 193]
-    - [967, 6425.8]
+    - [994, 6425.7]
   - - [1024, 3544, 1, 4096]
-    - [956, 9556.64]
+    - [983, 9556.54]
   - - [4096, 3493, 1, 1024]
-    - [940, 9743.34]
+    - [967, 9743.24]
   - - [4096, 3350, 1, 1024]
-    - [951, 9653.11]
+    - [978, 9653.01]
   - - [64, 71, 896, 71]
-    - [991, 4686.73]
+    - [1018, 4686.63]
   - - [4096, 3256, 1, 1024]
-    - [939, 9763.78]
+    - [966, 9763.68]
   - - [1024, 3870, 1, 4096]
-    - [941, 9305.28]
+    - [968, 9305.18]
   - - [4096, 4012, 1, 1024]
-    - [940, 9817.35]
+    - [967, 9817.25]
   - - [1024, 3280, 1, 4096]
-    - [959, 8842.02]
+    - [986, 8841.92]
   - - [4096, 3456, 1, 1024]
-    - [935, 9874.43]
+    - [962, 9874.33]
   - - [1024, 3555, 1, 4096]
-    - [958, 9599.63]
+    - [985, 9599.53]
   - - [4096, 3014, 1, 1024]
-    - [939, 9762.28]
+    - [966, 9762.18]
   - - [1024, 3474, 1, 4096]
-    - [959, 9373.67]
+    - [986, 9373.57]
   - - [4096, 3367, 1, 1024]
-    - [935, 9694.64]
+    - [962, 9694.54]
   - - [4096, 3432, 1, 1024]
-    - [951, 9855.27]
+    - [978, 9855.17]
   - - [64, 84, 752, 84]
-    - [978, 5247.18]
+    - [1005, 5247.08]
   - - [4096, 3273, 1, 1024]
-    - [940, 9801.87]
+    - [967, 9801.77]
   - - [4096, 3130, 1, 1024]
-    - [936, 9672.52]
+    - [963, 9672.42]
   - - [1024, 2984, 1, 4096]
-    - [941, 9403.7]
+    - [968, 9403.6]
   - - [1024, 3995, 1, 1024]
-    - [953, 9392.61]
+    - [980, 9392.51]
   - - [1024, 3517, 1, 4096]
-    - [959, 9481.39]
+    - [986, 9481.29]
   - - [1024, 3455, 1, 4096]
-    - [959, 9302.29]
+    - [986, 9302.19]
   - - [1024, 3939, 1, 4096]
-    - [941, 9469.89]
+    - [968, 9469.79]
   - - [64, 49, 1296, 49]
-    - [971, 3938.96]
+    - [998, 3938.86]
   - - [64, 14, 4368, 14]
-    - [963, 1802.47]
+    - [990, 1802.37]
   - - [64, 25, 2512, 25]
-    - [982, 2760.54]
+    - [1009, 2760.44]
   - - [4096, 3147, 1, 1024]
-    - [951, 9713.03]
+    - [978, 9712.93]
   - - [4096, 3516, 1, 1024]
-    - [939, 9805.93]
+    - [966, 9805.83]
   - - [1024, 3876, 1, 4096]
-    - [941, 9320.56]
+    - [968, 9320.46]
   - - [1024, 3191, 1, 4096]
-    - [938, 8640.76]
+    - [965, 8640.66]
   - - [4096, 3411, 1, 1024]
-    - [950, 9737.37]
+    - [977, 9737.27]
   - - [1024, 3337, 1, 4096]
-    - [959, 8990.13]
+    - [986, 8990.03]
   - - [1024, 3512, 1, 4096]
-    - [959, 9459.65]
+    - [986, 9459.55]
   - - [4096, 3301, 1, 1024]
-    - [939, 9877.26]
+    - [966, 9877.16]
   - - [1024, 3450, 1, 4096]
-    - [958, 9283.11]
+    - [985, 9283.01]
   - - [4096, 3533, 1, 1024]
-    - [939, 9848.62]
+    - [966, 9848.52]
   - - [4096, 3390, 1, 1024]
-    - [951, 9764.61]
+    - [978, 9764.51]
   - - [4096, 3231, 1, 1024]
-    - [939, 9693.81]
+    - [966, 9693.71]
   - - [1024, 2499, 1, 4096]
-    - [958, 9304.81]
+    - [985, 9304.71]
   - - [1024, 3186, 1, 4096]
-    - [938, 8649.55]
+    - [965, 8649.45]
   - - [1024, 3380, 1, 4096]
-    - [959, 9101.77]
+    - [986, 9101.67]
   - - [4096, 3496, 1, 1024]
-    - [940, 9754.3]
+    - [967, 9754.2]
   - - [1024, 3956, 1, 33708]
-    - [939, 9636.77]
+    - [966, 9636.67]
   - - [1024, 3976, 1, 1024]
-    - [941, 9248.41]
+    - [968, 9248.31]
   - - [4096, 2736, 1, 1024]
-    - [939, 9651.91]
+    - [966, 9651.81]
   - - [1024, 3291, 1, 4096]
-    - [959, 8868.94]
+    - [986, 8868.84]
   - - [1024, 3944, 1, 33708]
-    - [940, 9607.0]
+    - [967, 9606.9]
   - - [1024, 3485, 1, 4096]
-    - [958, 9385.96]
+    - [985, 9385.86]
   - - [4096, 3138, 1, 1024]
-    - [936, 9672.15]
+    - [963, 9672.05]
   - - [1024, 3423, 1, 4096]
-    - [959, 9222.77]
+    - [986, 9222.67]
   - - [1024, 3491, 1, 4096]
-    - [959, 9405.02]
+    - [986, 9404.92]
   - - [1024, 3860, 1, 4096]
-    - [942, 9282.94]
+    - [969, 9282.84]
   - - [4096, 3211, 1, 1024]
-    - [939, 9640.42]
+    - [966, 9640.32]
   - - [1024, 3221, 1, 4096]
-    - [953, 8709.4]
+    - [980, 8709.3]
   - - [1024, 2917, 1, 4096]
-    - [941, 9177.11]
+    - [968, 9177.01]
   - - [4096, 3475, 1, 1024]
-    - [939, 9703.45]
+    - [966, 9703.35]
   - - [4096, 3524, 1, 1024]
-    - [939, 9816.23]
+    - [966, 9816.13]
   - - [4096, 2985, 1, 1024]
-    - [940, 9686.91]
+    - [967, 9686.81]
   - - [1024, 3480, 1, 4096]
-    - [959, 9380.2]
+    - [986, 9380.1]
   - - [4096, 3222, 1, 1024]
-    - [939, 9666.8]
+    - [966, 9666.7]
   - - [4096, 3451, 1, 1024]
-    - [935, 9877.91]
+    - [962, 9877.81]
   - - [1024, 3969, 1, 33708]
-    - [939, 9669.64]
+    - [966, 9669.54]
   - - [1024, 3640, 1, 1024]
-    - [946, 8565.68]
+    - [973, 8565.58]
   - - [1024, 3297, 1, 4096]
-    - [955, 8889.22]
+    - [982, 8889.12]
   - - [4096, 3944, 1, 1024]
-    - [936, 9902.85]
+    - [963, 9902.75]
   - - [1024, 3216, 1, 4096]
-    - [938, 8695.88]
+    - [965, 8695.78]
   - - [1024, 3840, 1, 1024]
-    - [952, 9046.05]
+    - [979, 9045.95]
   - - [4096, 3349, 1, 1024]
-    - [950, 9676.82]
+    - [977, 9676.72]
   - - [4096, 3398, 1, 1024]
-    - [936, 9775.84]
+    - [963, 9775.74]
   - - [1024, 3154, 1, 4096]
-    - [953, 8662.26]
+    - [980, 8662.16]
   - - [1024, 3978, 1, 33708]
-    - [940, 9689.16]
+    - [967, 9689.06]
   - - [1024, 3348, 1, 4096]
-    - [959, 9014.67]
+    - [986, 9014.57]
   - - [4096, 3304, 1, 1024]
-    - [940, 9886.8]
+    - [967, 9886.7]
   - - [4096, 4030, 1, 1024]
-    - [940, 9859.1]
+    - [967, 9859.0]
   - - [1024, 4026, 1, 1024]
-    - [937, 9326.64]
+    - [964, 9326.54]
   - - [4096, 3471, 1, 1024]
-    - [939, 9683.0]
+    - [966, 9682.9]
   - - [1024, 3259, 1, 4096]
-    - [953, 8792.19]
+    - [980, 8792.09]
   - - [64, 132, 480, 132]
-    - [993, 6027.86]
+    - [1020, 6027.76]
   - - [1024, 3308, 1, 4096]
-    - [958, 8905.14]
+    - [985, 8905.04]
   - - [4096, 3391, 1, 1024]
-    - [951, 9765.35]
+    - [978, 9765.25]
   - - [1024, 3312, 1, 4096]
-    - [959, 8917.74]
+    - [986, 8917.64]
   - - [1024, 3502, 1, 4096]
-    - [959, 9435.62]
+    - [986, 9435.52]
   - - [1024, 3968, 1, 33708]
-    - [939, 9668.24]
+    - [966, 9668.14]
   - - [1024, 3424, 1, 4096]
-    - [955, 9215.99]
+    - [982, 9215.89]
   - - [64, 13, 4672, 13]
-    - [964, 1662.35]
+    - [991, 1662.25]
   - - [4096, 4032, 1, 1024]
-    - [950, 9877.82]
+    - [977, 9877.72]
   - - [1024, 3900, 1, 1024]
-    - [953, 9116.93]
+    - [980, 9116.83]
   - - [4096, 3442, 1, 1024]
-    - [950, 9773.18]
+    - [977, 9773.08]
   - - [1024, 3366, 1, 4096]
-    - [959, 9079.46]
+    - [986, 9079.36]
   - - [4096, 3999, 1, 1024]
-    - [939, 9786.46]
+    - [966, 9786.36]
   - - [1024, 3477, 1, 4096]
-    - [959, 9364.89]
+    - [986, 9364.79]
   - - [1024, 2505, 1, 4096]
-    - [959, 9304.03]
+    - [986, 9303.93]
   - - [4096, 3515, 1, 1024]
-    - [939, 9797.93]
+    - [966, 9797.83]
   - - [1024, 3564, 1, 4096]
-    - [955, 9632.86]
+    - [982, 9632.76]
   - - [4096, 3057, 1, 1024]
-    - [940, 9880.19]
+    - [967, 9880.09]
   - - [1024, 3339, 1, 4096]
-    - [938, 9029.86]
+    - [965, 9029.76]
   - - [4096, 3262, 1, 1024]
-    - [939, 9780.1]
+    - [966, 9780.0]
   - - [1024, 4030, 1, 4096]
-    - [942, 9682.0]
+    - [969, 9681.9]
   - - [1024, 3265, 1, 4096]
-    - [959, 8797.52]
+    - [986, 8797.42]
   - - [1024, 3459, 1, 4096]
-    - [959, 9313.06]
+    - [986, 9312.96]
   - - [4096, 3462, 1, 1024]
-    - [940, 9669.73]
+    - [967, 9669.63]
   - - [64, 85, 752, 85]
-    - [978, 5186.93]
+    - [1005, 5186.83]
   - - [1024, 3513, 1, 4096]
-    - [956, 9469.15]
+    - [983, 9469.05]
   - - [1024, 3397, 1, 4096]
-    - [959, 9151.77]
+    - [986, 9151.67]
   - - [4096, 3572, 1, 1024]
-    - [939, 9945.7]
+    - [966, 9945.6]
   - - [4096, 3389, 1, 1024]
-    - [951, 9740.86]
+    - [978, 9740.76]
   - - [4096, 3438, 1, 1024]
-    - [951, 9822.47]
+    - [978, 9822.37]
   - - [64, 102, 624, 100]
-    - [986, 5487.0]
+    - [1013, 5486.9]
   - - [1024, 3640, 1, 33708]
-    - [947, 9083.53]
+    - [974, 9083.43]
   - - [1024, 3995, 1, 33708]
-    - [940, 9731.99]
+    - [967, 9731.89]
   - - [1024, 3165, 1, 4096]
-    - [952, 8601.9]
+    - [979, 8601.8]
   - - [4096, 3543, 1, 1024]
-    - [940, 9868.63]
+    - [967, 9868.53]
   - - [4096, 3352, 1, 1024]
-    - [935, 9668.44]
+    - [962, 9668.34]
   - - [1024, 3359, 1, 4096]
-    - [956, 9050.33]
+    - [983, 9050.23]
   - - [1024, 3470, 1, 4096]
-    - [959, 9355.17]
+    - [986, 9355.07]
   - - [64, 15, 4096, 15]
-    - [963, 1945.43]
+    - [990, 1945.33]
   - - [1024, 3392, 1, 4096]
-    - [958, 9139.71]
+    - [985, 9139.61]
   - - [64, 78, 816, 77]
-    - [970, 4870.56]
+    - [997, 4870.46]
   - - [4096, 3137, 1, 1024]
-    - [935, 9600.22]
+    - [962, 9600.12]
   - - [4096, 3506, 1, 1024]
-    - [940, 9779.08]
+    - [967, 9778.98]
   - - [1024, 3095, 1, 4096]
-    - [952, 8381.24]
+    - [979, 8381.14]
   - - [1024, 3859, 1, 4096]
-    - [939, 9288.63]
+    - [966, 9288.53]
   - - [4096, 3369, 1, 1024]
-    - [951, 9697.73]
+    - [978, 9697.63]
   - - [64, 45, 1424, 45]
-    - [988, 3883.74]
+    - [1015, 3883.64]
   - - [1024, 3435, 1, 4096]
-    - [959, 9264.62]
+    - [986, 9264.52]
   - - [1024, 3354, 1, 4096]
-    - [959, 9035.47]
+    - [986, 9035.37]
   - - [1024, 3055, 1, 4096]
-    - [940, 9597.45]
+    - [967, 9597.35]
   - - [4096, 3523, 1, 1024]
-    - [939, 9821.79]
+    - [966, 9821.69]
   - - [4096, 3380, 1, 1024]
-    - [935, 9721.39]
+    - [962, 9721.29]
   - - [1024, 3233, 1, 4096]
-    - [952, 8724.75]
+    - [979, 8724.65]
   - - [4096, 3221, 1, 1024]
-    - [939, 9661.04]
+    - [966, 9660.94]
   - - [4096, 3270, 1, 1024]
-    - [939, 9797.92]
+    - [966, 9797.82]
   - - [4096, 3593, 1, 1024]
-    - [950, 9679.31]
+    - [977, 9679.21]
   - - [1024, 3358, 1, 4096]
-    - [959, 9051.82]
+    - [986, 9051.72]
   - - [1024, 3540, 1, 4096]
-    - [959, 9533.59]
+    - [986, 9533.49]
   - - [4096, 3502, 1, 1024]
-    - [940, 9760.65]
+    - [967, 9760.55]
   - - [4096, 2505, 1, 1024]
-    - [940, 9680.52]
+    - [967, 9680.42]
   - - [4096, 3397, 1, 1024]
-    - [950, 9785.85]
+    - [977, 9785.75]
   - - [1024, 3300, 1, 4096]
-    - [953, 8907.85]
+    - [980, 8907.75]
   - - [4096, 3095, 1, 1024]
-    - [936, 9618.78]
+    - [963, 9618.68]
   - - [1024, 3182, 1, 4096]
-    - [952, 8606.16]
+    - [979, 8606.06]
   - - [1024, 3299, 1, 4096]
-    - [958, 8885.48]
+    - [985, 8885.38]
   - - [1024, 3276, 1, 4096]
-    - [953, 8872.75]
+    - [980, 8872.65]
   - - [1024, 3360, 1, 4096]
-    - [956, 9044.2]
+    - [983, 9044.1]
   - - [4096, 3360, 1, 1024]
-    - [951, 9681.39]
+    - [978, 9681.29]
   - - [4096, 2918, 1, 1024]
-    - [935, 9732.74]
+    - [962, 9732.64]
   - - [1024, 3939, 1, 33708]
-    - [939, 9595.96]
+    - [966, 9595.86]
   - - [4096, 3314, 1, 1024]
-    - [940, 9915.02]
+    - [967, 9914.92]
   - - [1024, 3319, 1, 4096]
-    - [959, 8956.37]
+    - [986, 8956.27]
   - - [64, 35, 1808, 35]
-    - [976, 3060.27]
+    - [1003, 3060.17]
   - - [1024, 3942, 1, 1024]
-    - [952, 9211.83]
+    - [979, 9211.73]
   - - [1024, 3465, 1, 4096]
-    - [959, 9340.73]
+    - [986, 9340.63]
   - - [4096, 3546, 1, 1024]
-    - [940, 9875.41]
+    - [967, 9875.31]
   - - [1024, 3403, 1, 4096]
-    - [952, 9224.34]
+    - [979, 9224.24]
   - - [1024, 3948, 1, 1024]
-    - [938, 9245.63]
+    - [965, 9245.53]
   - - [4096, 3441, 1, 1024]
-    - [951, 9758.72]
+    - [978, 9758.62]
   - - [1024, 3139, 1, 4096]
-    - [952, 8582.84]
+    - [979, 8582.74]
   - - [1024, 3563, 1, 4096]
-    - [959, 9620.74]
+    - [986, 9620.64]
   - - [1024, 3508, 1, 4096]
-    - [956, 9449.36]
+    - [983, 9449.26]
   - - [1024, 3975, 1, 33708]
-    - [939, 9683.55]
+    - [966, 9683.45]
   - - [1024, 3446, 1, 4096]
-    - [958, 9289.51]
+    - [985, 9289.41]
   - - [1024, 3529, 1, 4096]
-    - [955, 9491.29]
+    - [982, 9491.19]
   - - [64, 112, 576, 112]
-    - [980, 6387.14]
+    - [1007, 6387.04]
   - - [4096, 3461, 1, 1024]
-    - [940, 9663.33]
+    - [967, 9663.23]
   - - [1024, 3574, 1, 4096]
-    - [958, 9662.88]
+    - [985, 9662.78]
   - - [1024, 3101, 1, 4096]
-    - [953, 8468.34]
+    - [980, 8468.24]
   - - [1024, 3927, 1, 1024]
-    - [938, 9207.97]
+    - [965, 9207.87]
   - - [4096, 3224, 1, 1024]
-    - [940, 9665.61]
+    - [967, 9665.51]
   - - [4096, 3437, 1, 1024]
-    - [936, 9857.21]
+    - [963, 9857.11]
   - - [4096, 3900, 1, 1024]
-    - [951, 9826.25]
+    - [978, 9826.15]
   - - [1024, 3495, 1, 4096]
-    - [959, 9412.41]
+    - [986, 9412.31]
   - - [1024, 3977, 1, 33708]
-    - [939, 9687.87]
+    - [966, 9687.77]
   - - [1024, 3328, 1, 4096]
-    - [959, 8975.57]
+    - [986, 8975.47]
   - - [4096, 3168, 1, 1024]
-    - [935, 9754.87]
+    - [962, 9754.77]
   - - [1024, 4026, 1, 33708]
-    - [939, 9807.24]
+    - [966, 9807.14]
   - - [1024, 3292, 1, 4096]
-    - [952, 8901.83]
+    - [979, 8901.73]
   - - [1024, 3294, 1, 4096]
-    - [959, 8877.03]
+    - [986, 8876.93]
   - - [4096, 3335, 1, 1024]
-    - [936, 9616.23]
+    - [963, 9616.13]
   - - [4096, 3400, 1, 1024]
-    - [950, 9710.73]
+    - [977, 9710.63]
   - - [1024, 3287, 1, 4096]
-    - [937, 8908.07]
+    - [964, 8907.97]
   - - [1024, 3910, 1, 4096]
-    - [941, 9401.03]
+    - [968, 9400.93]
   - - [1024, 3780, 1, 1024]
-    - [952, 8863.29]
+    - [979, 8863.19]
   - - [4096, 3098, 1, 1024]
-    - [936, 9606.47]
+    - [963, 9606.37]
   - - [1024, 3584, 1, 33708]
-    - [959, 9775.33]
+    - [986, 9775.23]
   - - [64, 29, 2176, 29]
-    - [981, 3135.03]
+    - [1008, 3134.93]
   - - [1024, 3371, 1, 4096]
-    - [937, 9117.81]
+    - [964, 9117.71]
   - - [1024, 3546, 1, 4096]
-    - [959, 9547.3]
+    - [986, 9547.2]
   - - [1024, 4012, 1, 1024]
-    - [941, 9353.73]
+    - [968, 9353.63]
   - - [4096, 3505, 1, 1024]
-    - [939, 9773.17]
+    - [966, 9773.07]
   - - [4096, 3554, 1, 1024]
-    - [939, 9895.59]
+    - [966, 9895.49]
   - - [4096, 3063, 1, 1024]
-    - [939, 9898.98]
+    - [966, 9898.88]
   - - [1024, 3900, 1, 33708]
-    - [940, 9502.93]
+    - [967, 9502.83]
   - - [1024, 3345, 1, 4096]
-    - [959, 9015.85]
+    - [986, 9015.75]
   - - [1024, 3357, 1, 4096]
-    - [959, 9041.23]
+    - [986, 9041.13]
   - - [1024, 3282, 1, 4096]
-    - [952, 8860.17]
+    - [979, 8860.07]
   - - [4096, 3484, 1, 1024]
-    - [940, 9721.33]
+    - [967, 9721.23]
   - - [1024, 3557, 1, 4096]
-    - [956, 9573.48]
+    - [983, 9573.38]
   - - [1024, 3476, 1, 4096]
-    - [959, 9361.72]
+    - [986, 9361.62]
   - - [1024, 3751, 1, 1024]
-    - [953, 8849.11]
+    - [980, 8849.01]
   - - [4096, 3379, 1, 1024]
-    - [936, 9741.49]
+    - [963, 9741.39]
   - - [4096, 3428, 1, 1024]
-    - [935, 9767.82]
+    - [962, 9767.72]
   - - [4096, 3126, 1, 1024]
-    - [950, 9701.9]
+    - [977, 9701.8]
   - - [64, 41, 1552, 41]
-    - [985, 3555.69]
+    - [1012, 3555.59]
   - - [1024, 3325, 1, 4096]
-    - [937, 8962.41]
+    - [964, 8962.31]
   - - [4096, 3501, 1, 1024]
-    - [939, 9762.01]
+    - [966, 9761.91]
   - - [4096, 3358, 1, 1024]
-    - [935, 9680.42]
+    - [962, 9680.32]
   - - [1024, 3441, 1, 4096]
-    - [959, 9271.27]
+    - [986, 9271.17]
   - - [1024, 3552, 1, 4096]
-    - [955, 9565.42]
+    - [982, 9565.32]
   - - [4096, 3232, 1, 1024]
-    - [940, 9696.81]
+    - [967, 9696.71]
   - - [64, 18, 3440, 18]
-    - [960, 2059.33]
+    - [987, 2059.23]
   - - [1024, 3412, 1, 4096]
-    - [959, 9199.28]
+    - [986, 9199.18]
   - - [1024, 3372, 1, 4096]
-    - [956, 9083.49]
+    - [983, 9083.39]
   - - [1024, 3585, 1, 4096]
-    - [946, 8710.29]
+    - [973, 8710.19]
   - - [4096, 3143, 1, 1024]
-    - [951, 9692.12]
+    - [978, 9692.02]
   - - [4096, 3464, 1, 1024]
-    - [939, 9661.93]
+    - [966, 9661.83]
   - - [1024, 3145, 1, 4096]
-    - [938, 8526.33]
+    - [965, 8526.23]
   - - [4096, 3375, 1, 1024]
-    - [950, 9734.78]
+    - [977, 9734.68]
   - - [4096, 2917, 1, 1024]
-    - [935, 9714.57]
+    - [962, 9714.47]
   - - [4096, 3978, 1, 1024]
-    - [940, 9741.43]
+    - [967, 9741.33]
   - - [1024, 2765, 1, 4096]
-    - [941, 8706.75]
+    - [968, 8706.65]
   - - [64, 148, 432, 148]
-    - [966, 6372.17]
+    - [993, 6372.07]
   - - [1024, 3452, 1, 4096]
-    - [958, 9301.38]
+    - [985, 9301.28]
   - - [4096, 3584, 1, 1024]
-    - [940, 10005.7]
+    - [967, 10005.6]
   - - [4096, 3545, 1, 1024]
-    - [940, 9877.87]
+    - [967, 9877.77]
   - - [1024, 3352, 1, 4096]
-    - [959, 9035.19]
+    - [986, 9035.09]
   - - [64, 159, 400, 160]
-    - [968, 6952.11]
+    - [995, 6952.01]
   - - [4096, 3292, 1, 1024]
-    - [939, 9856.51]
+    - [966, 9856.41]
   - - [1024, 3525, 1, 4096]
-    - [959, 9501.5]
+    - [986, 9501.4]
   - - [1024, 3266, 1, 4096]
-    - [959, 8817.43]
+    - [986, 8817.33]
   - - [1024, 3382, 1, 4096]
-    - [958, 9101.54]
+    - [985, 9101.44]
   - - [4096, 3492, 1, 1024]
-    - [939, 9747.29]
+    - [966, 9747.19]
   - - [4096, 3419, 1, 1024]
-    - [951, 9745.88]
+    - [978, 9745.78]
   - - [1024, 3796, 1, 33708]
-    - [948, 9356.26]
+    - [975, 9356.16]
   - - [1024, 3293, 1, 4096]
-    - [955, 8868.4]
+    - [982, 8868.3]
   - - [4096, 3796, 1, 1024]
-    - [940, 9885.36]
+    - [967, 9885.26]
   - - [1024, 3487, 1, 4096]
-    - [956, 9391.34]
+    - [983, 9391.24]
   - - [4096, 3166, 1, 1024]
-    - [951, 9718.46]
+    - [978, 9718.36]
   - - [64, 102, 624, 101]
-    - [980, 5547.84]
+    - [1007, 5547.74]
   - - [1024, 3409, 1, 4096]
-    - [959, 9187.88]
+    - [986, 9187.78]
   - - [1024, 3520, 1, 4096]
-    - [958, 9485.09]
+    - [985, 9484.99]
   - - [1024, 3573, 1, 4096]
-    - [959, 9652.71]
+    - [986, 9652.61]
   - - [4096, 3366, 1, 1024]
-    - [935, 9684.31]
+    - [962, 9684.21]
   - - [4096, 3720, 1, 1024]
-    - [951, 9703.34]
+    - [978, 9703.24]
   - - [4096, 3207, 1, 1024]
-    - [939, 9626.21]
+    - [966, 9626.11]
   - - [4096, 3272, 1, 1024]
-    - [939, 9795.51]
+    - [966, 9795.41]
   - - [1024, 3390, 1, 4096]
-    - [959, 9125.88]
+    - [986, 9125.78]
   - - [4096, 3183, 1, 1024]
-    - [951, 9825.87]
+    - [978, 9825.77]
   - - [4096, 3536, 1, 1024]
-    - [940, 9846.51]
+    - [967, 9846.41]
   - - [4096, 3563, 1, 1024]
-    - [940, 9913.8]
+    - [967, 9913.7]
   - - [1024, 3482, 1, 4096]
-    - [959, 9376.91]
+    - [986, 9376.81]
   - - [4096, 3447, 1, 1024]
-    - [950, 9875.09]
+    - [977, 9874.99]
   - - [4096, 3955, 1, 1024]
-    - [935, 9922.39]
+    - [962, 9922.29]
   - - [4096, 4005, 1, 1024]
-    - [940, 9803.43]
+    - [967, 9803.33]
   - - [1024, 3493, 1, 4096]
-    - [959, 9411.37]
+    - [986, 9411.27]
   - - [4096, 3410, 1, 1024]
-    - [935, 9788.34]
+    - [962, 9788.24]
   - - [1024, 3422, 1, 4096]
-    - [958, 9216.28]
+    - [985, 9216.18]
   - - [1024, 3350, 1, 4096]
-    - [953, 9068.02]
+    - [980, 9067.92]
   - - [4096, 3300, 1, 1024]
-    - [940, 9883.29]
+    - [967, 9883.19]
   - - [4096, 3910, 1, 1024]
-    - [950, 9800.12]
+    - [977, 9800.02]
   - - [1024, 3489, 1, 4096]
-    - [959, 9398.66]
+    - [986, 9398.56]
   - - [4096, 3483, 1, 1024]
-    - [939, 9715.96]
+    - [966, 9715.86]
   - - [4096, 3532, 1, 1024]
-    - [940, 9837.99]
+    - [967, 9837.89]
   - - [64, 101, 624, 101]
-    - [980, 5452.28]
+    - [1007, 5452.18]
   - - [4096, 3230, 1, 1024]
-    - [940, 9683.6]
+    - [967, 9683.5]
   - - [4096, 3427, 1, 1024]
-    - [935, 9760.72]
+    - [962, 9760.62]
   - - [1024, 3377, 1, 4096]
-    - [959, 9101.17]
+    - [986, 9101.07]
   - - [1024, 3488, 1, 4096]
-    - [958, 9381.99]
+    - [985, 9381.89]
   - - [1024, 3616, 1, 4096]
-    - [941, 8709.33]
+    - [968, 8709.23]
   - - [1024, 3426, 1, 4096]
-    - [959, 9229.43]
+    - [986, 9229.33]
   - - [4096, 3357, 1, 1024]
-    - [951, 9668.5]
+    - [978, 9668.4]
   - - [4096, 3406, 1, 1024]
-    - [936, 9748.57]
+    - [963, 9748.47]
   - - [1024, 3046, 1, 4096]
-    - [941, 9590.43]
+    - [968, 9590.33]
   - - [1024, 3272, 1, 4096]
-    - [952, 8930.2]
+    - [979, 8930.1]
   - - [1024, 3256, 1, 4096]
-    - [937, 8828.16]
+    - [964, 8828.06]
   - - [4096, 3247, 1, 1024]
-    - [939, 9741.81]
+    - [966, 9741.71]
   - - [4096, 3088, 1, 1024]
-    - [951, 9589.07]
+    - [978, 9588.97]
   - - [1024, 3531, 1, 4096]
-    - [958, 9501.06]
+    - [985, 9500.96]
   - - [64, 160, 400, 160]
-    - [994, 7334.03]
+    - [1021, 7333.93]
   - - [4096, 3511, 1, 1024]
-    - [940, 9789.38]
+    - [967, 9789.28]
   - - [1024, 3720, 1, 33708]
-    - [949, 9214.68]
+    - [976, 9214.58]
   - - [1024, 3267, 1, 4096]
-    - [952, 8831.04]
+    - [979, 8830.94]
   - - [1024, 3270, 1, 4096]
-    - [953, 8876.68]
+    - [980, 8876.58]
   - - [1024, 3461, 1, 4096]
-    - [958, 9327.55]
+    - [985, 9327.45]
   - - [4096, 3474, 1, 1024]
-    - [939, 9697.04]
+    - [966, 9696.94]
   - - [4096, 2984, 1, 1024]
-    - [940, 9674.08]
+    - [967, 9673.98]
   - - [1024, 3399, 1, 4096]
-    - [958, 9158.58]
+    - [985, 9158.48]
   - - [4096, 3574, 1, 1024]
-    - [939, 9942.3]
+    - [966, 9942.2]
   - - [1024, 3876, 1, 1024]
-    - [953, 9085.13]
+    - [980, 9085.03]
   - - [4096, 3337, 1, 1024]
-    - [936, 9611.43]
+    - [963, 9611.33]
   - - [4096, 3450, 1, 1024]
-    - [951, 9930.35]
+    - [978, 9930.25]
   - - [1024, 3720, 1, 1024]
-    - [937, 8755.49]
+    - [964, 8755.39]
   - - [1024, 4059, 1, 1024]
-    - [942, 9366.67]
+    - [969, 9366.57]
   - - [4096, 3291, 1, 1024]
-    - [939, 9856.33]
+    - [966, 9856.23]
   - - [64, 93, 688, 93]
-    - [983, 5497.11]
+    - [1010, 5497.01]
   - - [4096, 3995, 1, 1024]
-    - [939, 9776.67]
+    - [966, 9776.57]
   - - [64, 147, 432, 147]
-    - [969, 6233.88]
+    - [996, 6233.78]
   - - [4096, 3491, 1, 1024]
-    - [939, 9742.94]
+    - [966, 9742.84]
   - - [4096, 3348, 1, 1024]
-    - [951, 9634.11]
+    - [978, 9634.01]
   - - [4096, 3925, 1, 1024]
-    - [950, 9848.54]
+    - [977, 9848.44]
   - - [4096, 3894, 1, 1024]
-    - [950, 9812.55]
+    - [977, 9812.45]
   - - [1024, 3456, 1, 4096]
-    - [959, 9317.91]
+    - [986, 9317.81]
   - - [1024, 3394, 1, 4096]
-    - [958, 9148.86]
+    - [985, 9148.76]
   - - [64, 100, 624, 102]
-    - [980, 5416.95]
+    - [1007, 5416.85]
   - - [4096, 3165, 1, 1024]
-    - [950, 9743.35]
+    - [977, 9743.25]
   - - [4096, 3470, 1, 1024]
-    - [940, 9691.04]
+    - [967, 9690.94]
   - - [1024, 3014, 1, 4096]
-    - [941, 9486.26]
+    - [968, 9486.16]
   - - [1024, 3375, 1, 4096]
-    - [959, 9082.71]
+    - [986, 9082.61]
   - - [4096, 3859, 1, 1024]
-    - [950, 9738.87]
+    - [977, 9738.77]
   - - [4096, 3365, 1, 1024]
-    - [951, 9694.74]
+    - [978, 9694.64]
   - - [1024, 3162, 1, 4096]
-    - [952, 8550.31]
+    - [979, 8550.21]
   - - [1024, 3840, 1, 33708]
-    - [949, 9409.08]
+    - [976, 9408.98]
   - - [1024, 3437, 1, 4096]
-    - [959, 9270.49]
+    - [986, 9270.39]
   - - [4096, 3319, 1, 1024]
-    - [940, 9927.15]
+    - [967, 9927.05]
   - - [1024, 3320, 1, 4096]
-    - [959, 8962.29]
+    - [986, 8962.19]
   - - [64, 23, 2720, 23]
-    - [982, 2569.53]
+    - [1009, 2569.43]
   - - [4096, 3328, 1, 1024]
-    - [939, 9997.41]
+    - [966, 9997.31]
   - - [1024, 3235, 1, 4096]
-    - [959, 8724.31]
+    - [986, 8724.21]
   - - [4096, 3282, 1, 1024]
-    - [940, 9827.13]
+    - [967, 9827.03]
   - - [1024, 3367, 1, 4096]
-    - [952, 9084.02]
+    - [979, 9083.92]
   - - [1024, 3542, 1, 4096]
-    - [959, 9533.1]
+    - [986, 9533.0]
   - - [64, 177, 352, 177]
-    - [945, 6817.91]
+    - [972, 6817.81]
   - - [4096, 3145, 1, 1024]
-    - [936, 9710.28]
+    - [963, 9710.18]
   - - [4096, 3514, 1, 1024]
-    - [939, 9793.06]
+    - [966, 9792.96]
   - - [1024, 3432, 1, 4096]
-    - [959, 9249.39]
+    - [986, 9249.29]
   - - [4096, 3409, 1, 1024]
-    - [935, 9721.6]
+    - [962, 9721.5]
   - - [1024, 4012, 1, 33708]
-    - [939, 9773.35]
+    - [966, 9773.25]
   - - [4096, 3876, 1, 1024]
-    - [936, 9745.65]
+    - [963, 9745.55]
   - - [4096, 3299, 1, 1024]
-    - [939, 9873.53]
+    - [966, 9873.43]
   - - [1024, 3168, 1, 4096]
-    - [952, 8597.13]
+    - [979, 8597.03]
   - - [4096, 3681, 1, 1024]
-    - [951, 9840.03]
+    - [978, 9839.93]
   - - [4096, 3531, 1, 1024]
-    - [940, 9847.76]
+    - [967, 9847.66]
   - - [4096, 3388, 1, 1024]
-    - [951, 9772.28]
+    - [978, 9772.18]
   - - [1024, 3720, 1, 4096]
-    - [940, 8951.6]
+    - [967, 8951.5]
   - - [1024, 3332, 1, 4096]
-    - [959, 8978.97]
+    - [986, 8978.87]
   - - [1024, 3273, 1, 4096]
-    - [953, 8982.49]
+    - [980, 8982.39]
   - - [1024, 2935, 1, 4096]
-    - [942, 9224.89]
+    - [969, 9224.79]
   - - [1024, 3467, 1, 4096]
-    - [956, 9329.33]
+    - [983, 9329.23]
   - - [4096, 3542, 1, 1024]
-    - [939, 9858.51]
+    - [966, 9858.41]
   - - [1024, 3130, 1, 4096]
-    - [938, 8526.66]
+    - [965, 8526.56]
   - - [1024, 3405, 1, 4096]
-    - [959, 9163.44]
+    - [986, 9163.34]
   - - [1024, 3960, 1, 1024]
-    - [937, 9280.36]
+    - [964, 9280.26]
   - - [4096, 3405, 1, 1024]
-    - [950, 9710.2]
+    - [977, 9710.1]
   - - [512, 512, 1, 1024]
-    - [1136, 6670.96]
+    - [1163, 6670.86]
   - - [8, 500, 1, 512]
-    - [1032, 228.671]
+    - [1059, 228.571]
   - - [512, 512, 1, 2000]
-    - [1169, 7629.44]
+    - [1196, 7629.34]
   - - [32, 512, 1, 512]
-    - [1029, 904.045]
+    - [1056, 903.945]
   - - [100, 1024, 1, 2048]
-    - [1091, 3196.98]
+    - [1118, 3196.88]
   - - [8, 512, 1, 500]
-    - [1022, 237.137]
+    - [1049, 237.037]
   - - [8, 500, 1, 1024]
-    - [1086, 289.366]
+    - [1113, 289.266]
   - - [100, 2000, 1, 1024]
-    - [1125, 3368.52]
+    - [1152, 3368.42]
   - - [64, 1024, 1, 100]
-    - [1024, 941.709]
+    - [1051, 941.609]
   - - [64, 1024, 1, 500]
-    - [1151, 2659.84]
+    - [1178, 2659.74]
   - - [64, 1024, 1, 1024]
-    - [1089, 2452.91]
+    - [1116, 2452.81]
   - - [128, 2000, 1, 100]
-    - [1145, 2560.1]
+    - [1172, 2560.0]
   - - [2, 500, 1, 2048]
-    - [1086, 72.2127]
+    - [1113, 72.1127]
   - - [16, 512, 1, 10]
-    - [1000, 18.3857]
+    - [1027, 18.2857]
   - - [64, 2000, 1, 1024]
-    - [1156, 2800.78]
+    - [1183, 2800.68]
   - - [100, 1024, 1, 1024]
-    - [1084, 3034.17]
+    - [1111, 3034.07]
   - - [8, 512, 1, 10]
-    - [1062, 9.24286]
+    - [1089, 9.14286]
   - - [16, 500, 1, 2048]
-    - [1086, 565.846]
+    - [1113, 565.746]
   - - [10, 100, 1, 500]
-    - [1022, 58.5112]
+    - [1049, 58.4112]
   - - [16, 100, 1, 10]
-    - [1062, 3.67143]
+    - [1089, 3.57143]
   - - [500, 1024, 1, 512]
-    - [1152, 6514.61]
+    - [1179, 6514.51]
   - - [128, 1024, 1, 512]
-    - [1170, 4194.4]
+    - [1197, 4194.3]
   - - [512, 500, 1, 2000]
-    - [1128, 7347.98]
+    - [1155, 7347.88]
   - - [2, 100, 1, 2000]
-    - [1022, 20.9333]
+    - [1049, 20.8333]
   - - [500, 512, 1, 100]
-    - [1144, 2539.78]
+    - [1171, 2539.68]
   - - [100, 1024, 1, 500]
-    - [1170, 3216.18]
+    - [1197, 3216.08]
   - - [256, 100, 1, 2048]
-    - [1180, 1689.17]
+    - [1207, 1689.07]
   - - [2, 512, 1, 512]
-    - [1036, 50.5123]
+    - [1063, 50.4123]
   - - [128, 2000, 1, 512]
-    - [1156, 4641.46]
+    - [1183, 4641.36]
   - - [2, 100, 1, 10]
-    - [1000, 0.496825]
+    - [1027, 0.396825]
   - - [16, 2000, 1, 2048]
-    - [1044, 1266.25]
+    - [1071, 1266.15]
   - - [200, 100, 1, 100]
-    - [1190, 316.556]
+    - [1217, 316.456]
   - - [256, 1024, 1, 100]
-    - [1146, 2686.0]
+    - [1173, 2685.9]
   - - [200, 500, 1, 1024]
-    - [1195, 3282.15]
+    - [1222, 3282.05]
   - - [500, 100, 1, 100]
-    - [1109, 631.413]
+    - [1136, 631.313]
   - - [4, 100, 1, 10]
-    - [1007, 0.977193]
+    - [1034, 0.877193]
   - - [32, 100, 1, 512]
-    - [1086, 198.935]
+    - [1113, 198.835]
   - - [100, 2000, 1, 512]
-    - [1156, 3832.44]
+    - [1183, 3832.34]
   - - [16, 1024, 1, 512]
-    - [1070, 794.476]
+    - [1097, 794.376]
   - - [200, 512, 1, 100]
-    - [1188, 1306.22]
+    - [1215, 1306.12]
   - - [4, 1024, 1, 1024]
-    - [1029, 213.225]
+    - [1056, 213.125]
   - - [512, 1024, 1, 512]
-    - [1153, 7049.35]
+    - [1180, 7049.25]
   - - [4, 512, 1, 10]
-    - [1061, 4.59123]
+    - [1088, 4.49123]
   - - [2, 2048, 1, 2000]
-    - [1022, 300.393]
+    - [1049, 300.293]
   - - [64, 2048, 1, 10]
-    - [1182, 241.041]
+    - [1209, 240.941]
   - - [128, 100, 1, 10]
-    - [1187, 27.6862]
+    - [1214, 27.5862]
   - - [4, 512, 1, 2048]
-    - [1022, 146.549]
+    - [1049, 146.449]
   - - [64, 2048, 1, 500]
-    - [1162, 4015.79]
+    - [1189, 4015.69]
   - - [512, 512, 1, 512]
-    - [1117, 6123.17]
+    - [1144, 6123.07]
   - - [500, 500, 1, 2000]
-    - [1128, 7126.67]
+    - [1155, 7126.57]
   - - [10, 1024, 1, 2000]
-    - [1095, 807.671]
+    - [1122, 807.571]
   - - [256, 100, 1, 100]
-    - [1107, 296.396]
+    - [1134, 296.296]
   - - [32, 2000, 1, 2048]
-    - [1050, 2167.3]
+    - [1077, 2167.2]
   - - [64, 1024, 1, 2048]
-    - [1083, 2383.23]
+    - [1110, 2383.13]
   - - [200, 2048, 1, 512]
-    - [1158, 5264.04]
+    - [1185, 5263.94]
   - - [256, 500, 1, 10]
-    - [1140, 210.626]
+    - [1167, 210.526]
   - - [16, 1024, 1, 100]
-    - [1020, 262.664]
+    - [1047, 262.564]
   - - [32, 1024, 1, 1024]
-    - [1025, 1476.97]
+    - [1052, 1476.87]
   - - [512, 500, 1, 512]
-    - [1114, 5851.53]
+    - [1141, 5851.43]
   - - [128, 1024, 1, 2000]
-    - [1198, 5516.6]
+    - [1225, 5516.5]
   - - [8, 100, 1, 500]
-    - [1022, 46.3963]
+    - [1049, 46.2963]
   - - [100, 2000, 1, 2048]
-    - [1177, 3715.63]
+    - [1204, 3715.53]
   - - [10, 512, 1, 512]
-    - [1032, 292.671]
+    - [1059, 292.571]
   - - [8, 500, 1, 10]
-    - [1061, 8.87193]
+    - [1088, 8.77193]
   - - [10, 2000, 1, 1024]
-    - [1075, 640.1]
+    - [1102, 640.0]
   - - [16, 1024, 1, 10]
-    - [1060, 36.6714]
+    - [1087, 36.5714]
   - - [16, 512, 1, 2048]
-    - [1039, 585.897]
+    - [1066, 585.797]
   - - [256, 512, 1, 10]
-    - [1105, 230.861]
+    - [1132, 230.761]
   - - [2, 2000, 1, 100]
-    - [1067, 64.2026]
+    - [1094, 64.1026]
   - - [128, 512, 1, 2048]
-    - [1034, 3106.99]
+    - [1061, 3106.89]
   - - [128, 512, 1, 100]
-    - [1027, 952.658]
+    - [1054, 952.558]
   - - [512, 2000, 1, 1024]
-    - [1124, 8066.07]
+    - [1151, 8065.97]
   - - [64, 500, 1, 2048]
-    - [1193, 1857.7]
+    - [1220, 1857.6]
   - - [64, 2000, 1, 2048]
-    - [1175, 3442.12]
+    - [1202, 3442.02]
   - - [64, 2048, 1, 512]
-    - [1176, 3315.76]
+    - [1203, 3315.66]
   - - [10, 2000, 1, 512]
-    - [1022, 785.376]
+    - [1049, 785.276]
   - - [32, 2000, 1, 500]
-    - [1025, 2500.1]
+    - [1052, 2500.0]
   - - [64, 2000, 1, 10]
-    - [1013, 231.984]
+    - [1040, 231.884]
   - - [500, 100, 1, 10]
-    - [1110, 88.1282]
+    - [1137, 88.0282]
   - - [128, 1024, 1, 500]
-    - [1161, 4096.1]
+    - [1188, 4096.0]
   - - [64, 100, 1, 2048]
-    - [1022, 587.34]
+    - [1049, 587.24]
   - - [64, 100, 1, 10]
-    - [1181, 12.0403]
+    - [1208, 11.9403]
   - - [16, 512, 1, 500]
-    - [1032, 461.361]
+    - [1059, 461.261]
   - - [32, 2000, 1, 1024]
-    - [1019, 1713.91]
+    - [1046, 1713.81]
   - - [200, 512, 1, 1024]
-    - [1198, 3244.46]
+    - [1225, 3244.36]
   - - [128, 2048, 1, 10]
-    - [1014, 455.211]
+    - [1041, 455.111]
   - - [200, 100, 1, 2000]
-    - [1022, 1462.09]
+    - [1049, 1461.99]
   - - [2, 100, 1, 512]
-    - [1022, 12.5272]
+    - [1049, 12.4272]
   - - [64, 2048, 1, 100]
-    - [1188, 1689.17]
+    - [1215, 1689.07]
   - - [32, 512, 1, 100]
-    - [1021, 266.074]
+    - [1048, 265.974]
   - - [16, 512, 1, 1024]
-    - [1086, 569.978]
+    - [1113, 569.878]
   - - [4, 1024, 1, 512]
-    - [1076, 208.151]
+    - [1103, 208.051]
   - - [64, 2000, 1, 100]
-    - [1188, 1649.58]
+    - [1215, 1649.48]
   - - [512, 2048, 1, 512]
-    - [1124, 7849.09]
+    - [1151, 7848.99]
   - - [2, 500, 1, 500]
-    - [1010, 53.5188]
+    - [1037, 53.4188]
   - - [32, 100, 1, 100]
-    - [1021, 57.2429]
+    - [1048, 57.1429]
   - - [100, 500, 1, 2000]
-    - [1025, 2784.06]
+    - [1052, 2783.96]
   - - [200, 2000, 1, 100]
-    - [1097, 2994.11]
+    - [1124, 2994.01]
   - - [10, 512, 1, 10]
-    - [1057, 11.1345]
+    - [1084, 11.0345]
   - - [100, 500, 1, 2048]
-    - [1197, 2361.72]
+    - [1224, 2361.62]
   - - [4, 2048, 1, 500]
-    - [1032, 379.359]
+    - [1059, 379.259]
   - - [200, 500, 1, 100]
-    - [1158, 1288.76]
+    - [1185, 1288.66]
   - - [500, 500, 1, 500]
-    - [1114, 5425.45]
+    - [1141, 5425.35]
   - - [2, 100, 1, 1024]
-    - [1086, 16.3025]
+    - [1113, 16.2025]
   - - [128, 2048, 1, 512]
-    - [1172, 4699.6]
+    - [1199, 4699.5]
   - - [200, 2000, 1, 1024]
-    - [1122, 4621.04]
+    - [1149, 4620.94]
   - - [32, 512, 1, 1024]
-    - [1085, 1028.12]
+    - [1112, 1028.02]
   - - [100, 2048, 1, 500]
-    - [1146, 4142.49]
+    - [1173, 4142.39]
   - - [256, 100, 1, 1024]
-    - [1176, 1443.62]
+    - [1203, 1443.52]
   - - [16, 2000, 1, 500]
-    - [1071, 1428.67]
+    - [1098, 1428.57]
   - - [128, 100, 1, 100]
-    - [1021, 213.433]
+    - [1048, 213.333]
   - - [500, 500, 1, 2048]
-    - [1118, 6639.1]
+    - [1145, 6639.0]
   - - [32, 512, 1, 10]
-    - [1054, 36.0298]
+    - [1081, 35.9298]
   - - [128, 100, 1, 1024]
-    - [1082, 791.598]
+    - [1109, 791.498]
   - - [16, 500, 1, 2000]
-    - [1095, 694.544]
+    - [1122, 694.444]
   - - [4, 2048, 1, 100]
-    - [1066, 129.72]
+    - [1093, 129.62]
   - - [64, 500, 1, 500]
-    - [1008, 1333.43]
+    - [1035, 1333.33]
   - - [500, 1024, 1, 2048]
-    - [1127, 7031.86]
+    - [1154, 7031.76]
   - - [512, 2048, 1, 100]
-    - [1102, 5285.26]
+    - [1129, 5285.16]
   - - [128, 512, 1, 1024]
-    - [1194, 2519.2]
+    - [1221, 2519.1]
   - - [128, 512, 1, 2000]
-    - [1192, 3608.91]
+    - [1219, 3608.81]
   - - [128, 2000, 1, 2000]
-    - [1165, 7017.64]
+    - [1192, 7017.54]
   - - [2, 512, 1, 10]
-    - [1058, 2.13175]
+    - [1085, 2.03175]
   - - [10, 512, 1, 500]
-    - [1022, 293.678]
+    - [1049, 293.578]
   - - [4, 1024, 1, 2000]
-    - [1042, 326.215]
+    - [1069, 326.115]
   - - [256, 100, 1, 2000]
-    - [1179, 1768.06]
+    - [1206, 1767.96]
   - - [512, 2048, 1, 2000]
-    - [1124, 8674.62]
+    - [1151, 8674.52]
   - - [100, 100, 1, 10]
-    - [1186, 21.6517]
+    - [1213, 21.5517]
   - - [256, 500, 1, 1024]
-    - [1126, 4833.14]
+    - [1153, 4833.04]
   - - [128, 512, 1, 10]
-    - [1014, 132.229]
+    - [1041, 132.129]
   - - [256, 100, 1, 500]
-    - [1173, 914.386]
+    - [1200, 914.286]
   - - [64, 100, 1, 512]
-    - [1080, 369.109]
+    - [1107, 369.009]
   - - [64, 512, 1, 500]
-    - [1022, 1600.1]
+    - [1049, 1600.0]
   - - [64, 2048, 1, 2000]
-    - [1176, 5925.6]
+    - [1203, 5925.5]
   - - [100, 2048, 1, 1024]
-    - [1134, 3260.6]
+    - [1161, 3260.5]
   - - [200, 2000, 1, 10]
-    - [1014, 595.338]
+    - [1041, 595.238]
   - - [128, 1024, 1, 100]
-    - [1158, 1689.17]
+    - [1185, 1689.07]
   - - [16, 2000, 1, 100]
-    - [1021, 493.927]
+    - [1048, 493.827]
   - - [8, 100, 1, 512]
-    - [1022, 49.8087]
+    - [1049, 49.7087]
   - - [500, 2048, 1, 1024]
-    - [1124, 7651.71]
+    - [1151, 7651.61]
   - - [500, 2000, 1, 10]
-    - [1112, 1008.16]
+    - [1139, 1008.06]
   - - [32, 100, 1, 500]
-    - [1086, 187.016]
+    - [1113, 186.916]
   - - [256, 1024, 1, 2048]
-    - [1127, 6190.95]
+    - [1154, 6190.85]
   - - [32, 500, 1, 2048]
-    - [1022, 1083.7]
+    - [1049, 1083.6]
   - - [4, 2000, 1, 10]
-    - [1065, 17.6439]
+    - [1092, 17.5439]
   - - [128, 500, 1, 2000]
-    - [1082, 3516.58]
+    - [1109, 3516.48]
   - - [8, 1024, 1, 10]
-    - [1056, 18.0649]
+    - [1083, 17.9649]
   - - [2, 500, 1, 100]
-    - [1001, 16.1256]
+    - [1028, 16.0256]
   - - [10, 500, 1, 512]
-    - [1022, 291.009]
+    - [1049, 290.909]
   - - [10, 2000, 1, 10]
-    - [1000, 38.5615]
+    - [1027, 38.4615]
   - - [500, 512, 1, 512]
-    - [1117, 5893.63]
+    - [1144, 5893.53]
   - - [32, 500, 1, 500]
-    - [1022, 892.957]
+    - [1049, 892.857]
   - - [256, 500, 1, 2000]
-    - [1131, 6237.92]
+    - [1158, 6237.82]
   - - [100, 500, 1, 100]
-    - [1033, 726.844]
+    - [1060, 726.744]
   - - [500, 2048, 1, 100]
-    - [1106, 4867.02]
+    - [1133, 4866.92]
   - - [10, 1024, 1, 512]
-    - [1022, 520.227]
+    - [1049, 520.127]
   - - [2, 2048, 1, 512]
-    - [1032, 151.628]
+    - [1059, 151.528]
   - - [256, 512, 1, 100]
-    - [1111, 1590.78]
+    - [1138, 1590.68]
   - - [10, 2048, 1, 100]
-    - [1022, 324.151]
+    - [1049, 324.051]
   - - [8, 2048, 1, 100]
-    - [1077, 256.1]
+    - [1104, 256.0]
   - - [512, 100, 1, 512]
-    - [1173, 2100.61]
+    - [1200, 2100.51]
   - - [4, 500, 1, 500]
-    - [1022, 115.841]
+    - [1049, 115.741]
   - - [64, 100, 1, 1024]
-    - [1022, 450.21]
+    - [1049, 450.11]
   - - [2, 2048, 1, 1024]
-    - [1079, 137.708]
+    - [1106, 137.608]
   - - [2, 500, 1, 2000]
-    - [1048, 90.3527]
+    - [1075, 90.2527]
   - - [512, 1024, 1, 500]
-    - [1153, 6898.63]
+    - [1180, 6898.53]
   - - [128, 2000, 1, 500]
-    - [1158, 5161.39]
+    - [1185, 5161.29]
   - - [32, 512, 1, 2048]
-    - [1092, 1103.86]
+    - [1119, 1103.76]
   - - [10, 100, 1, 2000]
-    - [1022, 106.032]
+    - [1049, 105.932]
   - - [4, 100, 1, 512]
-    - [1022, 24.7154]
+    - [1049, 24.6154]
   - - [2, 512, 1, 2048]
-    - [1086, 73.3246]
+    - [1113, 73.2246]
   - - [200, 512, 1, 2048]
-    - [1198, 3954.01]
+    - [1225, 3953.91]
   - - [200, 2000, 1, 2000]
-    - [1160, 6230.63]
+    - [1187, 6230.53]
   - - [100, 100, 1, 2000]
-    - [1022, 827.915]
+    - [1049, 827.815]
   - - [500, 2048, 1, 2000]
-    - [1123, 8388.04]
+    - [1150, 8387.94]
   - - [64, 2048, 1, 2048]
-    - [1168, 3406.64]
+    - [1195, 3406.54]
   - - [16, 2000, 1, 1024]
-    - [1028, 1024.1]
+    - [1055, 1024.0]
   - - [512, 2048, 1, 1024]
-    - [1101, 8061.22]
+    - [1128, 8061.12]
   - - [10, 500, 1, 500]
-    - [1032, 284.191]
+    - [1059, 284.091]
   - - [200, 1024, 1, 2048]
-    - [1196, 4886.29]
+    - [1223, 4886.19]
   - - [10, 2000, 1, 2000]
-    - [1022, 1449.38]
+    - [1049, 1449.28]
   - - [8, 2000, 1, 500]
-    - [1071, 719.524]
+    - [1098, 719.424]
   - - [2, 100, 1, 2048]
-    - [1086, 19.945]
+    - [1113, 19.845]
   - - [32, 100, 1, 2048]
-    - [1086, 323.894]
+    - [1113, 323.794]
   - - [512, 512, 1, 10]
-    - [1143, 420.203]
+    - [1170, 420.103]
   - - [512, 500, 1, 10]
-    - [1148, 376.571]
+    - [1175, 376.471]
   - - [16, 100, 1, 1024]
-    - [1032, 129.72]
+    - [1059, 129.62]
   - - [2, 500, 1, 10]
-    - [996, 2.21864]
+    - [1023, 2.11864]
   - - [200, 512, 1, 10]
-    - [998, 188.335]
+    - [1025, 188.235]
   - - [512, 1024, 1, 100]
-    - [1098, 3877.97]
+    - [1125, 3877.87]
   - - [16, 2000, 1, 2000]
-    - [1022, 2222.32]
+    - [1049, 2222.22]
   - - [500, 500, 1, 1024]
-    - [1118, 6130.37]
+    - [1145, 6130.27]
   - - [500, 100, 1, 2048]
-    - [1173, 2949.41]
+    - [1200, 2949.31]
   - - [256, 1024, 1, 512]
-    - [1137, 5886.84]
+    - [1164, 5886.74]
   - - [256, 500, 1, 512]
-    - [1115, 4380.85]
+    - [1142, 4380.75]
   - - [16, 1024, 1, 2000]
-    - [1086, 1208.36]
+    - [1113, 1208.26]
   - - [200, 500, 1, 2048]
-    - [1198, 3855.52]
+    - [1225, 3855.42]
   - - [256, 2000, 1, 10]
-    - [1100, 727.373]
+    - [1127, 727.273]
   - - [10, 2048, 1, 2048]
-    - [1053, 823.158]
+    - [1080, 823.058]
   - - [512, 2000, 1, 100]
-    - [1102, 5120.1]
+    - [1129, 5120.0]
   - - [10, 1024, 1, 1024]
-    - [1029, 553.146]
+    - [1056, 553.046]
   - - [512, 2000, 1, 2048]
-    - [1130, 7563.4]
+    - [1157, 7563.3]
   - - [500, 1024, 1, 500]
-    - [1154, 6570.94]
+    - [1181, 6570.84]
   - - [500, 100, 1, 512]
-    - [1173, 2038.32]
+    - [1200, 2038.22]
   - - [256, 2000, 1, 100]
-    - [1122, 3764.81]
+    - [1149, 3764.71]
   - - [512, 1024, 1, 2048]
-    - [1166, 7286.62]
+    - [1193, 7286.52]
   - - [32, 512, 1, 500]
-    - [1022, 898.346]
+    - [1049, 898.246]
   - - [100, 2000, 1, 10]
-    - [1014, 333.433]
+    - [1041, 333.333]
   - - [100, 500, 1, 512]
-    - [1192, 2176.97]
+    - [1219, 2176.87]
   - - [8, 2000, 1, 512]
-    - [1071, 602.453]
+    - [1098, 602.353]
   - - [100, 2048, 1, 2048]
-    - [1178, 3694.87]
+    - [1205, 3694.77]
   - - [128, 1024, 1, 2048]
-    - [1197, 4168.35]
+    - [1224, 4168.25]
   - - [8, 500, 1, 2000]
-    - [1096, 352.213]
+    - [1123, 352.113]
   - - [100, 2000, 1, 500]
-    - [1146, 4045.41]
+    - [1173, 4045.31]
   - - [100, 2048, 1, 100]
-    - [1146, 2081.4]
+    - [1173, 2081.3]
   - - [4, 100, 1, 1024]
-    - [1022, 33.1323]
+    - [1049, 33.0323]
   - - [500, 2048, 1, 2048]
-    - [1130, 7765.03]
+    - [1157, 7764.93]
   - - [2, 2000, 1, 2048]
-    - [1041, 166.334]
+    - [1068, 166.234]
   - - [200, 2048, 1, 10]
-    - [1015, 609.624]
+    - [1042, 609.524]
   - - [2, 500, 1, 1024]
-    - [1086, 75.3941]
+    - [1113, 75.2941]
   - - [100, 500, 1, 1024]
-    - [1082, 1975.41]
+    - [1109, 1975.31]
   - - [16, 2048, 1, 500]
-    - [1022, 1473.48]
+    - [1049, 1473.38]
   - - [100, 1024, 1, 10]
-    - [1182, 185.607]
+    - [1209, 185.507]
   - - [8, 2048, 1, 1024]
-    - [1078, 543.404]
+    - [1105, 543.304]
   - - [2, 2000, 1, 500]
-    - [1022, 179.956]
+    - [1049, 179.856]
   - - [32, 100, 1, 1024]
-    - [1022, 267.812]
+    - [1049, 267.712]
   - - [500, 2000, 1, 512]
-    - [1152, 7087.59]
+    - [1179, 7087.49]
   - - [64, 100, 1, 2000]
-    - [1032, 615.485]
+    - [1059, 615.385]
   - - [100, 1024, 1, 2000]
-    - [1195, 4224.52]
+    - [1222, 4224.42]
   - - [64, 500, 1, 10]
-    - [997, 63.5921]
+    - [1024, 63.4921]
   - - [32, 2048, 1, 100]
-    - [1018, 941.709]
+    - [1045, 941.609]
   - - [64, 500, 1, 512]
-    - [1022, 1575.48]
+    - [1049, 1575.38]
   - - [10, 100, 1, 1024]
-    - [1032, 82.6806]
+    - [1059, 82.5806]
   - - [16, 512, 1, 100]
-    - [1021, 148.506]
+    - [1048, 148.406]
   - - [4, 100, 1, 2000]
-    - [1095, 43.9597]
+    - [1122, 43.8597]
   - - [2, 512, 1, 1024]
-    - [1086, 74.152]
+    - [1113, 74.052]
   - - [64, 512, 1, 1024]
-    - [1087, 1571.0]
+    - [1114, 1570.9]
   - - [10, 2048, 1, 500]
-    - [1022, 920.963]
+    - [1049, 920.863]
   - - [4, 2000, 1, 2048]
-    - [1041, 326.215]
+    - [1068, 326.115]
   - - [512, 100, 1, 2048]
-    - [1176, 3084.15]
+    - [1203, 3084.05]
   - - [32, 100, 1, 2000]
-    - [1022, 343.448]
+    - [1049, 343.348]
   - - [256, 512, 1, 500]
-    - [1115, 4311.68]
+    - [1142, 4311.58]
   - - [100, 2000, 1, 100]
-    - [1146, 2016.23]
+    - [1173, 2016.13]
   - - [8, 2000, 1, 1024]
-    - [1035, 544.781]
+    - [1062, 544.681]
   - - [4, 512, 1, 500]
-    - [1022, 118.619]
+    - [1049, 118.519]
   - - [128, 1024, 1, 10]
-    - [1185, 244.637]
+    - [1212, 244.537]
   - - [4, 500, 1, 1024]
-    - [1022, 144.733]
+    - [1049, 144.633]
   - - [32, 2048, 1, 512]
-    - [1025, 2140.05]
+    - [1052, 2139.95]
   - - [32, 100, 1, 10]
-    - [1000, 7.11754]
+    - [1027, 7.01754]
   - - [100, 2048, 1, 10]
-    - [1189, 341.433]
+    - [1216, 341.333]
   - - [512, 500, 1, 100]
-    - [1150, 2461.64]
+    - [1177, 2461.54]
   - - [128, 2000, 1, 1024]
-    - [1134, 4174.37]
+    - [1161, 4174.27]
   - - [200, 1024, 1, 500]
-    - [1146, 4295.4]
+    - [1173, 4295.3]
   - - [32, 2048, 1, 1024]
-    - [1049, 1667.82]
+    - [1076, 1667.72]
   - - [10, 1024, 1, 2048]
-    - [1040, 555.49]
+    - [1067, 555.39]
   - - [8, 500, 1, 100]
-    - [1021, 71.5286]
+    - [1048, 71.4286]
   - - [32, 2048, 1, 500]
-    - [1025, 2528.5]
+    - [1052, 2528.4]
   - - [200, 100, 1, 1024]
-    - [1034, 1071.23]
+    - [1061, 1071.13]
   - - [16, 100, 1, 100]
-    - [1011, 28.6714]
+    - [1038, 28.5714]
   - - [8, 1024, 1, 2000]
-    - [1095, 654.413]
+    - [1122, 654.313]
   - - [4, 512, 1, 100]
-    - [1021, 36.6714]
+    - [1048, 36.5714]
   - - [16, 500, 1, 100]
-    - [1021, 142.957]
+    - [1048, 142.857]
   - - [8, 1024, 1, 2048]
-    - [1047, 441.606]
+    - [1074, 441.506]
   - - [16, 1024, 1, 2048]
-    - [1048, 886.845]
+    - [1075, 886.745]
   - - [10, 2048, 1, 1024]
-    - [1026, 639.476]
+    - [1053, 639.376]
   - - [64, 512, 1, 100]
-    - [1021, 518.581]
+    - [1048, 518.481]
   - - [2, 100, 1, 500]
-    - [1022, 9.71538]
+    - [1049, 9.61538]
   - - [2, 500, 1, 512]
-    - [1028, 48.2203]
+    - [1055, 48.1203]
   - - [256, 512, 1, 2000]
-    - [1131, 6450.49]
+    - [1158, 6450.39]
   - - [128, 500, 1, 1024]
-    - [1025, 2497.66]
+    - [1052, 2497.56]
   - - [10, 100, 1, 10]
-    - [1062, 2.33214]
+    - [1089, 2.23214]
   - - [8, 2048, 1, 2048]
-    - [1012, 643.398]
+    - [1039, 643.298]
   - - [16, 2048, 1, 2048]
-    - [1052, 1338.0]
+    - [1079, 1337.9]
   - - [64, 1024, 1, 10]
-    - [1015, 132.229]
+    - [1042, 132.129]
   - - [500, 100, 1, 500]
-    - [1173, 1941.09]
+    - [1200, 1940.99]
   - - [256, 1024, 1, 2000]
-    - [1169, 7629.44]
+    - [1196, 7629.34]
   - - [200, 512, 1, 500]
-    - [1158, 3232.42]
+    - [1185, 3232.32]
   - - [8, 2000, 1, 10]
-    - [1059, 32.3581]
+    - [1086, 32.2581]
   - - [64, 2000, 1, 512]
-    - [1157, 3225.3]
+    - [1184, 3225.2]
   - - [2, 512, 1, 100]
-    - [1001, 16.7234]
+    - [1028, 16.6234]
   - - [4, 2000, 1, 2000]
-    - [1022, 586.61]
+    - [1049, 586.51]
   - - [200, 1024, 1, 100]
-    - [1146, 2133.43]
+    - [1173, 2133.33]
   - - [16, 100, 1, 500]
-    - [1086, 92.6926]
+    - [1113, 92.5926]
   - - [128, 100, 1, 500]
-    - [1082, 526.416]
+    - [1109, 526.316]
   - - [500, 1024, 1, 1024]
-    - [1116, 7201.86]
+    - [1143, 7201.76]
   - - [200, 1024, 1, 1024]
-    - [1168, 4519.82]
+    - [1195, 4519.72]
   - - [8, 2048, 1, 512]
-    - [1032, 624.252]
+    - [1059, 624.152]
   - - [200, 2000, 1, 500]
-    - [1122, 5186.82]
+    - [1149, 5186.72]
   - - [512, 100, 1, 1024]
-    - [1173, 2742.19]
+    - [1200, 2742.09]
   - - [16, 100, 1, 2000]
-    - [1032, 168.876]
+    - [1059, 168.776]
   - - [500, 512, 1, 2000]
-    - [1169, 7289.39]
+    - [1196, 7289.29]
   - - [8, 2000, 1, 2048]
-    - [1043, 668.289]
+    - [1070, 668.189]
   - - [256, 2048, 1, 100]
-    - [1104, 3924.41]
+    - [1131, 3924.31]
   - - [32, 2048, 1, 2000]
-    - [1036, 3882.56]
+    - [1063, 3882.46]
   - - [200, 500, 1, 512]
-    - [1161, 3368.52]
+    - [1188, 3368.42]
   - - [10, 512, 1, 100]
-    - [1021, 91.5286]
+    - [1048, 91.4286]
   - - [16, 2000, 1, 10]
-    - [999, 61.6385]
+    - [1026, 61.5385]
   - - [8, 512, 1, 100]
-    - [1021, 72.2127]
+    - [1048, 72.1127]
   - - [256, 512, 1, 512]
-    - [1126, 4584.04]
+    - [1153, 4583.94]
   - - [500, 2000, 1, 1024]
-    - [1101, 7569.59]
+    - [1128, 7569.49]
   - - [512, 512, 1, 500]
-    - [1117, 5708.81]
+    - [1144, 5708.71]
   - - [256, 2048, 1, 1024]
-    - [1141, 5923.21]
+    - [1168, 5923.11]
   - - [8, 2048, 1, 2000]
-    - [1022, 1153.9]
+    - [1049, 1153.8]
   - - [100, 512, 1, 2048]
-    - [1088, 2383.23]
+    - [1115, 2383.13]
   - - [100, 1024, 1, 512]
-    - [1173, 3343.77]
+    - [1200, 3343.67]
   - - [128, 100, 1, 2000]
-    - [1191, 1084.85]
+    - [1218, 1084.75]
   - - [4, 2048, 1, 2048]
-    - [1040, 332.454]
+    - [1067, 332.354]
   - - [2, 1024, 1, 2000]
-    - [1051, 161.106]
+    - [1078, 161.006]
   - - [100, 512, 1, 512]
-    - [1025, 2184.63]
+    - [1052, 2184.53]
   - - [128, 1024, 1, 1024]
-    - [1168, 3848.09]
+    - [1195, 3847.99]
   - - [200, 2048, 1, 1024]
-    - [1103, 4547.26]
+    - [1130, 4547.16]
   - - [32, 1024, 1, 2000]
-    - [1032, 2416.62]
+    - [1059, 2416.52]
   - - [128, 500, 1, 100]
-    - [1027, 919.64]
+    - [1054, 919.54]
   - - [200, 512, 1, 2000]
-    - [1195, 4238.51]
+    - [1222, 4238.41]
   - - [10, 2048, 1, 2000]
-    - [1032, 1454.65]
+    - [1059, 1454.55]
   - - [256, 1024, 1, 500]
-    - [1129, 5669.3]
+    - [1156, 5669.2]
   - - [100, 100, 1, 100]
-    - [1021, 171.333]
+    - [1048, 171.233]
   - - [8, 512, 1, 1024]
-    - [1090, 286.596]
+    - [1117, 286.496]
   - - [200, 1024, 1, 512]
-    - [1146, 4354.65]
+    - [1173, 4354.55]
   - - [256, 500, 1, 500]
-    - [1131, 4020.2]
+    - [1158, 4020.1]
   - - [200, 100, 1, 500]
-    - [1195, 702.347]
+    - [1222, 702.247]
   - - [2, 1024, 1, 2048]
-    - [1041, 112.85]
+    - [1068, 112.75]
   - - [256, 500, 1, 2048]
-    - [1131, 5041.33]
+    - [1158, 5041.23]
   - - [512, 2048, 1, 500]
-    - [1124, 7710.22]
+    - [1151, 7710.12]
   - - [512, 100, 1, 2000]
-    - [1173, 3099.37]
+    - [1200, 3099.27]
   - - [512, 500, 1, 1024]
-    - [1132, 6463.22]
+    - [1159, 6463.12]
   - - [16, 512, 1, 2000]
-    - [1048, 721.227]
+    - [1075, 721.127]
   - - [64, 500, 1, 1024]
-    - [1087, 1528.46]
+    - [1114, 1528.36]
   - - [512, 2000, 1, 10]
-    - [1108, 1174.41]
+    - [1135, 1174.31]
   - - [256, 512, 1, 1024]
-    - [1126, 4978.5]
+    - [1153, 4978.4]
   - - [10, 512, 1, 1024]
-    - [1086, 370.36]
+    - [1113, 370.26]
   - - [512, 100, 1, 100]
-    - [1109, 659.894]
+    - [1136, 659.794]
   - - [8, 2000, 1, 100]
-    - [1021, 256.51]
+    - [1048, 256.41]
   - - [128, 2048, 1, 1024]
-    - [1134, 4173.54]
+    - [1161, 4173.44]
   - - [2, 2000, 1, 2000]
-    - [1022, 250.727]
+    - [1049, 250.627]
   - - [16, 2048, 1, 1024]
-    - [1069, 1046.06]
+    - [1096, 1045.96]
   - - [500, 512, 1, 500]
-    - [1114, 5517.34]
+    - [1141, 5517.24]
   - - [8, 100, 1, 1024]
-    - [1087, 64.1]
+    - [1114, 64.0]
   - - [10, 100, 1, 100]
-    - [1011, 17.9571]
+    - [1038, 17.8571]
   - - [200, 500, 1, 500]
-    - [1161, 3140.8]
+    - [1188, 3140.7]
   - - [10, 500, 1, 2000]
-    - [1048, 444.94]
+    - [1075, 444.84]
   - - [500, 100, 1, 2000]
-    - [1176, 2969.22]
+    - [1203, 2969.12]
   - - [100, 512, 1, 2000]
-    - [1088, 2776.67]
+    - [1115, 2776.57]
   - - [500, 1024, 1, 2000]
-    - [1167, 8020.15]
+    - [1194, 8020.05]
   - - [32, 2000, 1, 2000]
-    - [1028, 3827.85]
+    - [1055, 3827.75]
   - - [64, 1024, 1, 512]
-    - [1192, 2573.29]
+    - [1219, 2573.19]
   - - [64, 2000, 1, 2000]
-    - [1161, 5797.2]
+    - [1188, 5797.1]
   - - [32, 500, 1, 100]
-    - [1021, 266.767]
+    - [1048, 266.667]
   - - [128, 2000, 1, 2048]
-    - [1177, 4548.05]
+    - [1204, 4547.95]
   - - [10, 100, 1, 2048]
-    - [1086, 98.5615]
+    - [1113, 98.4615]
   - - [32, 2048, 1, 2048]
-    - [1049, 2213.45]
+    - [1076, 2213.35]
   - - [64, 100, 1, 100]
-    - [1022, 96.4855]
+    - [1049, 96.3855]
   - - [2, 1024, 1, 100]
-    - [1072, 34.6946]
+    - [1099, 34.5946]
   - - [256, 1024, 1, 10]
-    - [1142, 425.658]
+    - [1169, 425.558]
   - - [256, 1024, 1, 1024]
-    - [1135, 5482.85]
+    - [1162, 5482.75]
   - - [64, 500, 1, 2000]
-    - [1022, 2056.66]
+    - [1049, 2056.56]
   - - [512, 2000, 1, 512]
-    - [1120, 7550.33]
+    - [1147, 7550.23]
   - - [8, 512, 1, 512]
-    - [1029, 232.086]
+    - [1056, 231.986]
   - - [8, 512, 1, 2048]
-    - [1022, 290.564]
+    - [1049, 290.464]
   - - [100, 100, 1, 1024]
-    - [1192, 624.49]
+    - [1219, 624.39]
   - - [2, 2048, 1, 10]
-    - [1065, 8.92759]
+    - [1092, 8.82759]
   - - [4, 2048, 1, 512]
-    - [1071, 312.176]
+    - [1098, 312.076]
   - - [4, 2048, 1, 10]
-    - [1064, 18.0649]
+    - [1091, 17.9649]
   - - [8, 100, 1, 2000]
-    - [1041, 85.9369]
+    - [1068, 85.8369]
   - - [2, 1024, 1, 1024]
-    - [1038, 101.314]
+    - [1065, 101.214]
   - - [16, 2048, 1, 100]
-    - [1022, 518.581]
+    - [1049, 518.481]
   - - [16, 512, 1, 512]
-    - [1032, 456.003]
+    - [1059, 455.903]
   - - [32, 500, 1, 512]
-    - [1029, 906.295]
+    - [1056, 906.195]
   - - [500, 2000, 1, 2000]
-    - [1124, 8143.42]
+    - [1151, 8143.32]
   - - [500, 1024, 1, 10]
-    - [1105, 680.951]
+    - [1132, 680.851]
   - - [32, 500, 1, 1024]
-    - [1081, 1008.97]
+    - [1108, 1008.87]
   - - [32, 500, 1, 10]
-    - [1017, 33.4333]
+    - [1044, 33.3333]
   - - [500, 500, 1, 10]
-    - [1146, 367.747]
+    - [1173, 367.647]
   - - [4, 2000, 1, 500]
-    - [1032, 370.47]
+    - [1059, 370.37]
   - - [10, 2000, 1, 500]
-    - [1022, 899.381]
+    - [1049, 899.281]
   - - [32, 2000, 1, 512]
-    - [1034, 2089.9]
+    - [1061, 2089.8]
   - - [256, 500, 1, 100]
-    - [1147, 1495.43]
+    - [1174, 1495.33]
   - - [256, 2048, 1, 10]
-    - [1105, 789.69]
+    - [1132, 789.59]
   - - [4, 1024, 1, 500]
-    - [1022, 222.709]
+    - [1049, 222.609]
   - - [256, 512, 1, 2048]
-    - [1131, 5292.6]
+    - [1158, 5292.5]
   - - [2, 2000, 1, 1024]
-    - [1069, 137.365]
+    - [1096, 137.265]
   - - [256, 100, 1, 512]
-    - [1173, 1085.13]
+    - [1200, 1085.03]
   - - [8, 1024, 1, 500]
-    - [1022, 441.479]
+    - [1049, 441.379]
   - - [256, 2048, 1, 500]
-    - [1152, 7031.86]
+    - [1179, 7031.76]
   - - [256, 2048, 1, 2048]
-    - [1115, 6771.93]
+    - [1142, 6771.83]
   - - [2, 2000, 1, 512]
-    - [1076, 159.106]
+    - [1103, 159.006]
   - - [256, 2000, 1, 512]
-    - [1119, 6527.59]
+    - [1146, 6527.49]
   - - [4, 1024, 1, 100]
-    - [1068, 70.237]
+    - [1095, 70.137]
   - - [512, 1024, 1, 2000]
-    - [1153, 8295.8]
+    - [1180, 8295.7]
   - - [100, 500, 1, 500]
-    - [1025, 2016.23]
+    - [1052, 2016.13]
   - - [4, 2048, 1, 1024]
-    - [1073, 285.039]
+    - [1100, 284.939]
   - - [2, 1024, 1, 500]
-    - [1022, 109.502]
+    - [1049, 109.402]
   - - [64, 100, 1, 500]
-    - [1022, 296.396]
+    - [1049, 296.296]
   - - [256, 2000, 1, 2000]
-    - [1130, 8152.97]
+    - [1157, 8152.87]
   - - [2, 512, 1, 500]
-    - [1028, 44.8552]
+    - [1055, 44.7552]
   - - [8, 2048, 1, 500]
-    - [1022, 736.791]
+    - [1049, 736.691]
   - - [10, 1024, 1, 500]
-    - [1022, 547.109]
+    - [1049, 547.009]
   - - [4, 2048, 1, 2000]
-    - [1032, 604.23]
+    - [1059, 604.13]
   - - [200, 1024, 1, 2000]
-    - [1199, 5400.94]
+    - [1226, 5400.84]
   - - [128, 500, 1, 512]
-    - [1192, 2730.77]
+    - [1219, 2730.67]
   - - [10, 500, 1, 2048]
-    - [1086, 359.651]
+    - [1113, 359.551]
   - - [256, 2048, 1, 2000]
-    - [1130, 8375.31]
+    - [1157, 8375.21]
   - - [8, 2000, 1, 2000]
-    - [1032, 1146.23]
+    - [1059, 1146.13]
   - - [100, 2048, 1, 512]
-    - [1155, 3936.2]
+    - [1182, 3936.1]
   - - [512, 500, 1, 2048]
-    - [1131, 6756.39]
+    - [1158, 6756.29]
   - - [200, 2048, 1, 100]
-    - [1122, 3180.22]
+    - [1149, 3180.12]
   - - [128, 512, 1, 512]
-    - [1025, 2872.91]
+    - [1052, 2872.81]
   - - [200, 2000, 1, 2048]
-    - [1171, 4818.92]
+    - [1198, 4818.82]
   - - [4, 2000, 1, 1024]
-    - [1069, 275.369]
+    - [1096, 275.269]
   - - [64, 512, 1, 10]
-    - [1184, 69.5237]
+    - [1211, 69.4237]
   - - [32, 500, 1, 2000]
-    - [1051, 1246.21]
+    - [1078, 1246.11]
   - - [128, 2048, 1, 2000]
-    - [1164, 7233.65]
+    - [1191, 7233.55]
   - - [100, 100, 1, 2048]
-    - [1022, 790.223]
+    - [1049, 790.123]
   - - [500, 2048, 1, 512]
-    - [1152, 7249.66]
+    - [1179, 7249.56]
   - - [200, 100, 1, 512]
-    - [1028, 748.638]
+    - [1055, 748.538]
   - - [32, 2000, 1, 100]
-    - [1023, 930.333]
+    - [1050, 930.233]
   - - [500, 512, 1, 2048]
-    - [1174, 6640.02]
+    - [1201, 6639.92]
   - - [500, 2000, 1, 500]
-    - [1154, 7078.24]
+    - [1181, 7078.14]
   - - [200, 100, 1, 2048]
-    - [1032, 1387.63]
+    - [1059, 1387.53]
   - - [2, 2048, 1, 100]
-    - [1066, 64.9101]
+    - [1093, 64.8101]
   - - [8, 100, 1, 10]
-    - [1007, 1.85439]
+    - [1034, 1.75439]
   - - [200, 2048, 1, 2048]
-    - [1171, 5022.02]
+    - [1198, 5021.92]
   - - [200, 2048, 1, 500]
-    - [1122, 5355.75]
+    - [1149, 5355.65]
   - - [100, 100, 1, 500]
-    - [1192, 416.767]
+    - [1219, 416.667]
   - - [8, 2048, 1, 10]
-    - [1063, 34.8119]
+    - [1090, 34.7119]
   - - [100, 500, 1, 10]
-    - [1003, 93.3836]
+    - [1030, 93.2836]
   - - [200, 500, 1, 2000]
-    - [1195, 4152.92]
+    - [1222, 4152.82]
   - - [512, 2000, 1, 500]
-    - [1124, 7485.48]
+    - [1151, 7485.38]
   - - [10, 500, 1, 1024]
-    - [1090, 363.736]
+    - [1117, 363.636]
   - - [256, 100, 1, 10]
-    - [1139, 41.1256]
+    - [1166, 41.0256]
   - - [500, 512, 1, 1024]
-    - [1118, 6362.82]
+    - [1145, 6362.72]
   - - [200, 2048, 1, 2000]
-    - [1160, 6321.09]
+    - [1187, 6320.99]
   - - [100, 1024, 1, 100]
-    - [1159, 1306.22]
+    - [1186, 1306.12]
   - - [500, 1024, 1, 100]
-    - [1098, 3699.52]
+    - [1125, 3699.42]
   - - [10, 512, 1, 2048]
-    - [1022, 361.18]
+    - [1049, 361.08]
   - - [2, 1024, 1, 512]
-    - [1071, 105.803]
+    - [1098, 105.703]
   - - [4, 500, 1, 2048]
-    - [1094, 143.517]
+    - [1121, 143.417]
   - - [100, 512, 1, 100]
-    - [1027, 744.286]
+    - [1054, 744.186]
   - - [16, 500, 1, 512]
-    - [1022, 453.197]
+    - [1049, 453.097]
   - - [10, 1024, 1, 100]
-    - [1020, 166.334]
+    - [1047, 166.234]
   - - [8, 1024, 1, 100]
-    - [1068, 140.374]
+    - [1095, 140.274]
   - - [64, 2000, 1, 500]
-    - [1163, 3940.99]
+    - [1190, 3940.89]
   - - [64, 1024, 1, 2000]
-    - [1028, 3531.13]
+    - [1055, 3531.03]
   - - [10, 100, 1, 512]
-    - [1022, 61.6385]
+    - [1049, 61.5385]
   - - [4, 500, 1, 2000]
-    - [1048, 173.11]
+    - [1075, 173.01]
   - - [512, 1024, 1, 10]
-    - [1099, 736.46]
+    - [1126, 736.36]
   - - [128, 2048, 1, 2048]
-    - [1162, 4596.6]
+    - [1189, 4596.5]
   - - [4, 100, 1, 100]
-    - [1011, 7.24286]
+    - [1038, 7.14286]
   - - [32, 1024, 1, 512]
-    - [1071, 1519.78]
+    - [1098, 1519.68]
   - - [8, 512, 1, 2000]
-    - [1096, 356.894]
+    - [1123, 356.794]
   - - [100, 100, 1, 512]
-    - [1036, 426.767]
+    - [1063, 426.667]
   - - [2, 2048, 1, 2048]
-    - [1045, 170.878]
+    - [1072, 170.778]
   - - [2, 512, 1, 2000]
-    - [1048, 90.8801]
+    - [1075, 90.7801]
   - - [16, 500, 1, 10]
-    - [1021, 18.2818]
+    - [1048, 18.1818]
   - - [10, 500, 1, 100]
-    - [1021, 88.1282]
+    - [1048, 88.0282]
   - - [4, 100, 1, 500]
-    - [1086, 23.6849]
+    - [1113, 23.5849]
   - - [512, 1024, 1, 1024]
-    - [1138, 7431.87]
+    - [1165, 7431.77]
   - - [64, 500, 1, 100]
-    - [1031, 506.429]
+    - [1058, 506.329]
   - - [128, 2000, 1, 10]
-    - [1189, 432.532]
+    - [1216, 432.432]
   - - [10, 2000, 1, 2048]
-    - [1052, 806.399]
+    - [1079, 806.299]
   - - [2, 100, 1, 100]
-    - [1009, 3.225]
+    - [1036, 3.125]
   - - [10, 512, 1, 2000]
-    - [1041, 462.194]
+    - [1068, 462.094]
   - - [8, 500, 1, 500]
-    - [1022, 231.581]
+    - [1049, 231.481]
   - - [4, 500, 1, 512]
-    - [1022, 118.619]
+    - [1049, 118.519]
   - - [10, 500, 1, 10]
-    - [1016, 11.0649]
+    - [1043, 10.9649]
   - - [64, 512, 1, 2000]
-    - [1022, 2116.9]
+    - [1049, 2116.8]
   - - [500, 512, 1, 10]
-    - [1143, 395.162]
+    - [1170, 395.062]
   - - [200, 512, 1, 512]
-    - [1161, 3449.36]
+    - [1188, 3449.26]
   - - [512, 500, 1, 500]
-    - [1117, 5536.43]
+    - [1144, 5536.33]
   - - [32, 512, 1, 2000]
-    - [1032, 1264.3]
+    - [1059, 1264.2]
   - - [128, 500, 1, 2048]
-    - [1088, 3006.34]
+    - [1115, 3006.24]
   - - [500, 2048, 1, 10]
-    - [1113, 1049.28]
+    - [1140, 1049.18]
   - - [512, 512, 1, 100]
-    - [1150, 2664.16]
+    - [1177, 2664.06]
   - - [200, 2000, 1, 512]
-    - [1158, 5192.8]
+    - [1185, 5192.7]
   - - [500, 500, 1, 512]
-    - [1114, 5673.86]
+    - [1141, 5673.76]
   - - [128, 2048, 1, 500]
-    - [1146, 5251.38]
+    - [1173, 5251.28]
   - - [4, 512, 1, 512]
-    - [1022, 123.753]
+    - [1049, 123.653]
   - - [16, 2048, 1, 2000]
-    - [1038, 2294.78]
+    - [1065, 2294.68]
   - - [16, 500, 1, 1024]
-    - [1022, 562.737]
+    - [1049, 562.637]
   - - [256, 2000, 1, 500]
-    - [1152, 6639.1]
+    - [1179, 6639.0]
   - - [10, 1024, 1, 10]
-    - [1002, 21.0836]
+    - [1029, 20.9836]
   - - [16, 500, 1, 500]
-    - [1022, 446.529]
+    - [1049, 446.429]
   - - [10, 2048, 1, 512]
-    - [1020, 784.962]
+    - [1047, 784.862]
   - - [200, 500, 1, 10]
-    - [995, 176.156]
+    - [1022, 176.056]
   - - [256, 2048, 1, 512]
-    - [1149, 6540.93]
+    - [1176, 6540.83]
   - - [256, 2000, 1, 2048]
-    - [1126, 6670.43]
+    - [1153, 6670.33]
   - - [500, 2048, 1, 500]
-    - [1154, 7264.57]
+    - [1181, 7264.47]
   - - [500, 100, 1, 1024]
-    - [1176, 2700.52]
+    - [1203, 2700.42]
   - - [16, 100, 1, 512]
-    - [1086, 96.7038]
+    - [1113, 96.6038]
   - - [64, 512, 1, 2048]
-    - [1087, 1868.39]
+    - [1114, 1868.29]
   - - [32, 1024, 1, 10]
-    - [998, 69.5237]
+    - [1025, 69.4237]
   - - [16, 2048, 1, 512]
-    - [1071, 1226.5]
+    - [1098, 1226.4]
   - - [8, 1024, 1, 512]
-    - [1071, 416.202]
+    - [1098, 416.102]
   - - [4, 1024, 1, 2048]
-    - [1093, 223.201]
+    - [1120, 223.101]
   - - [100, 2048, 1, 2000]
-    - [1166, 5614.14]
+    - [1193, 5614.04]
   - - [512, 512, 1, 2048]
-    - [1131, 6868.97]
+    - [1158, 6868.87]
   - - [256, 2000, 1, 1024]
-    - [1122, 5758.98]
+    - [1149, 5758.88]
   - - [64, 512, 1, 512]
-    - [1191, 1651.4]
+    - [1218, 1651.3]
   - - [200, 1024, 1, 10]
-    - [1005, 341.433]
+    - [1032, 341.333]
   - - [128, 500, 1, 500]
-    - [1034, 2580.75]
+    - [1061, 2580.65]
   - - [100, 512, 1, 1024]
-    - [1025, 2041.72]
+    - [1052, 2041.62]
   - - [16, 1024, 1, 500]
-    - [1022, 867.897]
+    - [1049, 867.797]
   - - [128, 100, 1, 2048]
-    - [1192, 1011.46]
+    - [1219, 1011.36]
   - - [100, 512, 1, 500]
-    - [1025, 2051.38]
+    - [1052, 2051.28]
   - - [8, 1024, 1, 1024]
-    - [1038, 424.625]
+    - [1065, 424.525]
   - - [2, 2000, 1, 10]
-    - [1064, 8.57458]
+    - [1091, 8.47458]
   - - [4, 500, 1, 10]
-    - [1061, 4.56429]
+    - [1088, 4.46429]
   - - [500, 2000, 1, 2048]
-    - [1138, 7444.12]
+    - [1165, 7444.02]
   - - [4, 2000, 1, 100]
-    - [1074, 128.305]
+    - [1101, 128.205]
   - - [512, 2000, 1, 2000]
-    - [1124, 8454.53]
+    - [1151, 8454.43]
   - - [128, 500, 1, 10]
-    - [1183, 117.747]
+    - [1210, 117.647]
   - - [32, 1024, 1, 100]
-    - [1031, 512.1]
+    - [1058, 512.0]
   - - [8, 500, 1, 2048]
-    - [1046, 286.935]
+    - [1073, 286.835]
   - - [16, 1024, 1, 1024]
-    - [1010, 881.256]
+    - [1037, 881.156]
   - - [200, 100, 1, 10]
-    - [1182, 40.4226]
+    - [1209, 40.3226]
   - - [512, 100, 1, 500]
-    - [1176, 1987.68]
+    - [1203, 1987.58]
   - - [512, 2048, 1, 2048]
-    - [1133, 8063.65]
+    - [1160, 8063.55]
   - - [16, 2000, 1, 512]
-    - [1032, 1204.81]
+    - [1059, 1204.71]
   - - [64, 2048, 1, 1024]
-    - [1030, 2853.37]
+    - [1057, 2853.27]
   - - [32, 2048, 1, 10]
-    - [1004, 130.132]
+    - [1031, 130.032]
   - - [10, 2048, 1, 10]
-    - [1006, 39.4846]
+    - [1033, 39.3846]
   - - [4, 2000, 1, 512]
-    - [1022, 316.149]
+    - [1049, 316.049]
   - - [4, 500, 1, 100]
-    - [1021, 35.8143]
+    - [1048, 35.7143]
   - - [8, 100, 1, 2048]
-    - [1041, 84.7281]
+    - [1068, 84.6281]
   - - [512, 2048, 1, 10]
-    - [1121, 1225.07]
+    - [1148, 1224.97]
   - - [512, 100, 1, 10]
-    - [1110, 90.2408]
+    - [1137, 90.1408]
   - - [4, 512, 1, 1024]
-    - [1022, 143.348]
+    - [1049, 143.248]
   - - [16, 2048, 1, 10]
-    - [1055, 65.1159]
+    - [1082, 65.0159]
   - - [500, 2000, 1, 100]
-    - [1106, 4717.08]
+    - [1133, 4716.98]
   - - [32, 1024, 1, 2048]
-    - [1049, 1582.86]
+    - [1076, 1582.76]
   - - [100, 2000, 1, 2000]
-    - [1166, 5512.78]
+    - [1193, 5512.68]
   - - [128, 100, 1, 512]
-    - [1192, 561.196]
+    - [1219, 561.096]
   - - [500, 500, 1, 100]
-    - [1146, 2460.73]
+    - [1173, 2460.63]
   - - [32, 2000, 1, 10]
-    - [998, 119.503]
+    - [1025, 119.403]
   - - [128, 2048, 1, 100]
-    - [1146, 2708.2]
+    - [1173, 2708.1]
   - - [10, 2000, 1, 100]
-    - [1021, 316.556]
+    - [1048, 316.456]
   - - [2, 2048, 1, 500]
-    - [1032, 191.145]
+    - [1059, 191.045]
   - - [32, 1024, 1, 500]
-    - [1032, 1563.46]
+    - [1059, 1563.36]
   - - [4, 1024, 1, 10]
-    - [1061, 9.24286]
+    - [1088, 9.14286]
   - - [100, 512, 1, 10]
-    - [1187, 97.0697]
+    - [1214, 96.9697]
   - - [8, 100, 1, 100]
-    - [1037, 14.3857]
+    - [1064, 14.2857]
   - - [128, 512, 1, 500]
-    - [1025, 2677.22]
+    - [1052, 2677.12]
   - - [16, 100, 1, 2048]
-    - [1048, 161.997]
+    - [1075, 161.897]
   - - [2, 1024, 1, 10]
-    - [1061, 4.59123]
+    - [1088, 4.49123]
   - - [4, 100, 1, 2048]
-    - [1041, 41.8959]
+    - [1068, 41.7959]
   - - [4, 512, 1, 2000]
-    - [1041, 180.382]
+    - [1068, 180.282]
   - - [4096, 64, 1, 2048]
-    - [1241, 7247.28]
+    - [1268, 7247.18]
   - - [1024, 10080, 1, 1024]
-    - [1229, 9833.47]
+    - [1256, 9833.37]
   - - [1024, 1131, 1, 1024]
-    - [1207, 7551.95]
+    - [1234, 7551.85]
   - - [36548, 1216, 1, 1024]
-    - [1219, 10351.6]
+    - [1246, 10351.5]
   - - [1024, 29, 1, 1024]
-    - [1251, 1697.01]
+    - [1278, 1696.91]
   - - [1024, 2592, 1, 1024]
-    - [1220, 8424.11]
+    - [1247, 8424.01]
   - - [1024, 1568, 1, 1024]
-    - [1231, 7511.86]
+    - [1258, 7511.76]
   - - [4096, 91, 1, 2048]
-    - [1200, 5599.91]
+    - [1227, 5599.81]
   - - [1024, 4445, 1, 1024]
-    - [1218, 9261.22]
+    - [1245, 9261.12]
   - - [1024, 6272, 1, 1024]
-    - [1213, 9439.61]
+    - [1240, 9439.51]
   - - [36548, 3584, 1, 1024]
-    - [1212, 10393.8]
+    - [1239, 10393.7]
   - - [1024, 1827, 1, 1024]
-    - [1231, 8714.42]
+    - [1258, 8714.32]
   - - [1024, 3220, 1, 1024]
-    - [1211, 8861.2]
+    - [1238, 8861.1]
   - - [1024, 1856, 1, 1024]
-    - [1228, 8827.05]
+    - [1255, 8826.95]
   - - [1024, 1760, 1, 1024]
-    - [1228, 8334.2]
+    - [1255, 8334.1]
   - - [1024, 1600, 1, 1024]
-    - [1228, 7615.07]
+    - [1255, 7614.97]
   - - [1024, 1, 1, 21]
-    - [1232, 0.1]
+    - [1259, 0.0]
   - - [36548, 4235, 1, 1024]
-    - [1212, 10276.8]
+    - [1239, 10276.7]
   - - [1024, 49, 1, 1024]
-    - [1247, 2643.12]
+    - [1274, 2643.02]
   - - [1024, 1984, 1, 1024]
-    - [1231, 9449.52]
+    - [1258, 9449.42]
   - - [1024, 14720, 1, 1024]
-    - [1218, 10033.3]
+    - [1245, 10033.2]
   - - [1024, 1152, 1, 1024]
-    - [1201, 7523.54]
+    - [1228, 7523.44]
   - - [36548, 14976, 1, 1024]
-    - [1219, 10421.7]
+    - [1246, 10421.6]
   - - [36548, 1152, 1, 1024]
-    - [1219, 10258.1]
+    - [1246, 10258.0]
   - - [4096, 86, 1, 3072]
-    - [1200, 5308.85]
+    - [1227, 5308.75]
   - - [1024, 3392, 1, 1024]
-    - [1213, 9176.54]
+    - [1240, 9176.44]
   - - [1024, 1408, 1, 1024]
-    - [1213, 8958.83]
+    - [1240, 8958.73]
   - - [1024, 2080, 1, 1024]
-    - [1204, 8396.49]
+    - [1231, 8396.39]
   - - [1024, 1824, 1, 1024]
-    - [1222, 8671.71]
+    - [1249, 8671.61]
   - - [36548, 2432, 1, 1024]
-    - [1212, 10392.6]
+    - [1239, 10392.5]
   - - [4096, 29, 1, 2048]
-    - [1233, 4325.66]
+    - [1260, 4325.56]
   - - [1024, 1102, 1, 1024]
-    - [1207, 7204.18]
+    - [1234, 7204.08]
   - - [4096, 49, 1, 2048]
-    - [1239, 5609.29]
+    - [1266, 5609.19]
   - - [36548, 1827, 1, 1024]
-    - [1219, 10183.2]
+    - [1246, 10183.1]
   - - [4096, 25, 1, 2048]
-    - [1234, 3788.31]
+    - [1261, 3788.21]
   - - [1024, 10176, 1, 1024]
-    - [1229, 9941.18]
+    - [1256, 9941.08]
   - - [1024, 774, 1, 1024]
-    - [1214, 7079.67]
+    - [1241, 7079.57]
   - - [1024, 1952, 1, 1024]
-    - [1231, 9300.49]
+    - [1258, 9300.39]
   - - [4096, 128, 1, 2048]
-    - [1201, 8274.96]
+    - [1228, 8274.86]
   - - [1024, 17024, 1, 1024]
-    - [1211, 9960.72]
+    - [1238, 9960.62]
   - - [1024, 1472, 1, 1024]
-    - [1220, 9343.37]
+    - [1247, 9343.27]
   - - [36548, 4459, 1, 1024]
-    - [1212, 10358.1]
+    - [1239, 10358.0]
   - - [4096, 91, 1, 3072]
-    - [1206, 5509.39]
+    - [1233, 5509.29]
   - - [1024, 3712, 1, 1024]
-    - [1220, 9048.66]
+    - [1247, 9048.56]
   - - [4096, 64, 1, 3072]
-    - [1253, 7489.93]
+    - [1280, 7489.83]
   - - [4096, 29, 1, 3072]
-    - [1233, 4511.78]
+    - [1260, 4511.68]
   - - [4096, 128, 1, 3072]
-    - [1200, 8423.83]
+    - [1227, 8423.73]
   - - [36548, 12928, 1, 1024]
-    - [1219, 10426.1]
+    - [1246, 10426.0]
   - - [1024, 1632, 1, 1024]
-    - [1201, 7761.73]
+    - [1228, 7761.63]
   - - [1024, 1696, 1, 1024]
-    - [1226, 8107.29]
+    - [1253, 8107.19]
   - - [4096, 24, 1, 2048]
-    - [1233, 3663.25]
+    - [1260, 3663.15]
   - - [4096, 63, 1, 3072]
-    - [1242, 7175.37]
+    - [1269, 7175.27]
   - - [4096, 96, 1, 2048]
-    - [1201, 5866.28]
+    - [1228, 5866.18]
   - - [36548, 1764, 1, 1024]
-    - [1212, 10128.5]
+    - [1239, 10128.4]
   - - [4096, 32, 1, 2048]
-    - [1237, 4540.62]
+    - [1264, 4540.52]
   - - [1024, 35, 1, 1024]
-    - [1245, 1911.57]
+    - [1272, 1911.47]
   - - [1024, 1120, 1, 1024]
-    - [1200, 7289.13]
+    - [1227, 7289.03]
   - - [4096, 49, 1, 3072]
-    - [1239, 5751.62]
+    - [1266, 5751.52]
   - - [1024, 24, 1, 1024]
-    - [1245, 1392.02]
+    - [1272, 1391.92]
   - - [1024, 2944, 1, 1024]
-    - [1221, 9284.93]
+    - [1248, 9284.83]
   - - [36548, 14080, 1, 1024]
-    - [1212, 10441.4]
+    - [1239, 10441.3]
   - - [1024, 1, 1, 1024]
-    - [1232, 0.1]
+    - [1259, 0.0]
   - - [1024, 1280, 1, 1024]
-    - [1200, 8244.46]
+    - [1227, 8244.36]
   - - [1024, 13440, 1, 1024]
-    - [1212, 9799.92]
+    - [1239, 9799.82]
   - - [1024, 1015, 1, 1024]
-    - [1220, 9187.85]
+    - [1247, 9187.75]
   - - [36548, 9120, 1, 1024]
-    - [1212, 10400.0]
+    - [1239, 10399.9]
   - - [36548, 1, 1, 1024]
-    - [1232, 0.1]
+    - [1259, 0.0]
   - - [1024, 3008, 1, 1024]
-    - [1221, 9468.55]
+    - [1248, 9468.45]
   - - [1024, 2560, 1, 1024]
-    - [1218, 8879.31]
+    - [1245, 8879.21]
   - - [1024, 21, 1, 1024]
-    - [1244, 1234.41]
+    - [1271, 1234.31]
   - - [1024, 2208, 1, 1024]
-    - [1200, 8231.27]
+    - [1227, 8231.17]
   - - [1024, 96, 1, 1024]
-    - [1250, 3767.44]
+    - [1277, 3767.34]
   - - [4096, 86, 1, 2048]
-    - [1201, 5529.09]
+    - [1228, 5528.99]
   - - [4096, 96, 1, 3072]
-    - [1200, 6273.28]
+    - [1227, 6273.18]
   - - [1024, 1920, 1, 1024]
-    - [1230, 9118.19]
+    - [1257, 9118.09]
   - - [4096, 27, 1, 2048]
-    - [1233, 4073.7]
+    - [1260, 4073.6]
   - - [36548, 2496, 1, 1024]
-    - [1212, 10361.2]
+    - [1239, 10361.1]
   - - [1024, 1, 1, 14]
-    - [1232, 0.1]
+    - [1259, 0.0]
   - - [1024, 91, 1, 1024]
-    - [1252, 3647.67]
+    - [1279, 3647.57]
   - - [1024, 2016, 1, 1024]
-    - [1228, 9560.24]
+    - [1255, 9560.14]
   - - [1024, 1184, 1, 1024]
-    - [1201, 7678.96]
+    - [1228, 7678.86]
   - - [4096, 1, 1, 2048]
-    - [1232, 0.1]
+    - [1259, 0.0]
   - - [1024, 1664, 1, 1024]
-    - [1226, 7934.07]
+    - [1253, 7933.97]
   - - [1024, 11424, 1, 1024]
-    - [1218, 9777.91]
+    - [1245, 9777.81]
   - - [4096, 24, 1, 3072]
-    - [1236, 3813.1]
+    - [1263, 3813.0]
   - - [1024, 1216, 1, 1024]
-    - [1200, 7902.13]
+    - [1227, 7902.03]
   - - [36548, 3185, 1, 1024]
-    - [1212, 10336.7]
+    - [1239, 10336.6]
   - - [36548, 9216, 1, 1024]
-    - [1212, 10414.3]
+    - [1239, 10414.2]
   - - [1024, 3200, 1, 1024]
-    - [1218, 8847.01]
+    - [1245, 8846.91]
   - - [1024, 2656, 1, 1024]
-    - [1213, 8649.25]
+    - [1240, 8649.15]
   - - [1024, 2368, 1, 1024]
-    - [1213, 8873.16]
+    - [1240, 8873.06]
   - - [1024, 4459, 1, 1024]
-    - [1220, 9431.32]
+    - [1247, 9431.22]
   - - [1024, 3808, 1, 1024]
-    - [1220, 9263.72]
+    - [1247, 9263.62]
   - - [1024, 2336, 1, 1024]
-    - [1213, 8966.0]
+    - [1240, 8965.9]
   - - [4096, 27, 1, 3072]
-    - [1233, 4171.74]
+    - [1260, 4171.64]
   - - [1024, 2304, 1, 1024]
-    - [1210, 8601.38]
+    - [1237, 8601.28]
   - - [1024, 1560, 1, 1024]
-    - [1225, 7481.74]
+    - [1252, 7481.64]
   - - [4096, 35, 1, 3072]
-    - [1239, 4176.9]
+    - [1266, 4176.8]
   - - [1024, 2496, 1, 1024]
-    - [1216, 9092.86]
+    - [1243, 9092.76]
   - - [1024, 1504, 1, 1024]
-    - [1216, 9220.53]
+    - [1243, 9220.43]
   - - [4096, 50, 1, 2048]
-    - [1240, 5472.83]
+    - [1267, 5472.73]
   - - [1024, 3232, 1, 1024]
-    - [1213, 8961.94]
+    - [1240, 8961.84]
   - - [1024, 14, 1, 1024]
-    - [1244, 882.315]
+    - [1271, 882.215]
   - - [36548, 1015, 1, 1024]
-    - [1212, 10140.9]
+    - [1239, 10140.8]
   - - [1024, 2000, 1, 1024]
-    - [1224, 9487.8]
+    - [1251, 9487.7]
   - - [36548, 243, 1, 1024]
-    - [1217, 9441.12]
+    - [1244, 9441.02]
   - - [36548, 32, 1, 1024]
-    - [1205, 4721.05]
+    - [1232, 4720.95]
   - - [1024, 25, 1, 1024]
-    - [1251, 1462.96]
+    - [1278, 1462.86]
   - - [1024, 13184, 1, 1024]
-    - [1215, 9866.28]
+    - [1242, 9866.18]
   - - [1024, 2688, 1, 1024]
-    - [1210, 8559.93]
+    - [1237, 8559.83]
   - - [1024, 27, 1, 1024]
-    - [1249, 1559.11]
+    - [1276, 1559.01]
   - - [36548, 950, 1, 1024]
-    - [1219, 10053.6]
+    - [1246, 10053.5]
   - - [1024, 1764, 1, 1024]
-    - [1226, 8347.11]
+    - [1253, 8347.01]
   - - [1024, 992, 1, 1024]
-    - [1213, 9035.82]
+    - [1240, 9035.72]
   - - [1024, 1376, 1, 1024]
-    - [1213, 8797.96]
+    - [1240, 8797.86]
   - - [1024, 950, 1, 1024]
-    - [1220, 8635.26]
+    - [1247, 8635.16]
   - - [36548, 774, 1, 1024]
-    - [1212, 9460.82]
+    - [1239, 9460.72]
   - - [36548, 25, 1, 1024]
-    - [1205, 3694.16]
+    - [1232, 3694.06]
   - - [1024, 4256, 1, 1024]
-    - [1213, 9172.16]
+    - [1240, 9172.06]
   - - [4096, 32, 1, 3072]
-    - [1234, 4886.67]
+    - [1261, 4886.57]
   - - [1024, 243, 1, 1024]
-    - [1238, 6594.41]
+    - [1265, 6594.31]
   - - [36548, 3712, 1, 1024]
-    - [1212, 10401.6]
+    - [1239, 10401.5]
   - - [1024, 50, 1, 1024]
-    - [1247, 2742.19]
+    - [1274, 2742.09]
   - - [1024, 3360, 1, 1024]
-    - [1209, 9017.37]
+    - [1236, 9017.27]
   - - [1024, 2048, 1, 1024]
-    - [1224, 9736.65]
+    - [1251, 9736.55]
   - - [1024, 2784, 1, 1024]
-    - [1220, 8835.6]
+    - [1247, 8835.5]
   - - [1024, 4992, 1, 1024]
-    - [1218, 9639.38]
+    - [1245, 9639.28]
   - - [36548, 1102, 1, 1024]
-    - [1219, 9859.04]
+    - [1246, 9858.94]
   - - [1024, 1536, 1, 1024]
-    - [1211, 9294.98]
+    - [1238, 9294.88]
   - - [1024, 2720, 1, 1024]
-    - [1216, 8617.88]
+    - [1243, 8617.78]
   - - [4096, 1, 1, 3072]
-    - [1232, 0.1]
+    - [1259, 0.0]
   - - [1024, 2752, 1, 1024]
-    - [1220, 8902.17]
+    - [1247, 8902.07]
   - - [1024, 2816, 1, 1024]
-    - [1218, 8906.95]
+    - [1245, 8906.85]
   - - [1024, 2624, 1, 1024]
-    - [1220, 8494.41]
+    - [1247, 8494.31]
   - - [1024, 2144, 1, 1024]
-    - [1203, 8243.56]
+    - [1230, 8243.46]
   - - [36548, 1131, 1, 1024]
-    - [1219, 10104.6]
+    - [1246, 10104.5]
   - - [4096, 25, 1, 3072]
-    - [1234, 3959.98]
+    - [1261, 3959.88]
   - - [1024, 64, 1, 1024]
-    - [1247, 3410.1]
+    - [1274, 3410.0]
   - - [1024, 3296, 1, 1024]
-    - [1218, 9066.52]
+    - [1245, 9066.42]
   - - [36548, 4992, 1, 1024]
-    - [1212, 10395.6]
+    - [1239, 10395.5]
   - - [1024, 1344, 1, 1024]
-    - [1213, 8522.66]
+    - [1240, 8522.56]
   - - [36548, 2401, 1, 1024]
-    - [1212, 10250.3]
+    - [1239, 10250.2]
   - - [1024, 15744, 1, 1024]
-    - [1212, 10006.4]
+    - [1239, 10006.3]
   - - [1024, 15232, 1, 1024]
-    - [1211, 9912.21]
+    - [1238, 9912.11]
   - - [1024, 1888, 1, 1024]
-    - [1223, 8962.98]
+    - [1250, 8962.88]
   - - [1024, 1792, 1, 1024]
-    - [1227, 8556.82]
+    - [1254, 8556.72]
   - - [36548, 1073, 1, 1024]
-    - [1212, 10161.2]
+    - [1239, 10161.1]
   - - [4096, 50, 1, 3072]
-    - [1239, 5882.16]
+    - [1266, 5882.06]
   - - [36548, 15488, 1, 1024]
-    - [1219, 10437.1]
+    - [1246, 10437.0]
   - - [1024, 2464, 1, 1024]
-    - [1216, 8880.02]
+    - [1243, 8879.92]
   - - [1024, 2272, 1, 1024]
-    - [1213, 8720.35]
+    - [1240, 8720.25]
   - - [1024, 13, 1, 1024]
-    - [1243, 774.616]
+    - [1270, 774.516]
   - - [1024, 2432, 1, 1024]
-    - [1218, 8491.53]
+    - [1245, 8491.43]
   - - [36548, 24, 1, 1024]
-    - [1205, 3564.41]
+    - [1232, 3564.31]
   - - [1024, 3936, 1, 1024]
-    - [1228, 9433.3]
+    - [1255, 9433.2]
   - - [36548, 13824, 1, 1024]
-    - [1212, 10439.8]
+    - [1239, 10439.7]
   - - [1024, 2401, 1, 1024]
-    - [1220, 8870.03]
+    - [1247, 8869.93]
   - - [1024, 32, 1, 1024]
-    - [1235, 1839.71]
+    - [1262, 1839.61]
   - - [1024, 2176, 1, 1024]
-    - [1204, 8544.55]
+    - [1231, 8544.45]
   - - [1024, 2240, 1, 1024]
-    - [1213, 8381.55]
+    - [1240, 8381.45]
   - - [1024, 1728, 1, 1024]
-    - [1201, 8212.33]
+    - [1228, 8212.23]
   - - [1024, 128, 1, 1024]
-    - [1248, 4660.44]
+    - [1275, 4660.34]
   - - [1024, 216, 1, 1024]
-    - [1238, 5777.97]
+    - [1265, 5777.87]
   - - [1024, 63, 1, 1024]
-    - [1246, 3329.75]
+    - [1273, 3329.65]
   - - [1024, 86, 1, 1024]
-    - [1252, 3533.7]
+    - [1279, 3533.6]
   - - [1024, 2528, 1, 1024]
-    - [1208, 8789.25]
+    - [1235, 8789.15]
   - - [1024, 2400, 1, 1024]
-    - [1213, 8939.4]
+    - [1240, 8939.3]
   - - [1024, 1440, 1, 1024]
-    - [1220, 9131.41]
+    - [1247, 9131.31]
   - - [1024, 2912, 1, 1024]
-    - [1213, 9140.03]
+    - [1240, 9139.93]
   - - [4096, 35, 1, 2048]
-    - [1239, 4059.85]
+    - [1266, 4059.75]
   - - [4096, 63, 1, 2048]
-    - [1241, 6946.5]
+    - [1268, 6946.4]
   - - [1024, 2880, 1, 1024]
-    - [1211, 9104.98]
+    - [1238, 9104.88]
   - - [1024, 4064, 1, 1024]
-    - [1230, 9715.2]
+    - [1257, 9715.1]
   - - [1024, 4655, 1, 1024]
-    - [1218, 9033.9]
+    - [1245, 9033.8]
   - - [1024, 1088, 1, 1024]
-    - [1202, 8144.41]
+    - [1229, 8144.31]
   - - [36548, 6272, 1, 1024]
-    - [1219, 10427.4]
+    - [1246, 10427.3]
   - - [1024, 1, 1, 13]
-    - [1232, 0.1]
+    - [1259, 0.0]
   - - [768, 512, 1, 768]
-    - [1256, 5889.14]
+    - [1283, 5889.04]
   - - [768, 2048, 1, 3072]
-    - [1266, 9394.72]
+    - [1293, 9394.62]
   - - [768, 32, 1, 768]
-    - [1278, 1502.84]
+    - [1305, 1502.74]
   - - [64, 128, 96, 128]
-    - [1273, 4973.58]
+    - [1300, 4973.48]
   - - [3072, 1024, 1, 768]
-    - [1267, 9856.17]
+    - [1294, 9856.07]
   - - [768, 1024, 1, 3072]
-    - [1260, 8611.16]
+    - [1287, 8611.06]
   - - [768, 512, 1, 3072]
-    - [1259, 6430.89]
+    - [1286, 6430.79]
   - - [768, 64, 1, 768]
-    - [1280, 2621.54]
+    - [1307, 2621.44]
   - - [768, 4096, 1, 3072]
-    - [1265, 10030.5]
+    - [1292, 10030.4]
   - - [768, 2048, 1, 2]
-    - [1258, 381.863]
+    - [1285, 381.763]
   - - [768, 2048, 1, 768]
-    - [1263, 9754.3]
+    - [1290, 9754.2]
   - - [768, 320, 1, 30522]
-    - [1276, 8529.5]
+    - [1303, 8529.4]
   - - [64, 64, 96, 64]
-    - [1270, 2496.71]
+    - [1297, 2496.61]
   - - [768, 640, 1, 30522]
-    - [1257, 8253.94]
+    - [1284, 8253.84]
   - - [768, 1280, 1, 30522]
-    - [1262, 9572.95]
+    - [1289, 9572.85]
   - - [768, 1280, 1, 768]
-    - [1266, 8714.03]
+    - [1293, 8713.93]
   - - [768, 640, 1, 768]
-    - [1256, 7293.13]
+    - [1283, 7293.03]
   - - [768, 32, 1, 2]
-    - [1268, 11.9154]
+    - [1295, 11.8154]
   - - [3072, 2048, 1, 768]
-    - [1263, 10019.7]
+    - [1290, 10019.6]
   - - [768, 4096, 1, 768]
-    - [1263, 9927.45]
+    - [1290, 9927.35]
   - - [3072, 4096, 1, 768]
-    - [1266, 10150.2]
+    - [1293, 10150.1]
   - - [64, 256, 192, 256]
-    - [1272, 7054.29]
+    - [1299, 7054.19]
   - - [768, 8, 1, 768]
-    - [1279, 341.039]
+    - [1306, 340.939]
   - - [64, 128, 384, 128]
-    - [1271, 6765.11]
+    - [1298, 6765.01]
   - - [768, 1024, 1, 768]
-    - [1261, 8768.68]
+    - [1288, 8768.58]
   - - [768, 320, 1, 768]
-    - [1277, 6838.64]
+    - [1304, 6838.54]
   - - [64, 64, 768, 64]
-    - [1274, 5388.93]
+    - [1301, 5388.83]
   - - [768, 1024, 1, 2]
-    - [1254, 258.795]
+    - [1281, 258.695]
   - - [768, 16, 1, 768]
-    - [1279, 819.3]
+    - [1306, 819.2]
   - - [64, 256, 96, 256]
-    - [1272, 5893.74]
+    - [1299, 5893.64]
   - - [3072, 512, 1, 768]
-    - [1264, 9722.89]
+    - [1291, 9722.79]
   - - [768, 160, 1, 768]
-    - [1281, 5019.88]
+    - [1308, 5019.78]
   - - [768, 4096, 1, 2]
-    - [1255, 507.475]
+    - [1282, 507.375]
   - - [1600, 512, 1, 1024]
-    - [1285, 7187.05]
+    - [1312, 7186.95]
   - - [1024, 512, 1, 64]
-    - [1283, 2557.6]
+    - [1310, 2557.5]
   - - [1024, 512, 1, 1]
-    - [1282, 71.3348]
+    - [1309, 71.2348]
   - - [2048, 512, 1, 1]
-    - [1284, 90.4945]
+    - [1311, 90.3945]
   - - [1024, 200, 1, 1]
-    - [1290, 40.1]
+    - [1317, 40.0]
   - - [32, 200, 1, 1]
-    - [1286, 1.66863]
+    - [1313, 1.56863]
   - - [560, 200, 1, 1024]
-    - [1294, 4731.45]
+    - [1321, 4731.35]
   - - [1, 512, 1, 1]
-    - [1293, 0.230612]
+    - [1320, 0.130612]
   - - [64, 512, 1, 1]
-    - [1288, 7.68519]
+    - [1315, 7.58519]
   - - [1024, 8192, 1, 256]
-    - [1303, 9519.09]
+    - [1330, 9518.99]
   - - [1024, 22016, 1, 256]
-    - [1309, 9881.22]
+    - [1336, 9881.12]
   - - [256, 8976, 1, 4352]
-    - [1301, 9567.18]
+    - [1328, 9567.08]
   - - [512, 256, 1, 2048]
-    - [1314, 5917.99]
+    - [1341, 5917.89]
   - - [1024, 19968, 1, 256]
-    - [1309, 9882.47]
+    - [1336, 9882.37]
   - - [256, 8976, 1, 1536]
-    - [1299, 8437.45]
+    - [1326, 8437.35]
   - - [256, 8976, 1, 33536]
-    - [1299, 8441.99]
+    - [1326, 8441.89]
   - - [1024, 1792, 1, 256]
-    - [1299, 7757.07]
+    - [1326, 7756.97]
   - - [1024, 21504, 1, 256]
-    - [1309, 9894.0]
+    - [1336, 9893.9]
   - - [512, 215, 1, 2048]
-    - [1315, 4665.74]
+    - [1342, 4665.64]
   - - [1024, 7168, 1, 256]
-    - [1303, 9509.45]
+    - [1330, 9509.35]
   - - [256, 8976, 1, 15872]
-    - [1305, 8914.75]
+    - [1332, 8914.65]
   - - [1024, 19712, 1, 256]
-    - [1309, 9772.0]
+    - [1336, 9771.9]
   - - [256, 8976, 1, 5632]
-    - [1305, 8740.13]
+    - [1332, 8740.03]
   - - [1024, 14848, 1, 256]
-    - [1309, 9756.25]
+    - [1336, 9756.15]
   - - [1024, 28672, 1, 256]
-    - [1309, 9959.02]
+    - [1336, 9958.92]
   - - [256, 8976, 1, 9728]
-    - [1312, 8853.14]
+    - [1339, 8853.04]
   - - [1024, 17152, 1, 256]
-    - [1303, 9737.4]
+    - [1330, 9737.3]
   - - [256, 8976, 1, 11520]
-    - [1305, 8999.3]
+    - [1332, 8999.2]
   - - [256, 8976, 1, 8192]
-    - [1295, 7897.42]
+    - [1322, 7897.32]
   - - [1024, 3328, 1, 256]
-    - [1310, 8593.63]
+    - [1337, 8593.53]
   - - [256, 8976, 1, 7424]
-    - [1305, 8980.57]
+    - [1332, 8980.47]
   - - [1024, 18944, 1, 256]
-    - [1309, 9854.95]
+    - [1336, 9854.85]
   - - [1024, 10496, 1, 256]
-    - [1304, 9454.0]
+    - [1331, 9453.9]
   - - [256, 8976, 1, 5376]
-    - [1302, 9608.47]
+    - [1329, 9608.37]
   - - [256, 8976, 1, 6144]
-    - [1299, 7880.23]
+    - [1326, 7880.13]
   - - [1024, 40448, 1, 256]
-    - [1309, 10016.7]
+    - [1336, 10016.6]
   - - [256, 8976, 1, 22016]
-    - [1312, 8939.97]
+    - [1339, 8939.87]
   - - [256, 8976, 1, 4864]
-    - [1300, 9211.53]
+    - [1327, 9211.43]
   - - [256, 8976, 1, 12288]
-    - [1296, 8065.15]
+    - [1323, 8065.05]
   - - [1024, 9728, 1, 256]
-    - [1309, 9636.35]
+    - [1336, 9636.25]
   - - [256, 8976, 1, 2048]
-    - [1297, 7001.43]
+    - [1324, 7001.33]
   - - [1024, 10240, 1, 256]
-    - [1303, 9620.06]
+    - [1330, 9619.96]
   - - [256, 8976, 1, 2304]
-    - [1301, 9509.84]
+    - [1328, 9509.74]
   - - [1024, 7936, 1, 256]
-    - [1309, 9300.77]
+    - [1336, 9300.67]
   - - [768, 256, 1, 2048]
-    - [1313, 6268.05]
+    - [1340, 6267.95]
   - - [1024, 9984, 1, 256]
-    - [1309, 9477.38]
+    - [1336, 9477.28]
   - - [1024, 13312, 1, 256]
-    - [1309, 9758.66]
+    - [1336, 9758.56]
   - - [1024, 16128, 1, 256]
-    - [1303, 9722.0]
+    - [1330, 9721.9]
   - - [1024, 8960, 1, 256]
-    - [1304, 9398.35]
+    - [1331, 9398.25]
   - - [1024, 5120, 1, 256]
-    - [1310, 9315.6]
+    - [1337, 9315.5]
   - - [1024, 11264, 1, 256]
-    - [1303, 9664.9]
+    - [1330, 9664.8]
   - - [256, 8976, 1, 20480]
-    - [1311, 8279.97]
+    - [1338, 8279.87]
   - - [1024, 20992, 1, 256]
-    - [1303, 9878.97]
+    - [1330, 9878.87]
   - - [256, 8976, 1, 9472]
-    - [1305, 8991.06]
+    - [1332, 8990.96]
   - - [256, 8976, 1, 8448]
-    - [1305, 8983.62]
+    - [1332, 8983.52]
   - - [256, 8976, 1, 20992]
-    - [1306, 8942.21]
+    - [1333, 8942.11]
   - - [256, 8976, 1, 10496]
-    - [1306, 8989.81]
+    - [1333, 8989.71]
   - - [1024, 15104, 1, 256]
-    - [1304, 9676.11]
+    - [1331, 9676.01]
   - - [1024, 6400, 1, 256]
-    - [1312, 9145.99]
+    - [1339, 9145.89]
   - - [1024, 4096, 1, 256]
-    - [1305, 9124.35]
+    - [1332, 9124.25]
   - - [256, 8976, 1, 2560]
-    - [1299, 8566.21]
+    - [1326, 8566.11]
   - - [256, 8976, 1, 2816]
-    - [1301, 9496.94]
+    - [1328, 9496.84]
   - - [1024, 7680, 1, 256]
-    - [1309, 9460.94]
+    - [1336, 9460.84]
   - - [256, 8976, 1, 14336]
-    - [1306, 8226.9]
+    - [1333, 8226.8]
   - - [256, 8976, 1, 6656]
-    - [1306, 8771.52]
+    - [1333, 8771.42]
   - - [1024, 3072, 1, 256]
-    - [1306, 9077.04]
+    - [1333, 9076.94]
   - - [256, 8976, 1, 5888]
-    - [1302, 9546.4]
+    - [1329, 9546.3]
   - - [1024, 12288, 1, 256]
-    - [1303, 9690.91]
+    - [1330, 9690.81]
   - - [256, 8976, 1, 26112]
-    - [1308, 8699.93]
+    - [1335, 8699.83]
   - - [1024, 7424, 1, 256]
-    - [1310, 9256.94]
+    - [1337, 9256.84]
   - - [256, 8976, 1, 14848]
-    - [1311, 8885.89]
+    - [1338, 8885.79]
   - - [768, 215, 1, 2048]
-    - [1313, 5628.69]
+    - [1340, 5628.59]
   - - [1024, 2560, 1, 256]
-    - [1306, 8820.93]
+    - [1333, 8820.83]
   - - [256, 8976, 1, 19968]
-    - [1305, 8928.96]
+    - [1332, 8928.86]
   - - [256, 8976, 1, 9984]
-    - [1305, 8993.22]
+    - [1332, 8993.12]
   - - [1024, 4864, 1, 256]
-    - [1306, 8974.4]
+    - [1333, 8974.3]
   - - [1024, 33536, 1, 256]
-    - [1309, 9943.17]
+    - [1336, 9943.07]
   - - [256, 8976, 1, 15104]
-    - [1306, 8996.73]
+    - [1333, 8996.63]
   - - [1024, 2048, 1, 256]
-    - [1304, 8462.76]
+    - [1331, 8462.66]
   - - [256, 8976, 1, 8960]
-    - [1306, 8999.02]
+    - [1333, 8998.92]
   - - [1024, 6144, 1, 256]
-    - [1311, 9359.77]
+    - [1338, 9359.67]
   - - [1024, 14592, 1, 256]
-    - [1309, 9667.52]
+    - [1336, 9667.42]
   - - [256, 8976, 1, 19712]
-    - [1305, 9020.21]
+    - [1332, 9020.11]
   - - [1024, 11520, 1, 256]
-    - [1304, 9527.8]
+    - [1331, 9527.7]
   - - [1024, 5632, 1, 256]
-    - [1303, 9297.3]
+    - [1330, 9297.2]
   - - [256, 8976, 1, 11008]
-    - [1312, 8994.9]
+    - [1339, 8994.8]
   - - [256, 8976, 1, 17152]
-    - [1306, 9003.9]
+    - [1333, 9003.8]
   - - [256, 8976, 1, 3072]
-    - [1295, 8262.06]
+    - [1322, 8261.96]
   - - [1024, 3840, 1, 256]
-    - [1312, 8671.99]
+    - [1339, 8671.89]
   - - [1024, 14336, 1, 256]
-    - [1309, 9760.38]
+    - [1336, 9760.28]
   - - [1024, 20480, 1, 256]
-    - [1303, 9887.95]
+    - [1330, 9887.85]
   - - [1024, 23552, 1, 256]
-    - [1303, 9890.56]
+    - [1330, 9890.46]
   - - [256, 8976, 1, 7168]
-    - [1298, 8478.44]
+    - [1325, 8478.34]
   - - [1024, 13568, 1, 256]
-    - [1303, 9654.74]
+    - [1330, 9654.64]
   - - [1024, 4608, 1, 256]
-    - [1311, 9218.35]
+    - [1338, 9218.25]
   - - [256, 8976, 1, 10240]
-    - [1296, 8076.26]
+    - [1323, 8076.16]
   - - [1024, 8704, 1, 256]
-    - [1305, 9475.6]
+    - [1332, 9475.5]
   - - [1024, 11008, 1, 256]
-    - [1309, 9525.06]
+    - [1336, 9524.96]
   - - [1024, 8448, 1, 256]
-    - [1303, 9352.26]
+    - [1330, 9352.16]
   - - [256, 8976, 1, 44505]
-    - [1307, 8430.33]
+    - [1334, 8430.23]
   - - [6272, 256, 1, 528]
-    - [1359, 7390.04]
+    - [1386, 7389.94]
   - - [3136, 2048, 1, 1024]
-    - [1340, 9658.04]
+    - [1367, 9657.94]
   - - [6272, 112, 1, 512]
-    - [1338, 5931.19]
+    - [1365, 5931.09]
   - - [2048, 320, 1, 1280]
-    - [1358, 7773.09]
+    - [1385, 7772.99]
   - - [289, 256, 1, 1568]
-    - [1379, 3718.27]
-  - - [3136, 64, 64, 64]
-    - [1318, 8201.25]
+    - [1406, 3718.17]
   - - [50176, 128, 1, 256]
-    - [1341, 8908.68]
+    - [1368, 8908.58]
   - - [5329, 64, 1, 448]
-    - [1324, 4602.3]
+    - [1351, 4602.2]
   - - [289, 192, 1, 1344]
-    - [1376, 3452.69]
+    - [1403, 3452.59]
   - - [12544, 1024, 1, 256]
-    - [1341, 9742.74]
+    - [1368, 9742.64]
   - - [784, 64, 32, 192]
-    - [1317, 6844.71]
+    - [1344, 6844.61]
   - - [6272, 64, 1, 480]
-    - [1325, 5562.34]
+    - [1352, 5562.24]
   - - [196, 128, 1, 800]
-    - [1367, 1639.84]
+    - [1394, 1639.74]
   - - [64, 512, 1, 1344]
-    - [1366, 2313.14]
+    - [1393, 2313.04]
   - - [6272, 64, 1, 512]
-    - [1324, 5609.29]
+    - [1351, 5609.19]
   - - [6272, 160, 1, 528]
-    - [1325, 6149.8]
+    - [1352, 6149.7]
   - - [289, 160, 32, 768]
-    - [1352, 6637.92]
+    - [1379, 6637.82]
   - - [12544, 256, 1, 1024]
-    - [1359, 8790.56]
+    - [1386, 8790.46]
   - - [289, 224, 1, 1568]
-    - [1379, 3270.27]
+    - [1406, 3270.17]
   - - [5329, 64, 32, 160]
-    - [1332, 9091.14]
+    - [1359, 9091.04]
   - - [5329, 96, 1, 576]
-    - [1359, 5555.76]
+    - [1386, 5555.66]
   - - [3025, 64, 1, 363]
-    - [1377, 4392.4]
+    - [1404, 4392.3]
   - - [784, 32, 32, 192]
-    - [1348, 5633.9]
+    - [1375, 5633.8]
   - - [3136, 512, 1, 1024]
-    - [1344, 7553.24]
+    - [1371, 7553.14]
   - - [6272, 16, 1, 480]
-    - [1379, 3219.95]
+    - [1406, 3219.85]
   - - [1225, 64, 32, 288]
-    - [1339, 8240.68]
+    - [1366, 8240.58]
   - - [64, 256, 1, 1536]
-    - [1372, 1456.46]
+    - [1399, 1456.36]
   - - [289, 192, 32, 768]
-    - [1351, 7372.9]
+    - [1378, 7372.8]
   - - [2048, 448, 1, 1280]
-    - [1334, 8403.11]
+    - [1361, 8403.01]
   - - [3136, 2048, 1, 512]
-    - [1333, 9486.41]
+    - [1360, 9486.31]
   - - [289, 256, 1, 2016]
-    - [1379, 3876.18]
+    - [1406, 3876.08]
   - - [289, 384, 32, 1024]
-    - [1318, 7350.64]
+    - [1345, 7350.54]
   - - [1568, 32, 1, 832]
-    - [1368, 2717.97]
+    - [1395, 2717.87]
   - - [3136, 64, 32, 64]
-    - [1321, 7657.36]
+    - [1348, 7657.26]
   - - [289, 160, 1, 1120]
-    - [1375, 2827.0]
+    - [1402, 2826.9]
   - - [6272, 128, 1, 528]
-    - [1329, 6926.36]
+    - [1356, 6926.26]
   - - [21609, 32, 1, 288]
-    - [1330, 3699.0]
+    - [1357, 3698.9]
   - - [1225, 192, 1, 1728]
-    - [1363, 7309.91]
+    - [1390, 7309.81]
   - - [4096, 512, 1, 4096]
-    - [1346, 10272.2]
+    - [1373, 10272.1]
   - - [64, 256, 1, 1152]
-    - [1372, 1387.92]
+    - [1399, 1387.82]
   - - [6272, 96, 1, 480]
-    - [1360, 6371.66]
+    - [1387, 6371.56]
   - - [784, 96, 1, 800]
-    - [1380, 3330.37]
+    - [1407, 3330.27]
   - - [2048, 448, 1, 2048]
-    - [1334, 8622.75]
+    - [1361, 8622.65]
   - - [784, 96, 32, 192]
-    - [1349, 7092.46]
-  - - [3136, 64, 64, 256]
-    - [1342, 9579.26]
+    - [1376, 7092.36]
   - - [289, 224, 1, 1344]
-    - [1379, 3180.11]
+    - [1406, 3180.01]
   - - [1001, 512, 1, 4096]
-    - [1320, 8195.17]
+    - [1347, 8195.07]
   - - [2048, 192, 1, 1280]
-    - [1325, 6120.19]
+    - [1352, 6120.09]
   - - [1225, 64, 32, 256]
-    - [1330, 8076.72]
+    - [1357, 8076.62]
   - - [2048, 256, 1, 1536]
-    - [1320, 8137.8]
+    - [1347, 8137.7]
   - - [1225, 64, 1, 1200]
-    - [1379, 3552.97]
+    - [1406, 3552.87]
   - - [6272, 128, 1, 512]
-    - [1333, 6878.31]
+    - [1360, 6878.21]
   - - [729, 192, 1, 1600]
-    - [1378, 5016.87]
+    - [1405, 5016.77]
   - - [289, 192, 1, 896]
-    - [1376, 3091.97]
+    - [1403, 3091.87]
   - - [1568, 384, 1, 832]
-    - [1359, 6934.72]
+    - [1386, 6934.62]
   - - [784, 16, 32, 192]
-    - [1350, 3380.38]
+    - [1377, 3380.28]
   - - [1568, 256, 1, 832]
-    - [1324, 5980.96]
+    - [1351, 5980.86]
   - - [1568, 48, 1, 832]
-    - [1381, 3275.19]
+    - [1408, 3275.09]
   - - [1568, 192, 1, 832]
-    - [1319, 4441.21]
+    - [1346, 4441.11]
   - - [289, 192, 32, 1024]
-    - [1322, 6563.16]
+    - [1349, 6563.06]
   - - [6272, 32, 1, 528]
-    - [1363, 4998.77]
+    - [1390, 4998.67]
   - - [49, 128, 1, 1200]
-    - [1364, 550.275]
+    - [1391, 550.175]
   - - [1225, 64, 32, 384]
-    - [1336, 8589.43]
+    - [1363, 8589.33]
   - - [289, 128, 1, 896]
-    - [1375, 2103.2]
+    - [1402, 2103.1]
   - - [1568, 160, 1, 832]
-    - [1363, 6995.15]
+    - [1390, 6995.05]
   - - [1001, 32, 1, 1024]
-    - [1372, 1744.82]
+    - [1399, 1744.72]
   - - [2048, 320, 1, 2048]
-    - [1357, 7118.14]
+    - [1384, 7118.04]
   - - [2048, 384, 1, 1536]
-    - [1320, 8184.11]
+    - [1347, 8184.01]
   - - [50176, 512, 1, 256]
-    - [1332, 9852.5]
+    - [1359, 9852.4]
   - - [289, 256, 1, 1792]
-    - [1381, 3809.85]
+    - [1408, 3809.75]
   - - [64, 448, 1, 1152]
-    - [1373, 2128.33]
+    - [1400, 2128.23]
   - - [5041, 96, 1, 576]
-    - [1358, 5279.4]
+    - [1385, 5279.3]
   - - [6272, 192, 1, 480]
-    - [1320, 7479.75]
+    - [1347, 7479.65]
   - - [784, 32, 32, 256]
-    - [1347, 5709.01]
+    - [1374, 5708.91]
   - - [1001, 32, 1, 2048]
-    - [1374, 2141.14]
+    - [1401, 2141.04]
   - - [289, 192, 1, 1120]
-    - [1370, 3277.87]
+    - [1397, 3277.77]
   - - [6272, 32, 1, 512]
-    - [1362, 4978.8]
+    - [1389, 4978.7]
   - - [289, 384, 1, 3456]
-    - [1379, 5904.24]
+    - [1406, 5904.14]
   - - [289, 384, 1, 2592]
-    - [1380, 5707.44]
-  - - [784, 128, 64, 512]
-    - [1326, 8864.49]
+    - [1407, 5707.34]
   - - [12544, 1024, 1, 512]
-    - [1341, 10008.4]
+    - [1368, 10008.3]
   - - [12544, 256, 1, 512]
-    - [1359, 8628.18]
+    - [1386, 8628.08]
   - - [6272, 24, 1, 512]
-    - [1363, 3568.17]
+    - [1390, 3568.07]
   - - [5041, 192, 1, 720]
-    - [1334, 8424.52]
+    - [1361, 8424.42]
   - - [64, 320, 1, 1728]
-    - [1367, 1469.76]
+    - [1394, 1469.66]
   - - [784, 128, 32, 256]
-    - [1335, 8104.24]
+    - [1362, 8104.14]
   - - [289, 96, 1, 864]
-    - [1373, 1838.35]
+    - [1400, 1838.25]
   - - [1225, 32, 32, 192]
-    - [1354, 5949.82]
+    - [1381, 5949.72]
   - - [1568, 128, 1, 832]
-    - [1362, 5718.79]
+    - [1389, 5718.69]
   - - [289, 128, 32, 768]
-    - [1320, 7289.35]
-  - - [3136, 256, 64, 64]
-    - [1328, 9104.02]
+    - [1347, 7289.25]
   - - [196, 64, 1, 800]
-    - [1366, 915.72]
+    - [1393, 915.62]
   - - [4096, 512, 1, 9216]
-    - [1343, 10351.5]
+    - [1370, 10351.4]
   - - [12544, 64, 1, 147]
-    - [1333, 5069.43]
+    - [1360, 5069.33]
   - - [784, 32, 1, 400]
-    - [1364, 1140.46]
+    - [1391, 1140.36]
   - - [6272, 160, 1, 512]
-    - [1324, 6140.18]
+    - [1351, 6140.08]
   - - [1225, 48, 32, 288]
-    - [1330, 5978.71]
+    - [1357, 5978.61]
   - - [64, 320, 1, 2880]
-    - [1371, 1920.1]
+    - [1398, 1920.0]
   - - [1225, 64, 32, 192]
-    - [1324, 7641.11]
+    - [1351, 7641.01]
   - - [1001, 32, 1, 1536]
-    - [1372, 2084.89]
+    - [1399, 2084.79]
   - - [784, 64, 32, 256]
-    - [1316, 6990.61]
+    - [1343, 6990.51]
   - - [64, 384, 1, 1152]
-    - [1373, 1862.7]
-  - - [784, 512, 64, 128]
-    - [1327, 9026.05]
+    - [1400, 1862.6]
   - - [3136, 512, 1, 2048]
-    - [1345, 7764.4]
+    - [1372, 7764.3]
   - - [6272, 144, 1, 512]
-    - [1320, 5574.14]
+    - [1347, 5574.04]
   - - [1225, 192, 32, 384]
-    - [1334, 9373.93]
+    - [1361, 9373.83]
   - - [64, 192, 1, 1728]
-    - [1372, 1206.56]
+    - [1399, 1206.46]
   - - [8192, 320, 1, 1280]
-    - [1386, 9876.02]
+    - [1413, 9875.92]
   - - [8192, 320, 1, 2048]
-    - [1389, 9745.8]
+    - [1416, 9745.7]
   - - [8192, 384, 1, 1280]
-    - [1386, 10046.3]
+    - [1413, 10046.2]
   - - [8192, 192, 1, 1280]
-    - [1389, 9951.0]
+    - [1416, 9950.9]
   - - [8192, 192, 1, 2048]
-    - [1385, 9559.77]
+    - [1412, 9559.67]
   - - [8192, 384, 1, 2048]
-    - [1387, 9945.84]
+    - [1414, 9945.74]
   - - [8192, 448, 1, 2048]
-    - [1388, 9908.61]
+    - [1415, 9908.51]
   - - [1001, 64, 1, 1536]
-    - [1382, 3650.04]
+    - [1409, 3649.94]
   - - [8192, 448, 1, 1280]
-    - [1386, 9981.45]
+    - [1413, 9981.35]
   - - [1001, 64, 1, 2048]
-    - [1383, 3580.97]
+    - [1410, 3580.87]
   - - [1001, 128, 1, 2048]
-    - [1384, 5587.97]
+    - [1411, 5587.87]
+  - - [3200, 1024, 1, 2048]
+    - [1419, 9131.95]
+  - - [2048, 1024, 1, 256]
+    - [1418, 8452.0]
+  - - [257, 1024, 1, 4096]
+    - [1417, 4225.21]
+  - - [3136, 64, 64, 64]
+    - [1420, 8028.16]
+  - - [1225, 32, 64, 192]
+    - [1426, 6968.89]
+  - - [3136, 64, 64, 256]
+    - [1421, 9678.4]
+  - - [3136, 256, 64, 64]
+    - [1422, 8998.29]
+  - - [1225, 64, 64, 288]
+    - [1425, 8893.83]
+  - - [289, 128, 64, 768]
+    - [1423, 8442.75]
+  - - [5329, 80, 64, 64]
+    - [1427, 6687.37]
+  - - [1225, 64, 64, 192]
+    - [1424, 8339.5]
+  - - [1225, 64, 64, 256]
+    - [1428, 8721.52]
 - null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_AlikC_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_AlikC_BjlkC_CB.yaml
new file mode 100644
index 000000000..83d4fbff9
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_AlikC_BjlkC_CB.yaml
@@ -0,0 +1,493 @@
+- MinimumRequiredVersion: 4.10.0
+- vega20
+- gfx906
+- - Device 66a0
+  - Device 66a1
+  - Device 66a7
+  - Vega 20
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA:
+  - 3
+  - 0
+  - 2
+  IndexAssignmentsB:
+  - 1
+  - 3
+  - 2
+  IndexAssignmentsLD:
+  - 4
+  - 5
+  - 6
+  - 7
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch:
+  - 2
+  IndicesFree:
+  - 0
+  - 1
+  IndicesSummation:
+  - 3
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 64
+    LSPA: 64
+    LSPB: 8
+    LVCA: 4
+    LVCB: 32
+    LVPA: 32
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_BjlkC_CB_MT64x64x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 4
+    LSCB: 64
+    LSPA: 64
+    LSPB: 4
+    LVCA: 4
+    LVCB: 64
+    LVPA: 64
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_BjlkC_CB_MT64x64x4_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+- - 2
+  - 3
+  - 0
+  - 1
+- - - - 64
+      - 64
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 64
+    - - 0
+      - 112.027
+  - - - 1
+      - 1
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 1
+    - - 1
+      - 0.0259372
+  - - - 1
+      - 64
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 64
+    - - 1
+      - 1.43972
+  - - - 64
+      - 1
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 1
+    - - 1
+      - 1.58454
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_AlikC_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_AlikC_Bjlk_CB.yaml
new file mode 100644
index 000000000..6bb52bd77
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_AlikC_Bjlk_CB.yaml
@@ -0,0 +1,493 @@
+- MinimumRequiredVersion: 4.10.0
+- vega20
+- gfx906
+- - Device 66a0
+  - Device 66a1
+  - Device 66a7
+  - Vega 20
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA:
+  - 3
+  - 0
+  - 2
+  IndexAssignmentsB:
+  - 1
+  - 3
+  - 2
+  IndexAssignmentsLD:
+  - 4
+  - 5
+  - 6
+  - 7
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch:
+  - 2
+  IndicesFree:
+  - 0
+  - 1
+  IndicesSummation:
+  - 3
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 64
+    LSPA: 64
+    LSPB: 8
+    LVCA: 4
+    LVCB: 32
+    LVPA: 32
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bjlk_CB_MT64x64x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 4
+    LSCB: 64
+    LSPA: 64
+    LSPB: 4
+    LVCA: 4
+    LVCB: 64
+    LVPA: 64
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bjlk_CB_MT64x64x4_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+- - 2
+  - 3
+  - 0
+  - 1
+- - - - 64
+      - 64
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 64
+    - - 0
+      - 96.377
+  - - - 1
+      - 1
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 1
+    - - 1
+      - 0.0265838
+  - - - 1
+      - 64
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 64
+    - - 1
+      - 1.46155
+  - - - 64
+      - 1
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 1
+    - - 1
+      - 1.65162
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_AlikC_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_AlikC_Bljk_CB.yaml
new file mode 100644
index 000000000..3f5c22fbf
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_AlikC_Bljk_CB.yaml
@@ -0,0 +1,493 @@
+- MinimumRequiredVersion: 4.10.0
+- vega20
+- gfx906
+- - Device 66a0
+  - Device 66a1
+  - Device 66a7
+  - Vega 20
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA:
+  - 3
+  - 0
+  - 2
+  IndexAssignmentsB:
+  - 3
+  - 1
+  - 2
+  IndexAssignmentsLD:
+  - 4
+  - 5
+  - 6
+  - 7
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch:
+  - 2
+  IndicesFree:
+  - 0
+  - 1
+  IndicesSummation:
+  - 3
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 3
+      - 1
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bljk_CB_MT64x64x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 4
+    LSCB: 4
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 64
+    LVPB: 64
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 3
+      - 1
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bljk_CB_MT64x64x4_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+- - 2
+  - 3
+  - 0
+  - 1
+- - - - 64
+      - 64
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 256
+    - - 0
+      - 116.899
+  - - - 1
+      - 1
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 256
+    - - 1
+      - 0.0198912
+  - - - 1
+      - 64
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 256
+    - - 1
+      - 1.77124
+  - - - 64
+      - 1
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 256
+    - - 1
+      - 1.75043
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Alik_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Alik_BjlkC_CB.yaml
new file mode 100644
index 000000000..28e094a57
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Alik_BjlkC_CB.yaml
@@ -0,0 +1,493 @@
+- MinimumRequiredVersion: 4.10.0
+- vega20
+- gfx906
+- - Device 66a0
+  - Device 66a1
+  - Device 66a7
+  - Vega 20
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA:
+  - 3
+  - 0
+  - 2
+  IndexAssignmentsB:
+  - 1
+  - 3
+  - 2
+  IndexAssignmentsLD:
+  - 4
+  - 5
+  - 6
+  - 7
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch:
+  - 2
+  IndicesFree:
+  - 0
+  - 1
+  IndicesSummation:
+  - 3
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 64
+    LSPA: 64
+    LSPB: 8
+    LVCA: 4
+    LVCB: 32
+    LVPA: 32
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_BjlkC_CB_MT64x64x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 4
+    LSCB: 64
+    LSPA: 64
+    LSPB: 4
+    LVCA: 4
+    LVCB: 64
+    LVPA: 64
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_BjlkC_CB_MT64x64x4_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+- - 2
+  - 3
+  - 0
+  - 1
+- - - - 64
+      - 64
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 64
+    - - 0
+      - 118.216
+  - - - 1
+      - 1
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 1
+    - - 1
+      - 0.0266945
+  - - - 1
+      - 64
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 64
+    - - 1
+      - 1.72827
+  - - - 64
+      - 1
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 1
+    - - 1
+      - 1.78866
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Alik_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Alik_Bjlk_CB.yaml
new file mode 100644
index 000000000..ee31e15d6
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Alik_Bjlk_CB.yaml
@@ -0,0 +1,493 @@
+- MinimumRequiredVersion: 4.10.0
+- vega20
+- gfx906
+- - Device 66a0
+  - Device 66a1
+  - Device 66a7
+  - Vega 20
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA:
+  - 3
+  - 0
+  - 2
+  IndexAssignmentsB:
+  - 1
+  - 3
+  - 2
+  IndexAssignmentsLD:
+  - 4
+  - 5
+  - 6
+  - 7
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch:
+  - 2
+  IndicesFree:
+  - 0
+  - 1
+  IndicesSummation:
+  - 3
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 64
+    LSPA: 64
+    LSPB: 8
+    LVCA: 4
+    LVCB: 32
+    LVPA: 32
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bjlk_CB_MT64x64x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 4
+    LSCB: 64
+    LSPA: 64
+    LSPB: 4
+    LVCA: 4
+    LVCB: 64
+    LVPA: 64
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 1
+      - 3
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bjlk_CB_MT64x64x4_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+- - 2
+  - 3
+  - 0
+  - 1
+- - - - 64
+      - 64
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 64
+    - - 0
+      - 117.291
+  - - - 1
+      - 1
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 1
+    - - 1
+      - 0.026556
+  - - - 1
+      - 64
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 64
+    - - 1
+      - 1.87246
+  - - - 64
+      - 1
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 1
+    - - 1
+      - 1.75983
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Alik_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Alik_Bljk_CB.yaml
new file mode 100644
index 000000000..05d1b7964
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Alik_Bljk_CB.yaml
@@ -0,0 +1,493 @@
+- MinimumRequiredVersion: 4.10.0
+- vega20
+- gfx906
+- - Device 66a0
+  - Device 66a1
+  - Device 66a7
+  - Vega 20
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA:
+  - 3
+  - 0
+  - 2
+  IndexAssignmentsB:
+  - 3
+  - 1
+  - 2
+  IndexAssignmentsLD:
+  - 4
+  - 5
+  - 6
+  - 7
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch:
+  - 2
+  IndicesFree:
+  - 0
+  - 1
+  IndicesSummation:
+  - 3
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 3
+      - 1
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bljk_CB_MT64x64x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 4
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 4
+    LSCB: 4
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 64
+    LVPB: 64
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices:
+    - I
+    PackedC1Indices:
+    - J
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA:
+      - 3
+      - 0
+      - 2
+      IndexAssignmentsB:
+      - 3
+      - 1
+      - 2
+      IndexAssignmentsLD:
+      - 4
+      - 5
+      - 6
+      - 7
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch:
+      - 2
+      IndicesFree:
+      - 0
+      - 1
+      IndicesSummation:
+      - 3
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bljk_CB_MT64x64x4_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile:
+    - 4
+    - 4
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup:
+    - 16
+    - 16
+    - 1
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+- - 2
+  - 3
+  - 0
+  - 1
+- - - - 64
+      - 64
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 256
+    - - 0
+      - 90.3171
+  - - - 1
+      - 1
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 256
+    - - 1
+      - 0.0262566
+  - - - 1
+      - 64
+      - 1
+      - 256
+      - 1
+      - 1
+      - 256
+      - 256
+    - - 1
+      - 1.75606
+  - - - 64
+      - 1
+      - 1
+      - 256
+      - 64
+      - 64
+      - 256
+      - 256
+    - - 1
+      - 1.63841
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Alik_Bljk_SB.yaml b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Alik_Bljk_SB.yaml
index a78fe0364..8d6f86810 100644
--- a/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Alik_Bljk_SB.yaml
+++ b/library/src/blas3/Tensile/Logic/asm_full/vega20_Cijk_Alik_Bljk_SB.yaml
@@ -83909,23 +83909,23 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -83933,71 +83933,89 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 32
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
+    LSPB: 16
     LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 2304
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 2048
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 4
-    NumLoadsB: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -84007,6 +84025,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -84016,53 +84035,66 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 519
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x32_GRVW02_GSU32_SNLL0_TT04_02_VW02_WG16_04_04
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: [4, 2]
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id002 
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -84071,7 +84103,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -84079,67 +84111,80 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 32
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 8
-    LVCA: 8
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
-    LdcEqualsLdd: false
-    LdsNumElements: 6400
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 256
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -84147,6 +84192,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -84156,6 +84202,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -84165,95 +84212,114 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 520
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x32_GRVW04_GSU32_SNLL0_TT04_04_VW04_WG16_02_08
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 2
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 2
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001 
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 2, 8]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 64
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 32
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 5120
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 4096
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -84262,36 +84328,46 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -84301,6 +84377,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -84310,99 +84387,116 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 521
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x64_GRVW04_GSU32_SNLL0_TT04_04_VW04_WG16_04_04
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id002
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 64
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 32
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 64
-    LSCB: 64
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
-    LdcEqualsLdd: false
-    LdsNumElements: 13312
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1024
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -84411,29 +84505,38 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -84441,6 +84544,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -84450,6 +84554,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -84459,47 +84564,62 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 522
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x64_GRVW04_GSU32_SNLL0_TT04_04_VW04_WG16_04_04
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id001
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id002
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -84512,42 +84632,44 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 12
-    LSPB: 12
-    LVCA: 16
-    LVCB: 16
-    LVPA: 12
-    LVPB: 12
-    LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 768
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -84559,30 +84681,39 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 36
-    MacroTile1: 48
-    MacroTileA: 36
-    MacroTileB: 48
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 9
-    NumGlobalWriteVectorsPerThread: 9
-    NumLoadsA: 3
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 4
-    NumThreads: 192
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -84590,6 +84721,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -84599,6 +84731,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -84608,39 +84741,9996 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
     SolutionIndex: 523
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT036x048x16_GRVW01_GSU02_SNLL0_TT03_03_VW01_WG12_16_01
-    SubGroup0: 12
-    SubGroup1: 16
-    SubGroupA: 12
-    SubGroupB: 16
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 524
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 525
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 526
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 527
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 528
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 529
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 530
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 531
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR0_TT4_8_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2048
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 532
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA4_LPB0_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 533
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3200
+    LdsOffsetA: 0
+    LdsOffsetB: 2112
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 534
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW1_LPA4_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 535
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT8_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 3200
+    LdsOffsetA: 0
+    LdsOffsetB: 2112
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 536
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 537
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_LPA4_LPB0_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 538
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 539
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT8_4_USFGRO1_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: true
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 540
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA4_LPB4_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 541
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2176
+    LdsOffsetA: 0
+    LdsOffsetB: 1088
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 542
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS0_FL0_GRVW2_LPA2_LPB2_PGR0_PLR0_TT2_4_USFGRO1_VW2_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 2176
+    LdsOffsetA: 0
+    LdsOffsetB: 1088
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 543
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS0_FL0_GRVW4_LPA2_LPB2_PGR0_PLR1_TT2_4_USFGRO1_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 544
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 545
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 546
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 547
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG8_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 548
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 3
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: true
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 0
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 549
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG8_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2304
+    LdsOffsetA: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 550
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x32_GRVW02_GSU32_SNLL0_TT04_02_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id002 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 32
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 6400
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 8
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 551
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x32_GRVW04_GSU32_SNLL0_TT04_04_VW04_WG16_02_08
+    SubGroup0: 16
+    SubGroup1: 2
+    SubGroupA: 16
+    SubGroupB: 2
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 2, 8]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 64
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 5120
+    LdsOffsetA: 0
+    LdsOffsetB: 4096
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 552
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x64_GRVW04_GSU32_SNLL0_TT04_04_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id002
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 64
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 32
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 64
+    LSCB: 64
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 13312
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1024
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 553
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x64_GRVW04_GSU32_SNLL0_TT04_04_VW04_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id001
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id002
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 12
+    LSPB: 12
+    LVCA: 16
+    LVCB: 16
+    LVPA: 12
+    LVPB: 12
+    LdcEqualsLdd: false
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 36
+    MacroTile1: 48
+    MacroTileA: 36
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 9
+    NumGlobalWriteVectorsPerThread: 9
+    NumLoadsA: 3
+    NumLoadsB: 4
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 4
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 554
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT036x048x16_GRVW01_GSU02_SNLL0_TT03_03_VW01_WG12_16_01
+    SubGroup0: 12
+    SubGroup1: 16
+    SubGroupA: 12
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id004 
+    ThreadTile0: 3
+    ThreadTile1: 3
+    ThreadTileA: 3
+    ThreadTileB: 3
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [12, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 12
+    LSPB: 12
+    LVCA: 16
+    LVCB: 16
+    LVPA: 12
+    LVPB: 12
+    LdcEqualsLdd: false
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 576
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 48
+    MacroTile1: 36
+    MacroTileA: 48
+    MacroTileB: 36
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 9
+    NumGlobalWriteVectorsPerThread: 9
+    NumLoadsA: 4
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 555
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT048x036x16_GRVW01_GSU08_SNLL0_TT06_03_VW01_WG08_12_02
+    SubGroup0: 8
+    SubGroup1: 12
+    SubGroupA: 8
+    SubGroupB: 12
+    SuppresssNoLoadLoop: false
+    ThreadTile: [6, 3]
+    ThreadTile0: 6
+    ThreadTile1: 3
+    ThreadTileA: 6
+    ThreadTileB: 3
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: *id003 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 24
+    LSPB: 24
+    LVCA: 8
+    LVCB: 8
+    LVPA: 12
+    LVPB: 12
+    LdcEqualsLdd: false
+    LdsNumElements: 4608
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 48
+    MacroTile1: 48
+    MacroTileA: 48
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 12
+    NumGlobalWriteVectorsPerThread: 6
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 192
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 556
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT048x048x16_GRVW02_GSU08_SNLL0_TT06_04_VW02_WG08_12_02
+    SubGroup0: 8
+    SubGroup1: 12
+    SubGroupA: 8
+    SubGroupB: 12
+    SuppresssNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id003
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 768
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 48
+    MacroTile1: 48
+    MacroTileA: 48
+    MacroTileB: 48
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 9
+    NumGlobalWriteVectorsPerThread: 9
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 557
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT048x048x16_GRVW01_GSU08_SNLL0_TT03_03_VW01_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id004
+    ThreadTile0: 3
+    ThreadTile1: 3
+    ThreadTileA: 3
+    ThreadTileB: 3
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 16
+    LSPB: 8
+    LVCA: 4
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 832
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 64
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 558
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005 
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id009 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 16
+    LSPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 559
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id006 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 16
+    LSPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 560
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010 
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id006
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 561
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id007 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id006
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 16
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 562
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 16
+    LSPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 563
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id006
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 564
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id007
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id006
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 16
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 896
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 565
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 566
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 567
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id009
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 568
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id006
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 569
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id006
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 570
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id007
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id006
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 571
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 572
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id010
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 573
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id007
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id008
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 8
+    MacroTileA: 64
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 574
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
+    SubGroup0: 32
+    SubGroup1: 4
+    SubGroupA: 32
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id011
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
+    LdcEqualsLdd: false
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 4
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 575
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id009
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 576
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id005
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id008
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 2
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 577
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_08_01
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id007
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id008
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 578
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id013 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 512
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 128
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 256
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 384
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 579
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015 
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id014 
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 580
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU08_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 581
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id016 
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 582
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 2
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 583
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id018 
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: false
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 584
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 585
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id004 
-    ThreadTile0: 3
-    ThreadTile1: 3
-    ThreadTileA: 3
-    ThreadTileB: 3
+    ThreadTile: *id016
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [12, 16, 1]
+    VectorWidth: 2
+    WorkGroup: *id013
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -84662,7 +94752,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -84670,31 +94760,31 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 12
-    LSPB: 12
-    LVCA: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
     LVCB: 16
-    LVPA: 12
-    LVPB: 12
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -84708,10 +94798,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 48
-    MacroTile1: 36
-    MacroTileA: 48
-    MacroTileB: 36
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -84719,15 +94809,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 9
-    NumGlobalWriteVectorsPerThread: 9
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 3
-    NumThreads: 192
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -84771,25 +94861,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 524
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT048x036x16_GRVW01_GSU08_SNLL0_TT06_03_VW01_WG08_12_02
-    SubGroup0: 8
-    SubGroup1: 12
-    SubGroupA: 8
-    SubGroupB: 12
+    SolutionIndex: 586
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: [6, 3]
-    ThreadTile0: 6
-    ThreadTile1: 3
-    ThreadTileA: 6
-    ThreadTileB: 3
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id003 
+    VectorWidth: 2
+    WorkGroup: *id017 
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -84812,7 +94902,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -84820,30 +94910,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 24
-    LSPB: 24
+    LSPA: 32
+    LSPB: 16
     LVCA: 8
-    LVCB: 8
-    LVPA: 12
-    LVPB: 12
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4608
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -84857,10 +94947,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 48
-    MacroTile1: 48
-    MacroTileA: 48
-    MacroTileB: 48
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -84868,15 +94958,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 12
-    NumGlobalWriteVectorsPerThread: 6
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 192
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -84920,25 +95010,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 525
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT048x048x16_GRVW02_GSU08_SNLL0_TT06_04_VW02_WG08_12_02
-    SubGroup0: 8
-    SubGroup1: 12
-    SubGroupA: 8
-    SubGroupB: 12
+    SolutionIndex: 587
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG16_08_02
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: *id016
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id003
+    WorkGroup: *id017
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -84960,56 +95050,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 768
-    LdsNumElementsAlignedB: 768
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 48
-    MacroTile1: 48
-    MacroTileA: 48
-    MacroTileB: 48
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85017,14 +95107,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 9
-    NumGlobalWriteVectorsPerThread: 9
-    NumLoadsA: 3
-    NumLoadsB: 3
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -85069,48 +95159,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 526
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT048x048x16_GRVW01_GSU08_SNLL0_TT03_03_VW01_WG16_16_01
+    SolutionIndex: 588
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG16_08_02
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id004
-    ThreadTile0: 3
-    ThreadTile1: 3
-    ThreadTileA: 3
-    ThreadTileB: 3
+    ThreadTile: *id019 
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: *id017
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -85118,36 +95208,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
     LSPA: 16
-    LSPB: 8
-    LVCA: 4
+    LSPB: 16
+    LVCA: 8
     LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 832
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -85156,9 +95246,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 8
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 8
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85174,7 +95264,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -85218,85 +95308,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 527
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 589
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005 
-    ThreadTile0: 2
+    ThreadTile: *id016
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id009 
-    WorkGroupMapping: 1
+    WorkGroup: *id014
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
-    LSPA: 16
-    LSPB: 16
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -85304,10 +95394,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85315,7 +95405,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
@@ -85323,7 +95413,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -85367,85 +95457,85 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 528
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SolutionIndex: 590
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id006 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
-    LSPA: 16
-    LSPB: 16
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -85453,10 +95543,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85464,7 +95554,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
     NumLoadsB: 1
@@ -85472,7 +95562,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -85516,71 +95606,71 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 529
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SolutionIndex: 591
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010 
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: *id018
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id006
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
-    GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 1024
     LdsNumElementsAlignedA: 256
@@ -85594,18 +95684,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -85613,15 +95703,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -85665,46 +95755,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 530
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SolutionIndex: 592
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id007 
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id006
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
@@ -85714,43 +95804,43 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 16
-    LVCA: 4
-    LVCB: 8
+    LVCA: 8
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -85762,15 +95852,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -85814,48 +95904,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 531
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 593
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
+    ThreadTile: *id016
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008 
-    WorkGroupMapping: 1
+    WorkGroup: *id013
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -85863,36 +95953,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
-    LSPA: 16
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -85900,9 +95990,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 16
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -85911,15 +96001,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -85963,46 +96053,46 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 532
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 594
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: *id015
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006
+    WorkGroup: *id017
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -86012,36 +96102,36 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -86049,10 +96139,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -86060,15 +96150,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -86112,47 +96202,47 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 533
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 595
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id007
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id006
+    WorkGroup: *id017
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -86160,47 +96250,47 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
     LSPB: 16
     LVCA: 4
-    LVCB: 8
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 896
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 4
+    MacroTile0: 64
     MacroTile1: 16
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -86210,14 +96300,14 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -86261,35 +96351,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 534
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x08_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SolutionIndex: 596
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG16_04_04
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: *id020 
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -86299,58 +96389,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3200
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -86358,13 +96448,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -86410,35 +96500,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 535
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
+    SolutionIndex: 597
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id011 
+    VectorWidth: 4
+    WorkGroup: *id014
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -86448,58 +96538,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -86507,15 +96597,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -86559,35 +96649,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 536
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 598
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU04_SNLL0_TT08_04_VW04_WG08_08_02
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id018
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id009
+    VectorWidth: 4
+    WorkGroup: *id014
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -86597,10 +96687,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -86608,22 +96698,22 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 1024
     LdsNumElementsAlignedA: 256
@@ -86637,14 +96727,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 16
     MacroTile1: 16
     MacroTileA: 16
@@ -86656,15 +96746,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -86708,35 +96798,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 537
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SolutionIndex: 599
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: *id015
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006
+    WorkGroup: *id013
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -86746,10 +96836,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -86757,24 +96847,24 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
+    LSPA: 32
+    LSPB: 16
     LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
@@ -86786,14 +96876,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -86805,15 +96895,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -86857,35 +96947,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 538
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG08_08_01
+    SolutionIndex: 600
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: *id016
     ThreadTile0: 4
     ThreadTile1: 2
     ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id006
+    WorkGroup: *id013
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -86895,37 +96985,37 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
-    LVCA: 4
-    LVCB: 4
-    LVPA: 4
-    LVPB: 4
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -86935,18 +97025,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -86954,15 +97044,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -87006,35 +97096,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 539
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
-    SubGroup0: 8
+    SolutionIndex: 601
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id007
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id006
+    VectorWidth: 2
+    WorkGroup: *id017
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -87044,8 +97134,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -87055,14 +97145,14 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 16
@@ -87084,14 +97174,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -87155,35 +97245,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 540
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 602
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
+    ThreadTile: *id016
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    WorkGroup: *id014
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -87193,58 +97283,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -87253,12 +97343,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -87304,35 +97394,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 541
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW02_GSU01_SNLL0_TT04_02_VW02_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 603
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id010
+    ThreadTile: *id012
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -87342,8 +97432,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -87353,14 +97443,14 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
@@ -87370,7 +97460,7 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
@@ -87382,14 +97472,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -87453,35 +97543,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 542
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_08_01
-    SubGroup0: 16
+    SolutionIndex: 604
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU04_SNLL0_TT08_04_VW04_WG08_08_02
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id007
-    ThreadTile0: 4
+    ThreadTile: *id018
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id008
-    WorkGroupMapping: 1
+    WorkGroup: *id014
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -87491,9 +97581,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -87502,47 +97592,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 16
-    LSPB: 8
-    LVCA: 8
+    LSPB: 16
+    LVCA: 16
     LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3200
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 8
-    MacroTileA: 64
-    MacroTileB: 8
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -87550,15 +97640,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -87602,35 +97692,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 543
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG32_04_01
-    SubGroup0: 32
-    SubGroup1: 4
-    SubGroupA: 32
-    SubGroupB: 4
+    SolutionIndex: 605
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: *id015
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id011
+    WorkGroup: *id013
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -87640,10 +97730,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -87651,26 +97741,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
+    LSPA: 32
+    LSPB: 16
     LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1664
+    LdsNumElements: 2048
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -87680,18 +97770,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 8
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 8
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -87699,15 +97789,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -87751,35 +97841,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 544
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_04_01
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 606
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
-    ThreadTile0: 2
+    ThreadTile: *id016
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id009
+    WorkGroup: *id013
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -87789,10 +97879,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -87800,22 +97890,22 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
+    LSPA: 32
     LSPB: 16
     LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 1792
     LdsNumElementsAlignedA: 512
@@ -87829,14 +97919,14 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -87848,15 +97938,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -87900,35 +97990,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 545
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG16_08_01
+    SolutionIndex: 607
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG16_08_02
     SubGroup0: 16
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id005
+    ThreadTile: *id015
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id008
+    WorkGroup: *id017
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -87938,8 +98028,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -87949,47 +98039,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -87997,15 +98087,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -88049,25 +98139,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 546
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_08_01
+    SolutionIndex: 608
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG16_08_02
     SubGroup0: 16
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id007
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id008
+    WorkGroup: *id017
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -88081,7 +98171,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -88097,25 +98187,25 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 1024
     LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
@@ -88134,11 +98224,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88146,7 +98236,156 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 609
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: false
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: true
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 4
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -88198,26 +98437,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 547
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
+    SolutionIndex: 610
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012 
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id015
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id013 
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: *id013
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -88230,7 +98469,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -88238,7 +98477,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -88251,26 +98490,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
     LSPB: 16
     LVCA: 8
-    LVCB: 8
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 512
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 256
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 384
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -88283,10 +98522,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 32
     MacroTile1: 16
-    MacroTileA: 16
+    MacroTileA: 32
     MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -88303,7 +98542,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -88347,26 +98586,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 548
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_02
-    SubGroup0: 8
+    SolutionIndex: 611
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015 
+    ThreadTile: *id015
     ThreadTile0: 2
     ThreadTile1: 2
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id014 
-    WorkGroupMapping: 1
+    WorkGroup: *id017
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -88379,7 +98618,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -88387,8 +98626,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -88396,47 +98635,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 32
-    LVPB: 32
+    LSPA: 64
+    LSPB: 64
+    LVCA: 2
+    LVCB: 2
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 12
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88444,15 +98683,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 3
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -88496,25 +98735,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 549
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x08_GRVW04_GSU08_SNLL0_TT04_04_VW04_WG08_08_04
+    SolutionIndex: 612
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: *id014
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -88528,7 +98767,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -88536,39 +98775,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 2
+    LVCB: 2
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -88581,11 +98820,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 12
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88593,13 +98832,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -88645,26 +98884,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 550
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SolutionIndex: 613
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016 
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: *id014
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -88677,7 +98916,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -88694,7 +98933,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -88702,22 +98941,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 2
+    LVCB: 2
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -88730,11 +98969,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 12
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88742,12 +98981,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 3
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
@@ -88794,18 +99033,18 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 551
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    SolutionIndex: 614
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -88826,7 +99065,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -88843,7 +99082,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -88851,22 +99090,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 2
+    LVCB: 2
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -88879,11 +99118,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 12
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -88891,13 +99130,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PerformanceSyncLocation: -1
@@ -88943,18 +99182,18 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 552
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_02
+    SolutionIndex: 615
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018 
+    ThreadTile: *id019
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
@@ -88962,7 +99201,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: *id014
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -88975,7 +99214,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -88983,56 +99222,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
     LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89040,15 +99279,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -89092,25 +99331,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 553
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
+    SolutionIndex: 616
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
+    VectorWidth: 4
+    WorkGroup: *id014
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -89124,7 +99363,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -89132,39 +99371,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -89177,11 +99416,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89189,7 +99428,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -89241,24 +99480,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 554
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SolutionIndex: 617
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
+    ThreadTile: *id012
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: *id013
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -89273,7 +99512,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -89281,45 +99520,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -89327,10 +99566,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89338,13 +99577,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -89390,25 +99629,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 555
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 618
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id018
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id017 
+    VectorWidth: 4
+    WorkGroup: *id013
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -89422,7 +99661,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -89430,39 +99669,39 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 13312
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -89475,11 +99714,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89487,13 +99726,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -89539,24 +99778,24 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 556
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG16_08_02
+    SolutionIndex: 619
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG16_08_02
     SubGroup0: 16
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: *id018
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: *id017
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -89571,7 +99810,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -89596,28 +99835,28 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -89625,10 +99864,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89636,13 +99875,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -89688,26 +99927,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 557
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 620
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id019 
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id017
-    WorkGroupMapping: 1
+    WorkGroup: *id013
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -89720,7 +99959,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -89728,45 +99967,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -89774,10 +100013,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89785,7 +100024,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 2
     NumLoadsB: 1
@@ -89793,7 +100032,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -89837,25 +100076,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 558
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_02
+    SolutionIndex: 621
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: *id018
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id014
+    VectorWidth: 4
+    WorkGroup: *id013
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -89869,7 +100108,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -89894,28 +100133,28 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -89923,10 +100162,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -89934,15 +100173,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -89986,25 +100225,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 559
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
+    SolutionIndex: 622
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG08_08_04
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: *id013
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -90018,7 +100257,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90043,22 +100282,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -90071,7 +100310,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -90083,15 +100322,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -90135,17 +100374,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 560
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_02
-    SubGroup0: 8
+    SolutionIndex: 623
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 8
+    ThreadTile: *id012
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -90153,7 +100392,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: *id017
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -90167,7 +100406,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90175,7 +100414,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -90184,30 +100423,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
+    GuaranteeNoPartialA: false
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 16
+    LSPB: 8
     LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -90220,11 +100459,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90234,11 +100473,11 @@
     NonTemporalC: 0
     NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -90284,12 +100523,12 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 561
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 624
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x32_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG16_04_04
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
     ThreadTile: *id015
     ThreadTile0: 2
@@ -90297,13 +100536,13 @@
     ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    WorkGroup: *id020
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -90316,7 +100555,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90324,56 +100563,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
     LSPB: 16
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90381,15 +100620,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -90433,26 +100672,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 562
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT04_02_VW02_WG08_08_04
+    SolutionIndex: 625
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG08_08_02
     SubGroup0: 8
     SubGroup1: 8
     SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: *id019
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: *id014
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -90465,7 +100704,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90473,45 +100712,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -90520,9 +100759,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90530,7 +100769,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -90582,26 +100821,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 563
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 626
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id017
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: *id013
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -90614,7 +100853,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90631,7 +100870,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -90639,28 +100878,28 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -90668,10 +100907,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90679,13 +100918,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -90731,25 +100970,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 564
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 627
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id019
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: *id012
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id017
+    WorkGroup: *id013
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -90763,7 +101002,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90772,7 +101011,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -90785,25 +101024,25 @@
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 16
-    LVCA: 4
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -90816,11 +101055,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -90828,13 +101067,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -90880,17 +101119,17 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 565
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG16_04_04
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SolutionIndex: 628
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU04_SNLL0_TT08_04_VW04_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
+    ThreadTile: *id018
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
@@ -90898,8 +101137,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id020 
-    WorkGroupMapping: 1
+    WorkGroup: *id013
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -90912,7 +101151,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -90937,22 +101176,22 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -90965,10 +101204,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -90979,13 +101218,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -91029,11 +101268,11 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 566
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_02
-    SubGroup0: 8
+    SolutionIndex: 629
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG16_08_02
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
     SuppresssNoLoadLoop: false
     ThreadTile: *id012
@@ -91047,17 +101286,17 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
-    WorkGroupMapping: 1
+    WorkGroup: *id017
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -91067,8 +101306,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -91078,26 +101317,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -91107,18 +101346,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91128,13 +101367,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -91178,35 +101417,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 567
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU04_SNLL0_TT08_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 630
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
-    ThreadTile0: 8
+    ThreadTile: *id022 
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: *id021 
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -91216,58 +101455,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91275,14 +101514,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -91327,35 +101566,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 568
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 631
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id023 
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
+    VectorWidth: 4
+    WorkGroup: *id021
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -91365,10 +101604,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -91376,47 +101615,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91424,14 +101663,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -91476,35 +101715,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 569
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 632
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT096x128x16_GRVW02_GSU01_SNLL0_TT06_08_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [6, 8]
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id013
+    WorkGroup: *id021
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -91514,58 +101753,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91573,13 +101812,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -91625,35 +101864,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 570
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG16_08_02
+    SolutionIndex: 633
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id024 
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id017
+    VectorWidth: 4
+    WorkGroup: *id021
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -91663,58 +101902,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91722,15 +101961,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -91774,35 +102013,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 571
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 634
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
+    ThreadTile: *id022
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id014
+    VectorWidth: 4
+    WorkGroup: *id021
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -91812,8 +102051,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -91823,47 +102062,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -91871,15 +102110,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -91923,35 +102162,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 572
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x16_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 635
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    ThreadTile: *id023
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: *id021
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -91961,8 +102200,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: false
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -91972,47 +102211,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
+    KernelLanguage: Source
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92020,15 +102259,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -92072,96 +102311,96 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 573
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW04_GSU04_SNLL0_TT08_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 636
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    ThreadTile: *id024
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: *id021
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92169,14 +102408,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -92221,96 +102460,96 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 574
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 637
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: *id022
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: *id021
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92318,14 +102557,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -92370,25 +102609,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 575
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT04_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SolutionIndex: 638
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppresssNoLoadLoop: false
-    ThreadTile: *id016
+    ThreadTile: *id022
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
+    VectorWidth: 4
+    WorkGroup: *id021
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -92402,7 +102641,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -92410,45 +102649,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -92456,10 +102695,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92467,8 +102706,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -92519,26 +102758,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 576
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG16_08_02
+    SolutionIndex: 639
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025 
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id017
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: *id026 
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -92551,7 +102790,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -92568,7 +102807,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -92576,28 +102815,28 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -92606,9 +102845,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92616,13 +102855,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -92668,14 +102907,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 577
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG16_08_02
+    SolutionIndex: 640
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -92686,7 +102925,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id017
+    WorkGroup: *id026
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -92708,56 +102947,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92765,8 +103004,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -92817,25 +103056,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 578
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 641
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id027 
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
+    VectorWidth: 4
+    WorkGroup: *id026
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -92857,56 +103096,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: false
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -92914,14 +103153,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -92966,26 +103205,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 579
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SolutionIndex: 642
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id028 
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: *id026
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -93007,7 +103246,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -93015,47 +103254,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 16
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -93063,14 +103302,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -93115,26 +103354,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 580
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x016x16_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG16_08_02
+    SolutionIndex: 643
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id029 
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id017
-    WorkGroupMapping: 8
+    WorkGroup: *id026
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -93147,7 +103386,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -93164,7 +103403,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -93172,38 +103411,38 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
     LSPB: 64
-    LVCA: 2
-    LVCB: 2
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 12
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -93214,13 +103453,13 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 1
+    NumLoadsA: 2
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -93264,25 +103503,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 581
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    SolutionIndex: 644
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id030 
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: *id026
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -93296,7 +103535,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -93304,56 +103543,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 64
-    LVCA: 2
-    LVCB: 2
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1536
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 12
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 96
+    MacroTileA: 128
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -93361,15 +103600,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 3
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 4
     NumLoadsB: 3
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 3
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -93413,26 +103652,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 582
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    SolutionIndex: 645
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id031 
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 6
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id014
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: *id026
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -93445,7 +103684,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -93462,7 +103701,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -93470,39 +103709,39 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
     LSPB: 64
-    LVCA: 2
-    LVCB: 2
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1536
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 12
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -93510,15 +103749,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 3
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -93562,14 +103801,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 583
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    SolutionIndex: 646
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -93580,7 +103819,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: *id026
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -93594,7 +103833,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -93611,7 +103850,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -93619,35 +103858,35 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
     LSPB: 64
-    LVCA: 2
-    LVCB: 2
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 12
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -93659,15 +103898,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -93711,25 +103950,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 584
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x24_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SolutionIndex: 647
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id027
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: *id026
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -93743,7 +103982,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -93760,7 +103999,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -93768,28 +104007,28 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -93797,10 +104036,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -93808,15 +104047,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -93860,26 +104099,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 585
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    SolutionIndex: 648
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id028
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
-    WorkGroupMapping: 1
+    WorkGroup: *id026
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -93892,7 +104131,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -93900,56 +104139,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 96
+    MacroTile1: 128
+    MacroTileA: 96
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -93957,14 +104196,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
+    NumLoadsA: 3
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 3
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -94009,26 +104248,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 586
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SolutionIndex: 649
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id029
+    ThreadTile0: 6
+    ThreadTile1: 8
+    ThreadTileA: 6
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id013
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: *id026
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -94041,7 +104280,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -94058,7 +104297,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -94066,16 +104305,16 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
@@ -94087,18 +104326,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94106,8 +104345,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -94158,14 +104397,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 587
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    SolutionIndex: 650
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id030
     ThreadTile0: 8
     ThreadTile1: 4
     ThreadTileA: 8
@@ -94176,8 +104415,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
-    WorkGroupMapping: 1
+    WorkGroup: *id026
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -94190,7 +104429,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -94198,45 +104437,45 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 13312
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7680
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -94245,9 +104484,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 96
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94255,14 +104494,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 48
+    NumGlobalWriteVectorsPerThread: 24
     NumLoadsA: 4
-    NumLoadsB: 1
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -94307,26 +104546,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 588
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG16_08_02
+    SolutionIndex: 651
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id031
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id017
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: *id026
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -94339,7 +104578,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -94356,7 +104595,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -94364,39 +104603,39 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94404,14 +104643,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -94456,25 +104695,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 589
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SolutionIndex: 652
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: *id026
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -94488,7 +104727,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -94505,7 +104744,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -94513,39 +104752,39 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 3072
+    LdsNumElementsAlignedB: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 3072
+    LdsOffsetB_Blk: 11264
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 24
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94553,13 +104792,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -94605,26 +104844,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 590
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT08_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    SolutionIndex: 653
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x24_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
-    WorkGroupMapping: 8
+    WorkGroup: *id026
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -94637,7 +104876,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 24
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -94654,7 +104893,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -94662,39 +104901,39 @@
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 3072
+    LdsNumElementsAlignedB: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 3072
+    LdsOffsetB_Blk: 11264
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 24
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94702,14 +104941,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 3
+    NumLoadsB: 3
+    NumLoadsCoalescedA: 3
+    NumLoadsCoalescedB: 3
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -94754,14 +104993,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 591
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU02_SNLL0_TT08_08_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    SolutionIndex: 654
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x24_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -94772,7 +105011,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: *id026
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -94803,7 +105042,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -94820,9 +105059,9 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -94832,18 +105071,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -94851,14 +105090,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -94903,14 +105142,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 592
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU02_SNLL0_TT04_04_VW04_WG16_08_02
+    SolutionIndex: 655
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id027
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -94921,8 +105160,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id017
-    WorkGroupMapping: 8
+    WorkGroup: *id026
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -94943,56 +105182,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: true
+    GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95000,14 +105239,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -95052,25 +105291,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 593
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x32_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG16_04_04
+    SolutionIndex: 656
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x32_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id015
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id028
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id020
+    VectorWidth: 4
+    WorkGroup: *id026
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -95101,7 +105340,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -95111,37 +105350,37 @@
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 16
-    LSPB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95149,15 +105388,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 4
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -95201,14 +105440,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 594
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU04_SNLL0_TT08_08_VW04_WG08_08_02
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id019
+    SolutionIndex: 657
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x32_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
@@ -95219,7 +105458,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id014
+    WorkGroup: *id026
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -95250,7 +105489,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -95267,30 +105506,30 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95298,14 +105537,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -95350,14 +105589,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 595
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    SolutionIndex: 658
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id027
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -95368,8 +105607,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
-    WorkGroupMapping: 1
+    WorkGroup: *id026
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -95399,7 +105638,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -95416,30 +105655,30 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 14336
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 10240
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95447,14 +105686,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -95499,25 +105738,25 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 596
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id012
+    SolutionIndex: 659
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x32_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id028
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: *id026
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
@@ -95548,7 +105787,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -95565,30 +105804,30 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 16384
+    LdsNumElementsAlignedA: 4096
+    LdsNumElementsAlignedB: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 4096
+    LdsOffsetB_Blk: 12288
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95596,14 +105835,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -95648,96 +105887,96 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 597
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU04_SNLL0_TT08_04_VW04_WG08_08_04
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id018
+    SolutionIndex: 660
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x32_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id025
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id013
+    WorkGroup: *id026
     WorkGroupMapping: 8
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
+    BufferLoad: false
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 4
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
-    InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Source
+    LSCA: 4
+    LSCB: 4
+    LSPA: 16
+    LSPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95745,15 +105984,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 2
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -95797,26 +106036,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 598
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW04_GSU04_SNLL0_TT04_04_VW04_WG16_08_02
-    SubGroup0: 16
+    SolutionIndex: 661
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x04_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id012
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id017
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: *id032 
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -95829,7 +106068,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 2
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -95837,8 +106076,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: false
     FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -95850,26 +106089,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 2
+    LSCB: 2
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -95882,11 +106121,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -95902,7 +106141,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -95946,14 +106185,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 599
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 662
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x02_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022 
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -95964,17 +106203,17 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id021 
+    WorkGroup: *id032
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -95984,58 +106223,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96043,14 +106282,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -96095,48 +106334,48 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 600
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id023 
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SolutionIndex: 663
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU01_SNLL1_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppresssNoLoadLoop: true
+    ThreadTile: *id033 
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
+    VectorWidth: 2
+    WorkGroup: *id035 
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -96144,47 +106383,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalSplitU: 2
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
     LVCA: 8
     LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96192,15 +106431,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -96244,96 +106483,96 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 601
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT096x128x16_GRVW02_GSU01_SNLL0_TT06_08_VW02_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 664
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: [6, 8]
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    ThreadTile: *id033
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id021
+    WorkGroup: *id034 
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96341,15 +106580,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -96393,96 +106632,96 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 602
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 665
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id024 
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: *id033
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
+    VectorWidth: 2
+    WorkGroup: *id034
     WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96490,15 +106729,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -96540,98 +106779,98 @@
       TotalIndices: 4
       TransposeA: true
       TransposeB: false
-      UseBeta: true
-      UseInitialStrides: false
-    SolutionIndex: 603
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+      UseBeta: true
+      UseInitialStrides: false
+    SolutionIndex: 666
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id022
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: *id033
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: *id034
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    KernelLanguage: Assembly
+    LSCA: 8
+    LSCB: 8
+    LSPA: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 409
+    LdsNumElementsAlignedA: 64
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 128
+    LdsOffsetB: 64
+    LdsOffsetB_Blk: 192
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 2
+    MacroTile0: 8
+    MacroTile1: 8
+    MacroTileA: 8
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96639,15 +106878,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -96691,35 +106930,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 604
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL0_TT04_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 667
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG04_04_04
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppresssNoLoadLoop: false
-    ThreadTile: *id023
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: *id033
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: *id034
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
@@ -96729,58 +106968,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 16
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
+    KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96788,13 +107027,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -96840,96 +107079,94 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 605
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL0_TT08_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SolutionIndex: 668
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG08_08_04
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppresssNoLoadLoop: false
-    ThreadTile: *id024
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: *id033
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: *id035
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -96937,13 +107174,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
@@ -96989,96 +107224,95 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 606
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SolutionIndex: 669
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW01_GSU04_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_08_02_WGM01
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    SubGroupB: 8
+    ThreadTile: *id036 
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
+    VectorWidth: 1
+    WorkGroup: *id038 
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97086,14 +107320,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -97138,31 +107370,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 607
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG16_16_01
+    SolutionIndex: 670
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW01_GSU04_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_04_04_WGM01
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id022
+    SubGroupB: 4
+    ThreadTile: *id036
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id021
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: *id037 
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -97170,53 +107402,52 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 128
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6752
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -97224,10 +107455,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97235,14 +107466,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -97287,31 +107516,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 608
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SolutionIndex: 671
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x32_GRVW01_GSU08_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_04_04_WGM01
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025 
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 4
+    ThreadTile: *id036
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026 
+    VectorWidth: 1
+    WorkGroup: *id037
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -97319,53 +107548,52 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 128
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6752
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -97373,10 +107601,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97384,14 +107612,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -97436,31 +107662,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 609
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x08_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    SolutionIndex: 672
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x32_GRVW01_GSU08_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_04_04_WGM08
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 4
+    ThreadTile: *id036
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
+    VectorWidth: 1
+    WorkGroup: *id037
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -97468,64 +107694,63 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97533,14 +107758,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -97585,31 +107808,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 610
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    SolutionIndex: 673
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW01_GSU01_LPA02_LPB02_PGR1_PLR1_TT04_08_USFGRO01_VW02_WG16_04_04_WGM01
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id027 
+    SubGroupB: 4
+    ThreadTile: *id039 
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
+    VectorWidth: 2
+    WorkGroup: *id037
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -97617,64 +107840,63 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97682,14 +107904,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -97734,31 +107954,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 611
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    SolutionIndex: 674
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x32_GRVW01_GSU08_LPA02_LPB02_PGR1_PLR1_TT02_02_USFGRO01_VW02_WG16_04_04_WGM01
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id028 
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
+    VectorWidth: 2
+    WorkGroup: *id037
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -97772,58 +107992,57 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 96
-    MacroTile1: 128
-    MacroTileA: 96
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -97831,14 +108050,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -97883,31 +108100,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 612
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
+    SolutionIndex: 675
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW01_GSU01_LPA04_LPB04_PGR1_PLR1_TT04_04_USFGRO01_VW04_WG16_08_02_WGM01
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id029 
-    ThreadTile0: 6
-    ThreadTile1: 8
-    ThreadTileA: 6
-    ThreadTileB: 8
+    SubGroupB: 8
+    ThreadTile: *id036
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
+    VectorWidth: 4
+    WorkGroup: *id038
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -97921,43 +108138,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -97982,12 +108198,10 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -98032,31 +108246,31 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 613
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id030 
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SolutionIndex: 676
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW01_GSU01_LPA04_LPB04_PGR1_PLR1_TT04_08_USFGRO01_VW04_WG32_08_01_WGM01
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    ThreadTile: *id039
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: *id040 
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-  - AggressivePerfMode: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: false
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: true
     AssignedProblemIndependentDerivedParameters: true
@@ -98070,43 +108284,42 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: false
     GuaranteeNoPartialB: false
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -98119,9 +108332,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 96
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -98129,14 +108342,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
@@ -98181,33 +108392,34 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 614
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id031 
-    ThreadTile0: 8
-    ThreadTile1: 6
-    ThreadTileA: 8
-    ThreadTileB: 6
+    SolutionIndex: 677
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_LPA04_LPB04_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG32_08_01_WGM01
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    ThreadTile: *id039
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: false
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id026
+    VectorWidth: 4
+    WorkGroup: *id040
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -98220,7 +108432,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -98233,9 +108445,9 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
@@ -98279,14 +108491,17 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -98330,33 +108545,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 615
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 678
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -98369,7 +108594,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -98379,26 +108604,26 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -98417,9 +108642,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -98428,14 +108653,17 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -98479,33 +108707,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 616
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x16_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 679
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id027
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -98518,7 +108756,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -98528,12 +108766,12 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
@@ -98545,13 +108783,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -98566,9 +108804,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -98576,15 +108814,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -98628,33 +108869,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 617
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x16_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 680
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id028
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -98667,40 +108918,40 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7680
-    LdsNumElementsAlignedA: 1536
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -98714,9 +108965,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 96
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -98725,15 +108976,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 3
-    NumLoadsB: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 3
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -98777,33 +109031,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 618
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT096x128x16_GRVW02_GSU01_SNLL1_TT06_08_VW02_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 681
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT8_8_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id029
-    ThreadTile0: 6
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -98816,7 +109080,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -98826,12 +109090,12 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
@@ -98843,13 +109107,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -98863,9 +109127,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -98874,15 +109138,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -98926,33 +109193,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 619
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_SNLL1_TT08_04_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 682
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id030
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -98965,36 +109242,36 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7680
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1536
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -99013,9 +109290,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 96
+    MacroTile1: 128
     MacroTileA: 128
-    MacroTileB: 96
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99023,15 +109300,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 48
-    NumGlobalWriteVectorsPerThread: 24
-    NumLoadsA: 4
-    NumLoadsB: 3
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99075,33 +109355,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 620
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x096x16_GRVW02_GSU01_SNLL1_TT08_06_VW02_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 683
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT8_8_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id031
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 6
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 6
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -99114,7 +109404,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -99124,12 +109414,12 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
@@ -99141,13 +109431,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -99161,10 +109451,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99172,15 +109462,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99224,46 +109517,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 621
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 684
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -99273,30 +109576,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 128
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 3072
-    LdsNumElementsAlignedB: 3072
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 3072
-    LdsOffsetB_Blk: 11264
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -99309,11 +109612,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99321,15 +109624,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99373,47 +109679,57 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 622
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x24_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 685
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 24
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -99422,30 +109738,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 128
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 3072
-    LdsNumElementsAlignedB: 3072
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 3072
-    LdsOffsetB_Blk: 11264
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 4608
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -99458,10 +109774,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 24
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -99470,15 +109786,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 3
-    NumLoadsB: 3
-    NumLoadsCoalescedA: 3
-    NumLoadsCoalescedB: 3
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99522,46 +109841,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 623
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x24_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 686
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -99571,30 +109900,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GlobalWriteVectorWidth: 2
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -99607,7 +109936,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -99620,14 +109949,17 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99671,48 +110003,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 624
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 687
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id027
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -99724,26 +110066,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 4096
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -99756,11 +110098,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -99768,15 +110110,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99820,46 +110165,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 625
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x32_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id028
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 688
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x8_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -99873,26 +110228,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 4096
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -99905,7 +110260,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 128
     MacroTile1: 128
     MacroTileA: 128
@@ -99919,13 +110274,16 @@
     NonTemporalC: 0
     NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -99969,46 +110327,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 626
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x32_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 689
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
     ThreadTile0: 8
     ThreadTile1: 8
     ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -100018,30 +110386,30 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -100054,7 +110422,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -100068,13 +110436,16 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -100118,46 +110489,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 627
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x064x32_GRVW04_GSU01_SNLL1_TT04_04_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 690
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id027
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -100171,26 +110552,26 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14336
+    LdsNumElements: 8192
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 4096
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
-    LdsOffsetB_Blk: 10240
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -100203,10 +110584,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -100215,15 +110596,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -100267,46 +110651,56 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 628
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x128x32_GRVW04_GSU01_SNLL1_TT04_08_VW04_WG16_16_01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 691
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id028
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -100320,26 +110714,22 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 16384
-    LdsNumElementsAlignedA: 4096
-    LdsNumElementsAlignedB: 4096
+    LdsNumElements: 3072
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 4096
-    LdsOffsetB_Blk: 12288
+    LdsOffsetB: 2048
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -100352,11 +110742,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
+    LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100364,20 +110754,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -100416,79 +110809,89 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 629
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x32_GRVW04_GSU01_SNLL1_TT08_08_VW04_WG16_16_01
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id025
-    ThreadTile0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 692
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS0_GSU1_LPA0_LPB0_PGR0_SNLL0_TT4_8_VW4_WG32_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id026
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 4
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 4
-    LSCB: 4
-    LSPA: 16
-    LSPB: 16
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -100501,11 +110904,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100513,15 +110916,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -100565,48 +110971,58 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 630
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x04_GRVW02_GSU01_SNLL0_TT02_02_VW02_WG08_08_01
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 693
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id032 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 2
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: false
+    BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 2
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: false
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -100621,23 +111037,23 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
-    KernelLanguage: Source
-    LSCA: 2
-    LSCB: 2
-    LSPA: 32
-    LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -100650,11 +111066,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100662,15 +111078,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -100714,33 +111133,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 631
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x032x02_GRVW04_GSU01_SNLL0_TT04_04_VW04_WG08_08_01
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 694
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id032
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -100753,57 +111182,57 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100811,15 +111240,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -100863,33 +111295,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 632
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU01_SNLL1_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 695
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 32
     SubGroupB: 8
-    SuppresssNoLoadLoop: true
-    ThreadTile: *id033 
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id035 
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -100902,57 +111344,57 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 2
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 2
+    LVCB: 2
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3136
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
-    LdsPadA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -100960,15 +111402,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -101012,96 +111457,106 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 633
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU02_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 696
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_EPS1_GSU1_LPA2_LPB0_PGR1_SNLL1_TT4_8_VW2_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id034 
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
-    LdsPadA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101109,15 +111564,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -101161,96 +111619,106 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 634
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU04_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 697
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id034
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 6720
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
-    LdsPadA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101258,15 +111726,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -101310,96 +111781,106 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 635
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU08_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 698
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU3_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id034
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 8
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 409
-    LdsNumElementsAlignedA: 64
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 128
-    LdsOffsetB: 64
-    LdsOffsetB_Blk: 192
-    LdsPadA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 8
-    MacroTile1: 8
-    MacroTileA: 8
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101407,15 +111888,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -101459,33 +111943,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 636
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT008x008x08_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG04_04_04
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 699
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id034
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
     AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -101497,58 +111991,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 16
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 1600
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
-    LdsPadA: 0
+    LdsOffsetB: 1088
+    LdsPadA: 2
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101556,20 +112046,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -101608,32 +112101,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 637
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT016x016x16_GRVW02_GSU16_SNLL0_TT02_02_VW02_WG08_08_04
-    SubGroup0: 8
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 700
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS0_GSU1_LPA2_LPB0_PGR0_SNLL0_TT4_4_VW2_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 8
-    SuppresssNoLoadLoop: false
-    ThreadTile: *id033
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id035
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-  - AggressivePerfMode: false
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -101645,57 +112149,54 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsPadA: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101703,18 +112204,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -101753,13 +112259,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 638
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW01_GSU04_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_08_02_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 701
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS0_GSU1_LPA2_LPB0_PGR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    ThreadTile: *id036 
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -101769,17 +112283,19 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id038 
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -101791,57 +112307,58 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
     LdsOffsetB_Blk: 3136
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsPadA: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101849,13 +112366,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -101899,13 +112421,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 639
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x16_GRVW01_GSU04_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_04_04_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 702
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
-    ThreadTile: *id036
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -101915,79 +112445,82 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id037 
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6752
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -101995,13 +112528,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102045,13 +112583,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 640
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x32_GRVW01_GSU08_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_04_04_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 703
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
-    ThreadTile: *id036
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -102061,79 +112607,82 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id037
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 32
+    LVCA: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6752
+    LdsNumElements: 6720
     LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2112
     LdsOffsetB_Blk: 6208
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsPadA: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -102141,13 +112690,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102191,13 +112745,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 641
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x016x32_GRVW01_GSU08_LPA01_LPB01_PGR1_PLR1_TT04_04_USFGRO01_VW01_WG16_04_04_WGM08
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
-    ThreadTile: *id036
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 704
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA2_LPB0_PGR1_SNLL1_TT4_4_VW2_WG32_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
     ThreadTileA: 4
@@ -102207,39 +112769,42 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: *id037
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -102247,35 +112812,35 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
     LdsPadA: 2
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -102287,13 +112852,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102337,84 +112907,95 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 642
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x32_GRVW01_GSU01_LPA02_LPB02_PGR1_PLR1_TT04_08_USFGRO01_VW02_WG16_04_04_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 705
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM64
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
-    ThreadTile: *id039 
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: *id037
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 6720
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -102422,10 +113003,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 256
+    MacroTile1: 64
+    MacroTileA: 256
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -102433,13 +113014,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102483,54 +113069,65 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 643
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT032x008x32_GRVW01_GSU08_LPA02_LPB02_PGR1_PLR1_TT02_02_USFGRO01_VW02_WG16_04_04_WGM01
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 706
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT256x64x8_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT8_8_VW4_WG32_8_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: *id037
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -102539,28 +113136,28 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 6208
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetB_Blk: 5184
     LdsPadA: 4
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -102568,10 +113165,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -102579,13 +113176,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102629,33 +113231,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 644
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT064x032x16_GRVW01_GSU01_LPA04_LPB04_PGR1_PLR1_TT04_04_USFGRO01_VW04_WG16_08_02_WGM01
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 707
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    ThreadTile: *id036
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id038
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -102667,17 +113279,18 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -102687,22 +113300,22 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
     LdsPadA: 4
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -102714,9 +113327,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -102725,13 +113338,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102775,33 +113393,43 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 645
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW01_GSU01_LPA04_LPB04_PGR1_PLR1_TT04_08_USFGRO01_VW04_WG32_08_01_WGM01
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    ThreadTile: *id039
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 708
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA4_LPB0_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id040 
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
-  - AggressivePerfMode: false
+  - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
     AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: true
+    AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
     BufferLoad: true
     BufferStore: true
@@ -102813,6 +113441,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -102827,8 +113456,8 @@
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
-    GuaranteeNoPartialA: false
-    GuaranteeNoPartialB: false
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
@@ -102840,15 +113469,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
     LdsPadA: 4
-    LdsPadB: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -102860,9 +113489,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -102871,13 +113500,18 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -102921,26 +113555,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
-    SolutionIndex: 646
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x064x16_GRVW04_GSU01_LPA04_LPB04_PGR1_PLR1_TT04_08_USFGRO0_VW04_WG32_08_01_WGM01
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    ThreadTile: *id039
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 709
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: false
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: *id040
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -102974,7 +113617,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -102988,14 +113631,14 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -103009,9 +113652,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103019,12 +113662,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -103078,8 +113721,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 647
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 710
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -103088,19 +113731,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -103122,7 +113765,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -103133,31 +113776,27 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3136
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
+    LdsOffsetB: 2112
+    LdsPadA: 4
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -103170,10 +113809,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103181,13 +113820,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -103197,7 +113836,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -103240,29 +113879,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 648
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    SolutionIndex: 711
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS0_GSU1_LPA4_LPB0_PGR0_SNLL0_TT4_8_VW4_WG32_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -103295,10 +113934,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -103312,14 +113951,14 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2112
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -103332,9 +113971,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -103343,11 +113982,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -103402,29 +114041,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 649
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 712
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -103457,10 +114096,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -103474,14 +114113,14 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -103494,10 +114133,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103505,12 +114144,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -103564,8 +114203,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 650
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 713
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -103573,20 +114212,20 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -103608,10 +114247,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -103619,10 +114258,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -103630,20 +114269,16 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2624
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
+    LdsOffsetB: 2112
+    LdsPadA: 4
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -103656,10 +114291,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103668,10 +114303,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -103683,7 +114318,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -103726,15 +114361,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 651
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 714
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS0_GSU1_LPA4_LPB0_PGR0_SNLL0_TT4_4_VW4_WG32_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -103746,9 +114381,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -103784,28 +114419,28 @@
     GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -103818,10 +114453,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103829,13 +114464,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -103888,29 +114523,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 652
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 715
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA4_LPB0_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -103926,7 +114561,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -103943,31 +114578,31 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 13440
+    LdsNumElementsAlignedA: 1152
+    LdsNumElementsAlignedB: 4096
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1152
+    LdsOffsetB_Blk: 9344
+    LdsPadA: 4
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -103979,11 +114614,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -103992,11 +114627,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -104050,16 +114685,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 653
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 716
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -104070,11 +114705,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -104088,7 +114723,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -104097,7 +114732,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -104105,7 +114740,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -104113,24 +114748,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3600
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -104141,10 +114776,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -104153,8 +114788,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -104212,8 +114847,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 654
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 717
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_EPS1_GSU1_LPA0_LPB2_PGR1_SNLL1_TT8_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -104221,11 +114856,11 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -104234,9 +114869,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -104258,7 +114893,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -104278,21 +114913,21 @@
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 64
-    LVCA: 8
+    LSPB: 32
+    LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 4608
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -104304,10 +114939,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -104319,9 +114954,9 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -104374,15 +115009,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 655
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM64
+    SolutionIndex: 718
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -104395,8 +115030,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -104446,15 +115081,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 6176
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -104536,8 +115171,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 656
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 719
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -104558,7 +115193,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -104574,7 +115209,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -104583,7 +115218,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -104591,32 +115226,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 32
-    LVCA: 2
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
     LVCB: 4
-    LVPA: 32
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
+    LdsNumElements: 6176
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -104627,11 +115262,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -104640,7 +115275,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -104698,16 +115333,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 657
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x8_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM1
+    SolutionIndex: 720
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -104718,11 +115353,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -104753,32 +115388,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3616
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -104790,10 +115425,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -104801,13 +115436,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -104860,29 +115495,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 658
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 721
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -104898,7 +115533,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -104907,7 +115542,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -104915,7 +115550,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -104923,24 +115558,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3616
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -104951,10 +115586,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -104963,8 +115598,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -105022,31 +115657,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 659
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB0_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 722
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -105087,22 +115722,22 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105114,10 +115749,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105125,13 +115760,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -105184,29 +115819,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 660
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 723
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -105256,11 +115891,11 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3072
+    LdsNumElements: 3136
     LdsOffsetA: 0
     LdsOffsetB: 2048
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105342,29 +115977,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 661
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS0_GSU1_LPA0_LPB0_PGR0_SNLL0_TT4_8_VW4_WG32_8_1_WGM8
+    SolutionIndex: 724
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS0_GSU1_LPA0_LPB4_PGR0_SNLL0_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -105397,7 +116032,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -105414,15 +116049,15 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 3648
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
     LdsOffsetB_Blk: 3072
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105504,8 +116139,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 662
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM64
+    SolutionIndex: 725
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -105513,7 +116148,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -105526,7 +116161,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -105559,7 +116194,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -105576,15 +116211,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105596,10 +116231,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105607,12 +116242,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -105666,8 +116301,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 663
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM64
+    SolutionIndex: 726
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -105675,12 +116310,12 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -105688,7 +116323,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -105738,15 +116373,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105758,10 +116393,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105773,8 +116408,8 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -105828,29 +116463,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 664
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA0_LPB0_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM64
+    SolutionIndex: 727
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -105866,7 +116501,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -105886,29 +116521,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
     LSPB: 64
-    LVCA: 2
-    LVCB: 2
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 13376
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 4160
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 9216
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -105919,11 +116554,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 256
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 256
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -105931,13 +116566,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -105990,31 +116625,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 665
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_EPS1_GSU1_LPA2_LPB0_PGR1_SNLL1_TT4_8_VW2_WG16_8_1_WGM8
+    SolutionIndex: 728
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x256x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT8_8_VW4_WG8_32_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -106045,32 +116680,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106083,9 +116718,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -106093,13 +116728,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -106152,29 +116787,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 666
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    SolutionIndex: 729
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -106196,7 +116831,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
@@ -106207,10 +116842,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -106224,15 +116859,11 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6720
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2624
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetB: 2048
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106256,7 +116887,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -106271,7 +116902,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -106314,8 +116945,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 667
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU3_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG32_8_1_WGM1
+    SolutionIndex: 730
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS0_GSU1_LPA0_LPB4_PGR0_SNLL0_TT4_4_VW4_WG32_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -106334,9 +116965,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -106372,169 +117003,7 @@
     GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
-    InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1024
-    LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 0
-    LocalDotLayout: 1
-    LocalRead2A: true
-    LocalRead2B: true
-    LocalSplitU: 1
-    LocalWrite2A: true
-    LocalWrite2B: true
-    LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
-    MacroTileShapeMax: 64
-    MacroTileShapeMin: 1
-    MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
-    NonTemporalA: 0
-    NonTemporalB: 0
-    NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
-    PackBatchDims: 0
-    PackFreeDims: 1
-    PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
-    PerformanceSyncLocation: -1
-    PerformanceWaitCount: -1
-    PerformanceWaitLocation: -1
-    PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
-    ProblemType:
-      AssignedDerivedParameters: true
-      Batched: true
-      ComplexConjugateA: false
-      ComplexConjugateB: false
-      DataType: 0
-      DestDataType: 0
-      HighPrecisionAccumulate: false
-      Index0: 0
-      Index01A: 0
-      Index01B: 1
-      Index1: 1
-      IndexAssignmentsA: [3, 0, 2]
-      IndexAssignmentsB: [3, 1, 2]
-      IndexUnroll: 3
-      IndexUnrollA: 0
-      IndexUnrollB: 0
-      IndicesBatch: [2]
-      IndicesFree: [0, 1]
-      IndicesSummation: [3]
-      NumIndicesBatch: 1
-      NumIndicesC: 3
-      NumIndicesFree: 2
-      NumIndicesSummation: 1
-      OperationType: GEMM
-      SilentHighPrecisionAccumulate: false
-      TLUA: false
-      TLUB: false
-      Tensor0: 0
-      Tensor1: 1
-      TileA: 0
-      TileB: 1
-      TotalIndices: 4
-      TransposeA: true
-      TransposeB: false
-      UseBeta: true
-      UseInitialStrides: false
-    ReplacementKernel: false
-    ScheduleGlobalRead: 1
-    ScheduleIterAlg: 1
-    ScheduleLocalWrite: 1
-    SolutionIndex: 668
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
-    StaggerU: 32
-    StaggerUMapping: 0
-    StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
-    UnrollMemFence: false
-    UseSgprForGRO: 1
-    Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
-    WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
-    AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
-    AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: false
-    AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
-    BufferStore: true
-    CheckDimOverflow: 0
-    CheckTensorDimAsserts: false
-    DepthU: 16
-    DirectToLds: false
-    DirectToLdsA: false
-    DirectToLdsB: false
-    DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
-    GlobalRead2A: true
-    GlobalRead2B: true
-    GlobalReadCoalesceGroupA: true
-    GlobalReadCoalesceGroupB: true
-    GlobalReadCoalesceVectorA: true
-    GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
-    GlobalSplitUSummationAssignmentRoundRobin: true
-    GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -106548,11 +117017,15 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1600
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106576,7 +117049,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -106591,7 +117064,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -106634,8 +117107,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 669
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS0_GSU1_LPA2_LPB0_PGR0_SNLL0_TT4_4_VW2_WG16_8_1_WGM8
+    SolutionIndex: 731
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -106654,7 +117127,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -106678,7 +117151,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -106689,10 +117162,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -106706,11 +117179,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2112
+    LdsNumElements: 6208
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106734,7 +117211,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -106749,7 +117226,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -106792,8 +117269,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 670
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS0_GSU1_LPA2_LPB0_PGR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 732
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -106812,7 +117289,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -106847,10 +117324,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -106865,14 +117342,14 @@
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -106896,7 +117373,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -106954,8 +117431,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 671
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM8
+    SolutionIndex: 733
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -106963,7 +117440,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -106974,9 +117451,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -107000,7 +117477,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -107009,32 +117486,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 32
     LSPB: 64
-    LVCA: 4
+    LVCA: 8
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 12864
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 4160
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 8704
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -107046,10 +117523,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 256
+    MacroTileA: 32
+    MacroTileB: 256
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107057,12 +117534,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -107116,29 +117593,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 672
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 734
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x256x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG8_32_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -107163,7 +117640,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -107174,7 +117651,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -107182,21 +117659,21 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6720
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -107208,10 +117685,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107219,12 +117696,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -107278,28 +117755,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 673
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA2_LPB0_PGR1_SNLL1_TT4_4_VW2_WG32_8_1_WGM64
+    SolutionIndex: 735
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -107333,32 +117810,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -107371,9 +117848,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107381,13 +117858,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -107440,28 +117917,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 674
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA2_LPB0_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM64
+    SolutionIndex: 736
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -107478,7 +117955,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107487,7 +117964,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -107503,24 +117980,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6720
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -107531,10 +118008,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 256
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 256
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -107543,8 +118020,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -107602,8 +118079,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 675
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT256x64x8_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT8_8_VW4_WG32_8_1_WGM1
+    SolutionIndex: 737
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -107612,10 +118089,10 @@
     SubGroupA: 32
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -107624,9 +118101,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -107640,7 +118117,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107657,7 +118134,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -107665,24 +118142,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 128
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -107693,11 +118170,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107705,13 +118182,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -107764,31 +118241,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 676
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 738
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -107802,7 +118279,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107827,24 +118304,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 13440
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 4224
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 9216
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -107855,11 +118332,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -107872,7 +118349,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -107926,15 +118403,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 677
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA4_LPB0_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 739
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG8_32_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -107947,10 +118424,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -107964,7 +118441,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -107989,24 +118466,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 13440
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 4224
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 9216
+    LdsPadA: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -108017,11 +118494,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108034,7 +118511,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -108088,15 +118565,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 678
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 740
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -108109,10 +118586,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -108126,7 +118603,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -108135,7 +118612,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -108146,29 +118623,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 32
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
+    LVPA: 32
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3408
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -108179,11 +118656,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108191,11 +118668,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -108250,31 +118727,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 679
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 741
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x8_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG32_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -108294,7 +118771,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -108305,28 +118782,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetB: 2112
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -108338,10 +118819,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108349,13 +118830,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -108365,7 +118846,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -108408,29 +118889,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 680
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS0_GSU1_LPA4_LPB0_PGR0_SNLL0_TT4_8_VW4_WG32_8_1_WGM8
+    SolutionIndex: 742
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 16
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -108454,7 +118935,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -108463,32 +118944,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 32
     LSPB: 64
-    LVCA: 4
+    LVCA: 8
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6752
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 4672
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -108500,10 +118981,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108511,12 +118992,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -108570,29 +119051,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 681
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
+    SolutionIndex: 743
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -108625,10 +119106,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -108642,15 +119123,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6208
+    LdsNumElements: 6240
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
     LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -108674,7 +119155,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -108732,8 +119213,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 682
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 744
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -108741,7 +119222,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -108752,9 +119233,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -108776,10 +119257,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -108787,10 +119268,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -108798,17 +119279,21 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2624
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 2112
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -108820,10 +119305,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -108831,12 +119316,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -108847,7 +119332,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -108890,29 +119375,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 683
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS0_GSU1_LPA4_LPB0_PGR0_SNLL0_TT4_4_VW4_WG32_8_1_WGM64
+    SolutionIndex: 745
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -108937,7 +119422,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -108945,32 +119430,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 32
     LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 6752
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -108982,9 +119467,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -108994,12 +119479,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -109052,14 +119537,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 684
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA4_LPB0_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM64
+    SolutionIndex: 746
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG32_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -109072,9 +119557,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -109090,7 +119575,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -109107,32 +119592,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LVCA: 4
+    LVCB: 4
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 13440
-    LdsNumElementsAlignedA: 1152
-    LdsNumElementsAlignedB: 4096
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1152
-    LdsOffsetB_Blk: 9344
-    LdsPadA: 4
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -109143,11 +119628,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109156,12 +119641,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -109214,16 +119699,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 685
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU1_LPA4_LPB0_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM64
+    SolutionIndex: 747
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -109234,11 +119719,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -109252,16 +119737,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -109269,7 +119754,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -109277,23 +119762,19 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3600
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
+    LdsOffsetB: 1088
+    LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
@@ -109305,10 +119786,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -109317,8 +119798,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -109333,7 +119814,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -109376,8 +119857,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 686
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_EPS1_GSU1_LPA0_LPB2_PGR1_SNLL1_TT8_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 748
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS0_GSU5_LPA2_LPB2_PGR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -109385,11 +119866,11 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -109398,9 +119879,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -109441,21 +119922,21 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
@@ -109469,9 +119950,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -109483,9 +119964,9 @@
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -109538,15 +120019,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 687
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    SolutionIndex: 749
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -109559,7 +120040,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -109610,14 +120091,14 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6176
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
@@ -109630,9 +120111,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -109641,11 +120122,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -109700,8 +120181,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 688
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 750
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -109710,10 +120191,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -109755,7 +120236,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -109772,14 +120253,14 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6176
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
@@ -109792,9 +120273,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -109803,11 +120284,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -109862,29 +120343,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 689
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 751
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG32_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -109917,7 +120398,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -109934,14 +120415,14 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
@@ -110024,8 +120505,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 690
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM64
+    SolutionIndex: 752
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -110033,7 +120514,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -110046,7 +120527,7 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -110062,7 +120543,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -110071,7 +120552,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -110082,29 +120563,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3616
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110115,10 +120596,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -110127,7 +120608,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -110186,31 +120667,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 691
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
+    SolutionIndex: 753
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -110244,29 +120725,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110278,10 +120759,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -110289,13 +120770,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -110348,29 +120829,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 692
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM1
+    SolutionIndex: 754
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT8_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -110392,7 +120873,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -110403,10 +120884,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -110420,11 +120901,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3136
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 2048
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110436,10 +120921,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -110448,11 +120933,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -110463,7 +120948,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -110506,15 +120991,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 693
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS0_GSU1_LPA0_LPB4_PGR0_SNLL0_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 755
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG8_32_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: false
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -110526,9 +121011,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -110552,7 +121037,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -110564,7 +121049,7 @@
     GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -110572,21 +121057,21 @@
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 32
-    LVCA: 4
+    LSPB: 64
+    LVCA: 8
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 6752
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 4672
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110598,10 +121083,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -110610,12 +121095,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -110668,15 +121153,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 694
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM1
+    SolutionIndex: 756
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -110688,9 +121173,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -110726,7 +121211,7 @@
     GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -110740,15 +121225,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110761,9 +121246,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -110771,12 +121256,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -110830,29 +121315,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 695
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 757
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG8_32_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -110885,10 +121370,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -110902,15 +121387,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -110923,9 +121408,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -110933,12 +121418,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -110992,28 +121477,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 696
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM8
+    SolutionIndex: 758
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -111047,10 +121532,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -111064,15 +121549,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 13376
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 4160
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 9216
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -111085,9 +121570,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 256
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 256
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -111095,12 +121580,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -111154,28 +121639,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 697
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x256x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT8_8_VW4_WG8_32_1_WGM8
+    SolutionIndex: 759
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -111212,7 +121697,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -111226,15 +121711,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -111247,9 +121732,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -111257,12 +121742,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -111316,8 +121801,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 698
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 760
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -111326,19 +121811,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -111360,10 +121845,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -111374,7 +121859,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -111382,17 +121867,21 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2624
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 2048
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -111404,10 +121893,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -111415,12 +121904,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -111431,7 +121920,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -111474,29 +121963,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 699
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS0_GSU1_LPA0_LPB4_PGR0_SNLL0_TT4_4_VW4_WG32_8_1_WGM8
+    SolutionIndex: 761
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_8_VW2_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -111529,32 +122018,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -111567,9 +122056,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -111577,13 +122066,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -111636,29 +122125,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 700
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM8
+    SolutionIndex: 762
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -111691,10 +122180,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 3
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -111708,15 +122197,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6208
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -111728,9 +122217,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -111739,11 +122228,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -111798,8 +122287,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 701
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 763
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -111808,19 +122297,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -111853,10 +122342,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -111870,15 +122359,15 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -111902,7 +122391,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -111960,8 +122449,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 702
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM64
+    SolutionIndex: 764
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -111969,7 +122458,7 @@
     SubGroup1: 8
     SubGroupA: 16
     SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -111980,7 +122469,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 8, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
@@ -112006,7 +122495,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -112015,32 +122504,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 64
-    LVCA: 8
+    LVCA: 4
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 12864
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 4160
+    LdsNumElements: 6240
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 8704
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -112052,10 +122541,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 256
-    MacroTileA: 32
-    MacroTileB: 256
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -112063,12 +122552,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -112122,28 +122611,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 703
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x256x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG8_32_1_WGM64
+    SolutionIndex: 765
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -112160,7 +122649,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -112177,32 +122666,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 13440
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 4160
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 9280
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -112213,10 +122702,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 32
+    MacroTile0: 32
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -112225,12 +122714,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -112284,8 +122773,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 704
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM64
+    SolutionIndex: 766
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -112293,22 +122782,22 @@
     SubGroup1: 32
     SubGroupA: 8
     SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -112322,7 +122811,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -112342,29 +122831,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 14464
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 4160
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 10304
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -112375,7 +122864,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 64
     MacroTile1: 128
     MacroTileA: 64
@@ -112388,11 +122877,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -112446,31 +122935,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 705
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM64
+    SolutionIndex: 767
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x32_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT8_4_VW2_WG8_32_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 2
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -112484,7 +122973,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -112501,32 +122990,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 12416
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 10304
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -112537,10 +123026,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -112549,12 +123038,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -112608,31 +123097,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 706
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM64
+    SolutionIndex: 768
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -112646,7 +123135,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -112655,7 +123144,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -112663,7 +123152,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -112671,23 +123160,23 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 32
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3424
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
@@ -112699,10 +123188,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -112715,9 +123204,9 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -112770,16 +123259,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 707
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM64
+    SolutionIndex: 769
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x8_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 32
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 32
     SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -112791,10 +123280,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -112808,7 +123297,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -112817,7 +123306,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -112825,7 +123314,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -112833,23 +123322,23 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 13440
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 4224
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 9216
-    LdsPadA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
@@ -112861,11 +123350,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -112873,12 +123362,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -112932,31 +123421,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 708
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU5_LPA0_LPB4_PGR1_SNLL0_TT4_4_VW4_WG8_32_1_WGM8
+    SolutionIndex: 770
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -112970,7 +123459,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -112995,23 +123484,23 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LVCA: 4
+    LVCB: 4
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 13440
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 4224
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 9216
-    LdsPadA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
@@ -113023,11 +123512,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113039,9 +123528,9 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -113094,15 +123583,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 709
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU1_LPA0_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM64
+    SolutionIndex: 771
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -113115,10 +123604,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -113132,7 +123621,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -113140,8 +123629,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -113152,29 +123641,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 32
-    LVCA: 2
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
     LVCB: 4
-    LVPA: 32
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3408
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 4672
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -113185,11 +123674,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113198,11 +123687,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -113256,15 +123745,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 710
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x8_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG32_8_1_WGM64
+    SolutionIndex: 772
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -113276,11 +123765,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -113311,32 +123800,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3680
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -113349,9 +123838,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113360,12 +123849,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -113418,16 +123907,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 711
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    SolutionIndex: 773
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -113438,8 +123927,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -113464,7 +123953,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -113473,32 +123962,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 64
-    LVCA: 8
+    LVCA: 4
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6752
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 4672
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -113510,10 +123999,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113521,12 +124010,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -113580,28 +124069,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 712
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM1
+    SolutionIndex: 774
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -113627,7 +124116,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -113635,10 +124124,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -113646,21 +124135,21 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6240
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -113672,10 +124161,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113684,10 +124173,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -113742,16 +124231,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 713
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 775
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -113762,8 +124251,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -113797,10 +124286,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -113814,15 +124303,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -113834,10 +124323,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -113846,11 +124335,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -113904,16 +124393,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 714
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 776
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 8]
     ThreadTile0: 4
     ThreadTile1: 8
@@ -113924,8 +124413,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -113948,7 +124437,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
@@ -113959,10 +124448,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -113976,15 +124465,11 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6752
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 4736
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 4160
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -113996,9 +124481,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 256
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 256
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -114007,11 +124492,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -114023,7 +124508,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -114066,8 +124551,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 715
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG32_8_1_WGM1
+    SolutionIndex: 777
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT256x32x16_EPS0_GSU1_LPA4_LPB4_PGR0_SNLL0_TT8_4_VW4_WG32_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114076,23 +124561,185 @@
     SubGroupA: 32
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [32, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 1
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: true
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 16
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 3
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 4
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    KernelLanguage: Assembly
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
+    LdcEqualsLdd: false
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MinGlobalWriteVectorWidth: 1
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      DataType: 0
+      DestDataType: 0
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 778
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU3_LPA4_LPB4_PGR1_SNLL0_TT8_4_VW4_WG16_16_1_WGM1
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
+    UnrollMemFence: false
+    UseSgprForGRO: 1
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -114124,7 +124771,7 @@
     GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -114138,15 +124785,15 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3680
+    LdsNumElements: 3712
     LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
     LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -114170,7 +124817,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -114228,8 +124875,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 716
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM1
+    SolutionIndex: 779
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114248,7 +124895,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -114272,7 +124919,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -114283,10 +124930,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -114300,11 +124947,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2144
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -114317,9 +124968,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114327,12 +124978,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -114343,7 +124994,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -114386,29 +125037,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 717
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS0_GSU5_LPA2_LPB2_PGR0_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 780
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -114441,10 +125092,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -114458,15 +125109,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6240
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
     LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -114490,7 +125141,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -114548,8 +125199,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 718
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 781
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114557,7 +125208,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -114568,9 +125219,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -114603,10 +125254,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -114620,15 +125271,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -114640,10 +125291,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114652,11 +125303,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -114710,8 +125361,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 719
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 782
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -114719,20 +125370,20 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -114765,10 +125416,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -114782,15 +125433,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
+    LdsNumElements: 7296
     LdsNumElementsAlignedA: 2112
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2112
     LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -114814,7 +125465,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -114872,29 +125523,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 720
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG32_8_1_WGM1
+    SolutionIndex: 783
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -114930,29 +125581,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3680
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 12416
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 10304
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -114964,10 +125615,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -114975,13 +125626,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -115034,28 +125685,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 721
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_8_1_WGM8
+    SolutionIndex: 784
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -115078,10 +125729,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -115092,7 +125743,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -115100,21 +125751,17 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6240
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2688
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 2112
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -115126,10 +125773,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115138,10 +125785,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -115153,7 +125800,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -115196,16 +125843,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 722
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 785
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS0_GSU1_LPA4_LPB4_PGR0_SNLL0_TT4_4_VW4_WG32_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -115216,8 +125863,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -115243,7 +125890,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -115254,7 +125901,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -115262,21 +125909,21 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
+    LdsNumElements: 6784
     LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2112
     LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -115289,9 +125936,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 128
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115299,8 +125946,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -115358,28 +126005,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 723
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT8_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 786
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -115413,10 +126060,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -115430,15 +126077,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -115450,10 +126097,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115462,11 +126109,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -115520,28 +126167,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 724
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG8_32_1_WGM8
+    SolutionIndex: 787
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -115566,7 +126213,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -115578,7 +126225,7 @@
     GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -115586,21 +126233,21 @@
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 64
-    LVCA: 8
+    LSPB: 32
+    LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6752
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 4672
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -115612,10 +126259,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115624,12 +126271,12 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -115682,15 +126329,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 725
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM8
+    SolutionIndex: 788
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -115702,8 +126349,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -115737,32 +126384,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7264
+    LdsNumElements: 3712
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -115775,9 +126422,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115785,13 +126432,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -115844,29 +126491,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 726
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG8_32_1_WGM8
+    SolutionIndex: 789
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -115890,7 +126537,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -115899,32 +126546,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 32
     LSPB: 64
-    LVCA: 4
+    LVCA: 8
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6240
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 4672
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -115936,10 +126583,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -115948,11 +126595,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -116006,16 +126653,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 727
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 790
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -116026,9 +126673,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -116061,10 +126708,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -116078,15 +126725,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
+    LdsNumElements: 7296
     LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
     LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -116110,7 +126757,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -116168,29 +126815,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 728
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG16_16_1_WGM8
+    SolutionIndex: 791
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -116226,7 +126873,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -116240,15 +126887,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6240
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
     LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -116272,7 +126919,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -116330,8 +126977,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 729
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 792
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116350,7 +126997,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
@@ -116388,7 +127035,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -116402,15 +127049,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
+    LdsNumElements: 7296
     LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
     LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -116434,7 +127081,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -116492,8 +127139,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 730
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT4_8_VW2_WG16_16_1_WGM64
+    SolutionIndex: 793
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116512,169 +127159,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
-    WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
-  - AggressivePerfMode: 1
-    AssertFree0ElementMultiple: 1
-    AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
-    AssertSummationElementMultiple: 1
-    AssignedDerivedParameters: false
-    AssignedProblemIndependentDerivedParameters: true
-    BufferLoad: true
-    BufferStore: true
-    CheckDimOverflow: 0
-    CheckTensorDimAsserts: false
-    DepthU: 16
-    DirectToLds: false
-    DirectToLdsA: false
-    DirectToLdsB: false
-    DisableKernelPieces: 0
-    EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
-    GlobalRead2A: true
-    GlobalRead2B: true
-    GlobalReadCoalesceGroupA: true
-    GlobalReadCoalesceGroupB: true
-    GlobalReadCoalesceVectorA: true
-    GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
-    GlobalSplitUSummationAssignmentRoundRobin: true
-    GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
-    GuaranteeNoPartialA: true
-    GuaranteeNoPartialB: true
-    InnerUnroll: 1
-    KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
-    LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
-    LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
-    LocalDotLayout: 1
-    LocalRead2A: true
-    LocalRead2B: true
-    LocalSplitU: 1
-    LocalWrite2A: true
-    LocalWrite2B: true
-    LocalWriteUseSgprA: false
-    LocalWriteUseSgprB: false
-    LoopDoWhile: false
-    LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
-    MacroTileShapeMax: 64
-    MacroTileShapeMin: 1
-    MaxOccupancy: 40
-    MinGlobalWriteVectorWidth: 1
-    NonTemporalA: 0
-    NonTemporalB: 0
-    NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
-    PackBatchDims: 0
-    PackFreeDims: 1
-    PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
-    PerformanceSyncLocation: -1
-    PerformanceWaitCount: -1
-    PerformanceWaitLocation: -1
-    PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
-    ProblemType:
-      AssignedDerivedParameters: true
-      Batched: true
-      ComplexConjugateA: false
-      ComplexConjugateB: false
-      DataType: 0
-      DestDataType: 0
-      HighPrecisionAccumulate: false
-      Index0: 0
-      Index01A: 0
-      Index01B: 1
-      Index1: 1
-      IndexAssignmentsA: [3, 0, 2]
-      IndexAssignmentsB: [3, 1, 2]
-      IndexUnroll: 3
-      IndexUnrollA: 0
-      IndexUnrollB: 0
-      IndicesBatch: [2]
-      IndicesFree: [0, 1]
-      IndicesSummation: [3]
-      NumIndicesBatch: 1
-      NumIndicesC: 3
-      NumIndicesFree: 2
-      NumIndicesSummation: 1
-      OperationType: GEMM
-      SilentHighPrecisionAccumulate: false
-      TLUA: false
-      TLUB: false
-      Tensor0: 0
-      Tensor1: 1
-      TileA: 0
-      TileB: 1
-      TotalIndices: 4
-      TransposeA: true
-      TransposeB: false
-      UseBeta: true
-      UseInitialStrides: false
-    ReplacementKernel: false
-    ScheduleGlobalRead: 1
-    ScheduleIterAlg: 1
-    ScheduleLocalWrite: 1
-    SolutionIndex: 731
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT4_8_VW2_WG16_16_1_WGM64
-    StaggerU: 32
-    StaggerUMapping: 0
-    StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
-    UnrollMemFence: false
-    UseSgprForGRO: 1
-    Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
@@ -116709,10 +127194,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -116726,15 +127211,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7264
+    LdsNumElements: 7296
     LdsNumElementsAlignedA: 2112
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2112
     LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -116758,7 +127243,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -116816,8 +127301,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 732
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU3_LPA2_LPB2_PGR1_SNLL0_TT8_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 794
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -116825,7 +127310,7 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SuppressNoLoadLoop: true
     ThreadTile: [8, 4]
     ThreadTile0: 8
     ThreadTile1: 4
@@ -116836,7 +127321,7 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
@@ -116871,32 +127356,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3680
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 12416
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 10304
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -116908,10 +127393,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -116919,13 +127404,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -116978,28 +127463,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 733
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_8_1_WGM64
+    SolutionIndex: 795
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -117025,7 +127510,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -117033,10 +127518,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -117044,21 +127529,21 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6240
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -117070,10 +127555,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 32
+    MacroTileA: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117082,10 +127567,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -117140,16 +127625,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 734
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 796
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -117160,8 +127645,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -117178,7 +127663,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117195,32 +127680,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 13440
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 4160
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 9280
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -117231,11 +127716,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117243,12 +127728,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -117302,31 +127787,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 735
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG8_32_1_WGM1
+    SolutionIndex: 797
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroup0: 32
+    SubGroup1: 8
+    SubGroupA: 32
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [32, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -117340,7 +127825,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117348,7 +127833,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -117357,32 +127842,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
-    LSPB: 32
+    LSPB: 64
     LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14464
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 4160
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 10304
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 4672
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -117393,10 +127878,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -117405,12 +127890,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -117464,8 +127949,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 736
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x32_EPS1_GSU1_LPA2_LPB2_PGR1_SNLL1_TT8_4_VW2_WG8_32_1_WGM8
+    SolutionIndex: 798
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG8_32_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -117473,22 +127958,22 @@
     SubGroup1: 32
     SubGroupA: 8
     SubGroupB: 32
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -117519,10 +128004,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -117536,15 +128021,15 @@
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 12416
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 13568
+    LdsNumElementsAlignedA: 1152
+    LdsNumElementsAlignedB: 4224
     LdsOffsetA: 0
     LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 10304
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 1152
+    LdsOffsetB_Blk: 9344
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -117556,10 +128041,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117568,11 +128053,11 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -117626,16 +128111,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 737
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU5_LPA2_LPB2_PGR1_SNLL0_TT4_4_VW2_WG16_16_1_WGM64
+    SolutionIndex: 799
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -117646,9 +128131,9 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 4
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
@@ -117664,7 +128149,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117673,7 +128158,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -117689,22 +128174,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 2
-    LVCB: 4
-    LVPA: 32
-    LVPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3424
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 12544
+    LdsNumElementsAlignedA: 2176
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2176
+    LdsOffsetB_Blk: 10368
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -117717,11 +128202,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117733,8 +128218,8 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -117788,15 +128273,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 738
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x8_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM8
+    SolutionIndex: 800
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -117809,10 +128294,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -117826,7 +128311,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -117835,7 +128320,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -117843,7 +128328,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 5
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -117851,22 +128336,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 64
-    LVCA: 2
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3680
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 13568
+    LdsNumElementsAlignedA: 1152
+    LdsNumElementsAlignedB: 4224
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 1152
+    LdsOffsetB_Blk: 9344
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -117879,11 +128364,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 128
+    MacroTileA: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -117891,12 +128376,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -117950,31 +128435,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 739
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
+    SolutionIndex: 801
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG8_32_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 8
+    SubGroup1: 32
+    SubGroupA: 8
+    SubGroupB: 32
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 32, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -117988,7 +128473,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118013,22 +128498,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3712
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 12544
+    LdsNumElementsAlignedA: 2176
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2176
+    LdsOffsetB_Blk: 10368
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -118041,11 +128526,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118058,8 +128543,8 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -118112,15 +128597,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 740
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM1
+    SolutionIndex: 802
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -118133,10 +128618,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -118150,7 +128635,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118158,7 +128643,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -118175,22 +128660,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 64
+    LSPB: 32
     LVCA: 8
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 14592
+    LdsNumElementsAlignedA: 2176
+    LdsNumElementsAlignedB: 4224
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 4672
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2176
+    LdsOffsetB_Blk: 10368
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -118203,10 +128688,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 32
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -118215,12 +128700,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -118274,31 +128759,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 741
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM1
+    SolutionIndex: 803
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -118312,7 +128797,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118337,22 +128822,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6272
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 12544
+    LdsNumElementsAlignedA: 2176
+    LdsNumElementsAlignedB: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2176
+    LdsOffsetB_Blk: 10368
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -118365,7 +128850,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 64
     MacroTile1: 64
     MacroTileA: 64
@@ -118381,8 +128866,8 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -118436,8 +128921,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 742
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 804
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -118458,9 +128943,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -118474,7 +128959,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -118499,22 +128984,22 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 14592
+    LdsNumElementsAlignedA: 2176
+    LdsNumElementsAlignedB: 4224
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetA_Blk: 8192
+    LdsOffsetB: 2176
+    LdsOffsetB_Blk: 10368
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -118527,11 +129012,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -118544,7 +129029,7 @@
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -118598,8 +129083,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 743
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 805
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -118608,11 +129093,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -118620,9 +129105,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -118656,7 +129141,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -118670,15 +129155,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -118690,9 +129175,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -118701,11 +129186,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -118733,6 +129218,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -118742,6 +129228,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -118760,28 +129247,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 744
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM1
+    SolutionIndex: 806
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -118818,7 +129305,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -118832,15 +129319,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -118852,9 +129339,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -118863,11 +129350,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -118895,6 +129382,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -118904,6 +129392,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -118922,28 +129411,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 745
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM1
+    SolutionIndex: 807
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -118960,13 +129449,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
@@ -118980,40 +129469,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 4736
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 4160
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 256
-    MacroTile1: 32
-    MacroTileA: 256
-    MacroTileB: 32
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119021,13 +129514,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -119037,7 +129530,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -119053,6 +129546,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -119062,6 +129556,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119080,31 +129575,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 746
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT256x32x16_EPS0_GSU1_LPA4_LPB4_PGR0_SNLL0_TT8_4_VW4_WG32_8_1_WGM1
+    SolutionIndex: 808
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 4, 8]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -119118,7 +129613,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -119135,32 +129630,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 3
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -119171,11 +129666,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119183,13 +129678,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -119215,6 +129710,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -119224,6 +129720,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119242,31 +129739,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 747
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU3_LPA4_LPB4_PGR1_SNLL0_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 809
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW2_WG8_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -119289,7 +129786,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -119297,10 +129794,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -119308,36 +129805,36 @@
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 32
+    LSPB: 16
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3712
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119345,11 +129842,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 128
     PackBatchDims: 0
@@ -119377,6 +129874,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -119386,6 +129884,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119404,29 +129903,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 748
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM1
+    SolutionIndex: 810
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW2_WG4_4_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -119442,7 +129941,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -119451,7 +129950,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -119462,44 +129961,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119507,13 +130006,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -119539,6 +130038,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -119548,6 +130048,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119566,31 +130067,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 749
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM8
+    SolutionIndex: 811
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 4, 8]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -119604,7 +130105,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -119613,7 +130114,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -119624,44 +130125,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 6272
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119669,13 +130170,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -119701,6 +130202,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -119710,6 +130212,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119728,31 +130231,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 750
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 812
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -119766,7 +130269,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -119786,29 +130289,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -119819,11 +130322,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119831,13 +130334,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -119863,6 +130366,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -119872,6 +130376,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -119890,31 +130395,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 751
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 813
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW2_WG8_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -119928,7 +130433,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -119937,7 +130442,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -119948,44 +130453,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 8
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1792
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 8
+    MacroTileA: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -119993,13 +130498,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -120025,6 +130530,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -120034,6 +130540,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -120052,31 +130559,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 752
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 814
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -120090,7 +130597,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120107,47 +130614,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 12416
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 10304
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120155,13 +130662,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -120187,6 +130694,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -120196,6 +130704,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -120214,31 +130723,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 753
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 815
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x32_SE_EPS1_GSU8_PGR1_SNLL0_TT8_4_VW2_WG4_4_8_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -120252,13 +130761,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
@@ -120277,35 +130786,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 8
+    LVCA: 2
+    LVCB: 4
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 2688
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetB: 2112
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 32
-    MacroTileA: 128
-    MacroTileB: 32
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120313,13 +130826,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -120329,7 +130842,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -120345,6 +130858,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -120354,6 +130868,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -120372,16 +130887,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 754
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS0_GSU1_LPA4_LPB4_PGR0_SNLL0_TT4_4_VW4_WG32_8_1_WGM8
+    SolutionIndex: 816
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_2_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
-    SuppressNoLoadLoop: false
+    SubGroup0: 8
+    SubGroup1: 2
+    SubGroupA: 8
+    SubGroupB: 2
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -120393,10 +130908,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 2, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -120410,7 +130925,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120435,24 +130950,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -120463,11 +130978,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120475,11 +130990,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -120507,6 +131022,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -120516,6 +131032,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -120534,20 +131051,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 755
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM8
+    SolutionIndex: 817
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -120555,10 +131072,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -120572,7 +131089,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -120597,24 +131114,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -120625,11 +131142,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120637,13 +131154,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -120669,6 +131186,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -120678,6 +131196,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -120696,31 +131215,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 756
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM8
+    SolutionIndex: 818
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 8
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 8
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -120751,7 +131270,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -120761,36 +131280,36 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3712
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -120799,13 +131318,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -120831,6 +131350,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -120840,6 +131360,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -120858,20 +131379,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 757
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG16_8_1_WGM8
+    SolutionIndex: 819
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG2_8_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 2
     SubGroup1: 8
-    SubGroupA: 16
+    SubGroupA: 2
     SubGroupB: 8
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -120879,8 +131400,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [2, 8, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -120902,7 +131423,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -120923,22 +131444,18 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3712
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 1024
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -120951,9 +131468,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -120965,9 +131482,9 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -120977,7 +131494,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -120993,6 +131510,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -121002,6 +131520,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -121020,16 +131539,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 758
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_8_1_WGM64
+    SolutionIndex: 820
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
-    SuppressNoLoadLoop: true
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -121041,8 +131560,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -121058,7 +131577,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121066,7 +131585,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -121078,44 +131597,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 64
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 8
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 4672
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121123,13 +131642,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -121155,6 +131674,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -121164,6 +131684,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -121182,15 +131703,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 759
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM64
+    SolutionIndex: 821
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x16x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG4_4_8_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -121203,10 +131724,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -121220,7 +131741,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121229,7 +131750,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -121245,39 +131766,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 8
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 64
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121285,13 +131806,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -121317,6 +131838,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -121326,6 +131848,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -121344,20 +131867,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 760
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG8_32_1_WGM64
+    SolutionIndex: 822
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_2_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 8
-    SubGroup1: 32
+    SubGroup1: 2
     SubGroupA: 8
-    SubGroupB: 32
+    SubGroupB: 2
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -121365,10 +131888,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [8, 2, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -121382,7 +131905,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121407,24 +131930,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 6272
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -121435,11 +131958,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121453,7 +131976,7 @@
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 64
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -121479,6 +132002,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -121488,6 +132012,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -121506,15 +132031,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 761
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 823
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -121527,10 +132052,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [8, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -121544,7 +132069,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121561,47 +132086,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121609,13 +132134,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -121641,6 +132166,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -121650,6 +132176,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -121668,31 +132195,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 762
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM64
+    SolutionIndex: 824
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x16x32_SE_EPS1_GSU8_PGR1_SNLL0_TT4_4_VW4_WG4_4_8_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [4, 4, 8]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -121740,15 +132267,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -121760,9 +132287,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -121771,11 +132298,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
@@ -121803,6 +132330,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -121812,6 +132340,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -121830,8 +132359,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 763
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 825
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -121840,10 +132369,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -121852,7 +132381,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 16
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -121868,7 +132397,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -121893,24 +132422,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 2
+    LVCB: 2
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 12416
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 10304
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -121921,11 +132450,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -121933,13 +132462,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 64
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -121965,6 +132494,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -121974,6 +132504,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -121992,31 +132523,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 764
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT8_8_VW4_WG16_16_1_WGM64
+    SolutionIndex: 826
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_8_1_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 16
-    SubGroupA: 16
-    SubGroupB: 16
+    SubGroup0: 8
+    SubGroup1: 8
+    SubGroupA: 8
+    SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 8, 1]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -122039,7 +132570,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -122057,36 +132588,36 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCB: 4
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 32
-    MacroTileA: 128
+    MacroTileA: 16
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -122095,13 +132626,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 64
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -122127,6 +132658,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -122136,6 +132668,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -122154,20 +132687,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 765
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x32x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG32_8_1_WGM64
+    SolutionIndex: 827
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG2_8_4_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
+    SubGroup0: 2
     SubGroup1: 8
-    SubGroupA: 32
+    SubGroupA: 2
     SubGroupB: 8
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -122175,7 +132708,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    WorkGroup: [2, 8, 4]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -122201,7 +132734,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -122219,37 +132752,37 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 16
     LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122257,13 +132790,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -122289,6 +132822,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -122298,6 +132832,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -122316,28 +132851,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 766
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG32_8_1_WGM64
+    SolutionIndex: 828
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG4_4_8_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 32
-    SubGroup1: 8
-    SubGroupA: 32
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [32, 8, 1]
+    WorkGroup: [4, 4, 8]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -122354,7 +132889,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -122362,7 +132897,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -122371,47 +132906,47 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 64
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 8
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 4672
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 8
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 128
-    MacroTileA: 32
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 16
+    MacroTileA: 16
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122419,13 +132954,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -122451,6 +132986,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -122460,6 +132996,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -122478,16 +133015,16 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 767
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x16_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG8_32_1_WGM64
+    SolutionIndex: 829
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x16x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG4_4_8_WGM64
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
+    SubGroup0: 4
+    SubGroup1: 4
+    SubGroupA: 4
+    SubGroupB: 4
+    SuppressNoLoadLoop: true
     ThreadTile: [4, 4]
     ThreadTile0: 4
     ThreadTile1: 4
@@ -122499,10 +133036,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 32, 1]
+    WorkGroup: [4, 4, 8]
     WorkGroupMapping: 64
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -122516,7 +133053,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -122536,29 +133073,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 13568
-    LdsNumElementsAlignedA: 1152
-    LdsNumElementsAlignedB: 4224
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1152
-    LdsOffsetB_Blk: 9344
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -122569,10 +133106,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 32
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -122581,12 +133118,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -122604,6 +133141,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -122613,6 +133151,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -122622,6 +133161,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -122640,31 +133180,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 768
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG8_32_1_WGM1
+    SolutionIndex: 830
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 32, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -122678,14 +133218,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -122698,29 +133238,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 12544
-    LdsNumElementsAlignedA: 2176
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2176
-    LdsOffsetB_Blk: 10368
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -122731,11 +133271,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -122743,8 +133283,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -122766,6 +133308,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -122775,6 +133318,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -122784,6 +133328,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -122802,8 +133347,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 769
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 831
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -122812,23 +133357,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -122840,14 +133383,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -122857,32 +133400,32 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 5
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 13568
-    LdsNumElementsAlignedA: 1152
-    LdsNumElementsAlignedB: 4224
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 1152
-    LdsOffsetB_Blk: 9344
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -122893,10 +133436,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 32
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -122905,12 +133448,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -122928,6 +133473,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -122937,6 +133483,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -122946,6 +133493,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -122964,33 +133512,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 770
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x128x32_EPS1_GSU5_LPA4_LPB4_PGR1_SNLL0_TT4_4_VW4_WG8_32_1_WGM1
+    SolutionIndex: 832
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 32
-    SubGroupA: 8
-    SubGroupB: 32
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 32, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -123002,7 +133548,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -123022,29 +133568,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 12544
-    LdsNumElementsAlignedA: 2176
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2176
-    LdsOffsetB_Blk: 10368
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -123055,11 +133601,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123067,8 +133613,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -123090,6 +133636,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -123099,6 +133646,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -123108,6 +133656,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -123126,8 +133675,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 771
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 833
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -123136,21 +133685,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -123164,7 +133713,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -123184,29 +133733,29 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14592
-    LdsNumElementsAlignedA: 2176
-    LdsNumElementsAlignedB: 4224
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2176
-    LdsOffsetB_Blk: 10368
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -123217,10 +133766,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -123229,12 +133778,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -123252,6 +133801,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -123261,6 +133811,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -123270,6 +133821,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -123288,8 +133840,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 772
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 834
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -123298,21 +133850,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -123326,14 +133878,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -123351,24 +133903,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 12544
-    LdsNumElementsAlignedA: 2176
-    LdsNumElementsAlignedB: 2176
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2176
-    LdsOffsetB_Blk: 10368
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -123379,11 +133931,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123391,8 +133943,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -123414,6 +133968,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -123423,6 +133978,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -123432,6 +133988,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -123450,8 +134007,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 773
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM64
+    SolutionIndex: 835
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -123460,23 +134017,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -123488,14 +134043,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -123513,24 +134068,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 14592
-    LdsNumElementsAlignedA: 2176
-    LdsNumElementsAlignedB: 4224
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 8192
-    LdsOffsetB: 2176
-    LdsOffsetB_Blk: 10368
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -123541,10 +134096,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -123553,12 +134108,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -123576,6 +134133,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -123585,6 +134143,7 @@
       Index1: 1
       IndexAssignmentsA: [3, 0, 2]
       IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
       IndexUnroll: 3
       IndexUnrollA: 0
       IndexUnrollB: 0
@@ -123594,6 +134153,7 @@
       NumIndicesBatch: 1
       NumIndicesC: 3
       NumIndicesFree: 2
+      NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
       SilentHighPrecisionAccumulate: false
@@ -123612,8 +134172,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 774
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x32_EPS1_GSU1_LPA4_LPB4_PGR1_SNLL1_TT4_8_VW4_WG16_16_1_WGM64
+    SolutionIndex: 836
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -123622,10 +134182,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -123634,11 +134194,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 64
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -123659,7 +134217,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -123670,7 +134228,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -123678,19 +134236,19 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -123704,10 +134262,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123715,12 +134273,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -123738,6 +134296,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -123776,8 +134335,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 775
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG16_16_1_WGM1
+    SolutionIndex: 837
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -123786,17 +134345,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -123834,7 +134393,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -123848,13 +134407,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -123868,10 +134427,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -123879,12 +134438,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -123902,6 +134461,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -123940,8 +134500,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 776
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 838
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -123950,17 +134510,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -123978,16 +134538,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -123998,44 +134558,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124043,13 +134603,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -124066,6 +134628,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -124104,33 +134667,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 777
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM1
+    SolutionIndex: 839
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -124142,14 +134703,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -124162,27 +134723,27 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -124195,11 +134756,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124207,13 +134768,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -124230,6 +134793,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -124268,33 +134832,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 778
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW2_WG8_8_1_WGM8
+    SolutionIndex: 840
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -124315,7 +134877,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -124326,44 +134888,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 16
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124371,13 +134933,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -124394,6 +134956,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -124432,28 +134995,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 779
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW2_WG4_4_8_WGM8
+    SolutionIndex: 841
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
+    ThreadTile: [8, 8]
     ThreadTile0: 8
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 4, 8]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -124470,7 +135033,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -124479,7 +135042,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -124490,44 +135053,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 8
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124535,13 +135098,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -124558,6 +135121,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -124596,31 +135160,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 780
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM8
+    SolutionIndex: 842
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 4, 8]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -124634,15 +135198,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -124650,48 +135214,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124699,13 +135263,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -124722,6 +135288,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -124760,33 +135327,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 781
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM16
+    SolutionIndex: 843
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 16
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -124798,49 +135363,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -124851,11 +135416,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -124863,13 +135428,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -124886,6 +135453,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -124924,33 +135492,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 782
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW2_WG8_8_1_WGM64
+    SolutionIndex: 844
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 64
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -124962,7 +135528,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -124970,7 +135536,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -124978,48 +135544,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
-    LVCB: 16
-    LVPA: 4
-    LVPB: 4
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1792
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7232
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 8
-    MacroTileA: 16
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125027,13 +135593,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -125050,6 +135616,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -125088,31 +135655,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 783
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x8x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_2_VW2_WG4_4_8_WGM64
+    SolutionIndex: 845
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 64
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -125126,7 +135693,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -125134,56 +135701,56 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7232
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125191,13 +135758,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -125214,6 +135781,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -125252,31 +135820,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 784
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x32_SE_EPS1_GSU8_PGR1_SNLL0_TT8_4_VW2_WG4_4_8_WGM64
+    SolutionIndex: 846
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 64
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -125290,7 +135858,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -125299,7 +135867,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -125310,44 +135878,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 8
-    LVCA: 2
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 7200
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125355,13 +135923,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -125378,6 +135946,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -125416,31 +135985,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 785
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_2_4_WGM1
+    SolutionIndex: 847
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 2
-    SubGroupA: 8
-    SubGroupB: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 2, 4]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -125454,49 +136023,49 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 64
-    LVCA: 2
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -125507,11 +136076,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125520,11 +136089,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 8
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -125542,6 +136113,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -125580,8 +136152,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 786
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 848
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW1_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -125590,23 +136162,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -125618,23 +136188,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -125643,24 +136213,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -125671,11 +136241,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125683,13 +136253,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsCoalescedA: 1
-    NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 8
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 8
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -125706,6 +136278,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -125744,33 +136317,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 787
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_8_1_WGM1
+    SolutionIndex: 849
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -125789,16 +136360,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -125811,35 +136382,35 @@
     LSCB: 16
     LSPA: 16
     LSPB: 16
-    LVCA: 4
-    LVCB: 4
-    LVPA: 4
-    LVPB: 4
+    LVCA: 16
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -125847,13 +136418,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 8
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -125870,6 +136443,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -125908,33 +136482,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 788
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG2_8_4_WGM1
+    SolutionIndex: 850
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 8
-    SubGroupA: 2
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [2, 8, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -125952,39 +136524,43 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetB: 1024
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -125997,9 +136573,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126007,12 +136583,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -126023,13 +136601,14 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -126068,8 +136647,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 789
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_GSU1_PGR0_SNLL0_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 851
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -126077,24 +136656,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -126106,23 +136683,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -126131,39 +136708,39 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126171,13 +136748,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -126194,6 +136773,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -126232,33 +136812,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 790
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x16x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG4_4_8_WGM1
+    SolutionIndex: 852
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [4, 4, 8]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -126270,7 +136848,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -126278,7 +136856,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -126286,48 +136864,48 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
-    LSPB: 8
-    LVCA: 2
-    LVCB: 4
-    LVPA: 8
-    LVPB: 4
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 64
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126335,13 +136913,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -126358,6 +136936,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -126396,31 +136975,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 791
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_2_4_WGM8
+    SolutionIndex: 853
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 2
-    SubGroupA: 8
-    SubGroupB: 2
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 2, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -126434,7 +137013,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -126442,41 +137021,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -126487,11 +137066,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126499,13 +137078,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -126522,6 +137101,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -126560,31 +137140,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 792
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_8_1_WGM8
+    SolutionIndex: 854
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -126598,64 +137178,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126663,13 +137243,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -126686,6 +137268,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -126724,33 +137307,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 793
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x16x32_SE_EPS1_GSU8_PGR1_SNLL0_TT4_4_VW4_WG4_4_8_WGM8
+    SolutionIndex: 855
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
-    SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: true
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -126769,16 +137350,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -126789,22 +137370,22 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -126817,9 +137398,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126827,12 +137408,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -126850,6 +137433,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -126888,8 +137472,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 794
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG16_16_1_WGM16
+    SolutionIndex: 856
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -126898,11 +137482,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -126910,11 +137494,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 16
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -126926,7 +137508,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -126934,15 +137516,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -126951,24 +137533,24 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 2
-    LVCB: 2
-    LVPA: 8
-    LVPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -126979,11 +137561,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -126991,13 +137573,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -127014,6 +137596,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -127052,31 +137635,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 795
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG8_8_1_WGM64
+    SolutionIndex: 857
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 8
-    SubGroupA: 8
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 8, 1]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -127098,15 +137681,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -127117,37 +137700,37 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 4
-    LVCB: 4
-    LVPA: 4
-    LVPB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127155,13 +137738,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 64
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -127178,6 +137761,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -127216,29 +137800,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 796
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG2_8_4_WGM64
+    SolutionIndex: 858
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 2
-    SubGroup1: 8
-    SubGroupA: 2
-    SubGroupB: 8
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
-    ThreadTile1: 4
-    ThreadTileA: 8
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [2, 8, 4]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -127261,8 +137845,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -127270,7 +137854,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -127282,36 +137866,36 @@
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 16
-    LVCA: 4
+    LSPB: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127319,13 +137903,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -127342,6 +137928,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -127380,15 +137967,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 797
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_GSU1_PGR1_SNLL1_TT8_4_VW4_WG4_4_8_WGM64
+    SolutionIndex: 859
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
     ThreadTile: [8, 4]
     ThreadTile0: 8
@@ -127396,17 +137983,15 @@
     ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 1
+    UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -127418,64 +138003,64 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 8
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 16
-    MacroTileA: 16
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127483,13 +138068,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -127506,6 +138093,7 @@
       Batched: true
       ComplexConjugateA: false
       ComplexConjugateB: false
+      ComputeDataType: 0
       DataType: 0
       DestDataType: 0
       HighPrecisionAccumulate: false
@@ -127544,20 +138132,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 798
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x16x32_SE_EPS1_GSU1_PGR1_SNLL1_TT4_4_VW4_WG4_4_8_WGM64
+    SolutionIndex: 860
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 4
-    SubGroupA: 4
-    SubGroupB: 4
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -127565,12 +138153,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [4, 4, 8]
-    WorkGroupMapping: 64
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -127590,41 +138176,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -127637,9 +138223,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127647,11 +138233,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -127709,8 +138295,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 799
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 861
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -127719,17 +138305,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -127755,41 +138341,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -127802,9 +138388,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127812,13 +138398,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -127876,8 +138462,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 800
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 862
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -127886,17 +138472,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -127919,42 +138505,42 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -127967,9 +138553,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -127977,13 +138563,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -128041,8 +138625,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 801
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 863
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -128051,21 +138635,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -128084,7 +138670,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -128097,7 +138683,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -128111,15 +138697,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -128131,9 +138717,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -128142,11 +138728,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -128204,8 +138792,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 802
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW2_WG16_16_1_WGM8
+    SolutionIndex: 864
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -128214,23 +138802,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 0
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -128262,7 +138848,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -128276,15 +138862,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -128296,9 +138882,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -128307,11 +138893,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
@@ -128369,8 +138955,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 803
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 865
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -128379,19 +138965,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -128413,8 +138999,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -128427,28 +139013,24 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -128461,10 +139043,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128472,15 +139054,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -128490,7 +139070,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -128536,31 +139116,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 804
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 866
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB0_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -128578,43 +139160,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -128626,10 +139204,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128637,15 +139215,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -128655,7 +139233,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -128701,28 +139279,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 805
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 867
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW1_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -128743,43 +139321,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -128791,10 +139365,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128802,13 +139376,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -128818,7 +139394,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -128864,33 +139440,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 806
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 868
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW1_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -128908,8 +139482,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -128922,7 +139496,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -128936,15 +139510,11 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -128956,10 +139526,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -128967,12 +139537,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -128983,7 +139555,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129029,8 +139601,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 807
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 869
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -129038,24 +139610,22 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -129073,8 +139643,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
+    ExpandPointerSwap: false
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -129087,7 +139657,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -129101,15 +139671,11 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -129121,10 +139687,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129132,14 +139698,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -129150,7 +139714,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129196,8 +139760,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 808
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 870
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -129205,22 +139769,24 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -129238,7 +139804,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -129252,29 +139818,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -129286,10 +139848,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129297,15 +139859,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -129315,7 +139877,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129361,29 +139923,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 809
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 871
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -129403,7 +139965,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -129417,29 +139979,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -129451,10 +140009,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129462,13 +140020,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -129478,7 +140036,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129524,29 +140082,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 810
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO0_VW4_WG16_16_1_WGM8
+    SolutionIndex: 872
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -129568,8 +140126,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -129582,29 +140140,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -129616,10 +140170,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129627,13 +140181,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -129643,7 +140199,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129689,33 +140245,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 811
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_SNLL1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 873
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
+    ThreadTile1: 2
+    ThreadTileA: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 1
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -129733,21 +140287,21 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -129756,20 +140310,16 @@
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -129781,10 +140331,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129792,15 +140342,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -129810,7 +140358,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -129856,31 +140404,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 812
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 874
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -129898,43 +140448,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 1088
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -129947,9 +140493,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -129957,14 +140503,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -129975,7 +140521,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -130021,8 +140567,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 813
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 875
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -130030,20 +140576,20 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -130063,43 +140609,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2128
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 1088
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -130112,9 +140654,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130122,12 +140664,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -130138,7 +140680,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -130184,8 +140726,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 814
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 876
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -130193,20 +140735,20 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 1
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -130228,21 +140770,21 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -130251,20 +140793,16 @@
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7232
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 4
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -130276,10 +140814,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130287,13 +140825,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -130303,7 +140843,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -130349,33 +140889,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 815
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA0_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 877
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -130393,7 +140931,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -130407,29 +140945,25 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7200
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
-    LdsPadA: 0
-    LdsPadB: 2
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -130441,10 +140975,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130452,13 +140986,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -130468,7 +141002,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -130514,29 +141048,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 816
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_LPA0_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 878
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -130558,43 +141092,39 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1104
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 576
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -130606,10 +141136,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130617,15 +141147,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 8
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -130635,7 +141165,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -130681,29 +141211,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 817
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW1_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 879
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG8_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 1
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -130717,49 +141247,45 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
     LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsPadA: 1
+    LdsPadB: 1
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -130770,11 +141296,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130782,15 +141308,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 8
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 8
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -130800,7 +141326,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -130846,31 +141372,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 818
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 880
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 1
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -130882,23 +141408,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -130907,22 +141433,18 @@
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 32
+    LVCA: 2
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 864
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
+    LdsOffsetB: 576
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -130935,11 +141457,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -130947,15 +141469,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 8
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -130965,8 +141485,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -131011,31 +141531,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 819
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 881
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -131053,21 +141575,21 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -131076,20 +141598,16 @@
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1664
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -131102,9 +141620,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131112,15 +141630,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 2
-    NumLoadsB: 4
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -131130,7 +141648,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -131176,28 +141694,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 820
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 882
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -131218,21 +141736,21 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -131241,20 +141759,16 @@
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1664
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -131267,9 +141781,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131277,15 +141791,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -131295,7 +141807,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -131341,31 +141853,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 821
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 883
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -131383,21 +141897,21 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -131406,20 +141920,16 @@
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1664
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 576
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -131431,10 +141941,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131442,13 +141952,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -131458,7 +141968,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -131504,28 +142014,28 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 822
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW2_WG16_16_1_WGM1
+    SolutionIndex: 884
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -131548,21 +142058,21 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -131571,20 +142081,16 @@
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVCA: 4
+    LVCB: 4
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 1664
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -131597,9 +142103,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131607,13 +142113,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
-    NumThreads: 256
+    NumLoadsPerpendicularB: 1
+    NumThreads: 128
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -131623,7 +142129,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -131669,29 +142175,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 823
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 885
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -131699,7 +142205,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -131714,42 +142220,43 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1536
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 1536
+    LdsOffsetB_Blk: 5632
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -131761,10 +142268,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -131772,14 +142279,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -131790,6 +142295,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -131836,8 +142342,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 824
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 886
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT6_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -131845,26 +142351,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 32
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -131896,6 +142404,7 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -131906,15 +142415,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -131926,9 +142435,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -131937,13 +142446,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 4
     NumThreads: 256
     PackBatchDims: 0
@@ -131955,6 +142464,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -132001,8 +142511,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 825
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 887
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -132010,11 +142520,11 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -132023,13 +142533,13 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -132044,16 +142554,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -132061,25 +142571,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -132091,9 +142602,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -132102,12 +142613,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -132118,8 +142631,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -132164,8 +142678,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 826
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 888
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -132173,28 +142687,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    SuppressNoLoadLoop: false
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -132210,7 +142722,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -132218,48 +142730,49 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 32
-    LVCA: 8
+    LVCA: 4
     LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -132267,12 +142780,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -132283,6 +142796,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -132329,29 +142843,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 827
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 889
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SubGroupB: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -132359,7 +142873,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -132374,16 +142888,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -132391,39 +142905,40 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 16
+    LSPB: 64
     LVCA: 8
-    LVCB: 8
-    LVPA: 16
+    LVCB: 4
+    LVPA: 8
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -132432,14 +142947,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     PackBatchDims: 0
     PackFreeDims: 1
@@ -132450,6 +142963,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -132496,35 +143010,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 828
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 890
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -132532,7 +143048,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -132556,25 +143072,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -132585,10 +143102,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -132597,15 +143114,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -132615,6 +143133,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -132661,8 +143180,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 829
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 891
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -132670,11 +143189,11 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -132685,11 +143204,11 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -132697,14 +143216,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -132721,23 +143240,24 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3168
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -132750,10 +143270,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -132762,13 +143282,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -132778,6 +143301,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -132824,8 +143348,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 830
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 892
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -132833,14 +143357,14 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
@@ -132848,13 +143372,11 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -132868,43 +143390,40 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2144
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 1088
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -132916,9 +143435,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -132927,15 +143446,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -132945,8 +143465,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -132991,8 +143512,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 831
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 893
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA2_LPB2_PGR0_PLR0_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -133000,26 +143521,26 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -133033,17 +143554,17 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -133051,23 +143572,20 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetB: 1088
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -133081,9 +143599,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -133092,13 +143610,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -133108,7 +143629,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -133154,8 +143676,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 832
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_SNLL1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 894
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -133163,11 +143685,11 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -133179,12 +143701,10 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -133199,7 +143719,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -133216,6 +143736,7 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -133226,15 +143747,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -133247,9 +143768,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -133257,15 +143778,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -133275,6 +143795,7 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
@@ -133321,8 +143842,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 833
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO0_VW4_WG16_16_1_WGM1
+    SolutionIndex: 895
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -133330,26 +143851,28 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
-    UseSgprForGRO: 0
+    UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -133363,7 +143886,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -133381,6 +143904,7 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
@@ -133391,13 +143915,9 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -133412,9 +143932,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -133422,13 +143942,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -133438,7 +143959,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -133484,8 +144006,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 834
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_LPA4_LPB4_PGR1_PLR1_SNLL1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 896
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -133493,12 +144015,12 @@
     SubGroup1: 16
     SubGroupA: 16
     SubGroupB: 16
-    SuppressNoLoadLoop: true
-    ThreadTile: [4, 8]
+    SuppressNoLoadLoop: false
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -133506,7 +144028,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -133514,7 +144036,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -133528,10 +144050,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -133542,39 +144064,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 32
     LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -133584,12 +144111,13 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -133599,7 +144127,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -133645,8 +144174,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 835
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB0_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 897
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -133655,19 +144184,19 @@
     SubGroupA: 16
     SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -133675,7 +144204,7 @@
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -133683,13 +144212,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
@@ -133707,35 +144236,40 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 8
     LSPB: 8
-    LVCA: 16
-    LVCB: 16
+    LVCA: 32
+    LVCB: 32
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -133744,15 +144278,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -133762,7 +144297,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -133808,35 +144344,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 836
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW1_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 898
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW1_LPA0_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -133844,23 +144380,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -133868,35 +144404,40 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
+    LoopUnroll: 8
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 32
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -133905,15 +144446,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -133923,7 +144465,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -133969,35 +144512,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 837
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW1_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 899
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -134005,23 +144548,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -134029,36 +144572,41 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2128
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134066,15 +144614,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -134084,7 +144633,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -134130,35 +144680,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 838
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 900
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_LPA2_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -134166,16 +144716,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -134190,36 +144740,41 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2128
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1088
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134227,13 +144782,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -134243,7 +144801,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -134289,37 +144848,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 839
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM1
+    SolutionIndex: 901
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -134333,17 +144890,17 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -134351,36 +144908,41 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LSPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 8
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134388,15 +144950,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -134406,7 +144967,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -134452,35 +145014,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 840
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 902
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x16_SE_EPS1_FL1_GRVW2_LPA0_LPB0_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -134494,10 +145058,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -134508,40 +145072,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 32
-    MacroTile1: 32
+    MacroTile1: 16
     MacroTileA: 32
-    MacroTileB: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134549,13 +145118,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -134565,7 +145137,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -134611,15 +145184,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 841
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 903
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [2, 4]
     ThreadTile0: 2
@@ -134631,17 +145204,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -134649,16 +145220,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -134669,25 +145240,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 4
+    LSCA: 8
+    LSCB: 8
+    LSPA: 96
+    LSPB: 64
+    LVCA: 2
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 24
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -134698,11 +145274,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134710,15 +145286,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -134728,7 +145303,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -134774,35 +145350,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 842
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG8_16_1_WGM1
+    SolutionIndex: 904
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT6_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -134810,15 +145388,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -134830,25 +145408,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 128
     LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -134859,11 +145442,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -134871,13 +145454,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -134887,8 +145473,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -134933,37 +145520,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 843
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG8_16_1_WGM1
+    SolutionIndex: 905
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -134971,15 +145556,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -134991,25 +145576,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 128
     LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2128
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -135020,11 +145610,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135032,8 +145622,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -135041,6 +145631,7 @@
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -135050,7 +145641,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -135096,8 +145688,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 844
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 906
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -135106,25 +145698,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -135132,16 +145724,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -135152,25 +145744,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2128
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -135181,10 +145778,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -135193,13 +145790,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -135209,8 +145809,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -135255,8 +145856,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 845
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW1_WG16_16_1_WGM8
+    SolutionIndex: 907
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -135265,27 +145866,25 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -135299,7 +145898,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -135313,25 +145912,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -135343,10 +145947,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135354,15 +145958,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -135372,7 +145977,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -135418,35 +146024,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 846
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 908
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -135454,13 +146060,13 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -135474,25 +146080,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -135503,11 +146114,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135515,13 +146126,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -135531,7 +146143,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -135577,37 +146190,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 847
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL1_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM8
+    SolutionIndex: 909
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -135621,7 +146234,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -135635,25 +146248,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1104
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -135665,10 +146283,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135676,15 +146294,16 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -135694,7 +146313,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -135740,35 +146360,35 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 848
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT4_2_USFGRO1_VW1_WG8_16_1_WGM8
+    SolutionIndex: 910
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [8, 16, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -135776,16 +146396,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -135796,25 +146416,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2144
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 1
-    LdsPadB: 1
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -135825,11 +146450,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135837,15 +146462,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -135855,7 +146479,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -135901,35 +146526,37 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 849
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS0_FL0_GRVW4_LPA1_LPB1_PGR0_PLR1_SNLL0_TT2_4_USFGRO1_VW1_WG16_8_1_WGM1
+    SolutionIndex: 911
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 1
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -135937,16 +146564,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -135961,25 +146588,30 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 32
-    LVCA: 2
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 864
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -135987,10 +146619,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -135998,13 +146630,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -136014,8 +146647,9 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -136060,15 +146694,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 850
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR0_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 912
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -136081,16 +146715,16 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -136104,39 +146738,44 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1664
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136149,25 +146788,28 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -136177,7 +146819,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -136207,6 +146850,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -136223,15 +146867,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 851
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 913
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -136243,15 +146887,15 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -136265,17 +146909,17 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -136283,21 +146927,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 32
     LSPB: 32
-    LVCA: 4
-    LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1664
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136310,23 +146959,28 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumLoadsPerpendicularB: 2
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -136336,7 +146990,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -136366,6 +147021,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -136382,15 +147038,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 852
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 914
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -136403,16 +147059,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -136426,8 +147080,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -136444,21 +147098,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1664
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 576
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136470,24 +147129,29 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -136497,7 +147161,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -136527,6 +147192,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -136543,14 +147209,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 853
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG8_16_1_WGM1
+    SolutionIndex: 915
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -136564,16 +147230,14 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
-    AssertMinApproxSize: 1
+    AssertMinApproxSize: 3
     AssertSummationElementMultiple: 1
     AssignedDerivedParameters: false
     AssignedProblemIndependentDerivedParameters: true
@@ -136587,8 +147251,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
+    ExpandPointerSwap: true
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -136605,21 +147269,26 @@
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
+    InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
+    LSPA: 64
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1664
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -136632,23 +147301,28 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
-    NumThreads: 128
+    NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -136658,7 +147332,8 @@
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
-    PrefetchGlobalRead: false
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -136688,6 +147363,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -136704,15 +147380,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 854
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_SNLL0_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 916
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -136725,12 +147401,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -136750,19 +147424,19 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -136770,20 +147444,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 1536
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1536
-    LdsOffsetB_Blk: 5632
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -136797,24 +147471,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 96
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -136855,6 +147532,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -136871,8 +147549,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 855
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT6_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 917
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -136881,22 +147559,22 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 32
+    fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
@@ -136916,20 +147594,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -136937,20 +147615,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -136964,26 +147642,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -137024,6 +147703,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -137040,8 +147720,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 856
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 918
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -137050,21 +147730,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -137083,7 +147765,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -137111,13 +147793,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -137131,26 +147813,27 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -137162,7 +147845,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -137191,6 +147874,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -137207,8 +147891,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 857
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 919
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -137217,11 +147901,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -137229,9 +147913,11 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -137249,10 +147935,10 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -137263,7 +147949,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -137272,50 +147958,49 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -137326,7 +148011,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -137356,6 +148041,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -137372,15 +148058,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 858
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_8_2_WGM8
+    SolutionIndex: 920
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_GSU1_PGR0_PLR1_TT4_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -137392,8 +148078,8 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -137417,20 +148103,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -137438,51 +148124,56 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 64
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
-    LVCB: 4
-    LVPA: 8
+    LVCB: 8
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 96
+    MacroTileA: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 2
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
+    OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
@@ -137523,6 +148214,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -137539,33 +148231,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 859
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG4_16_4_WGM8
+    SolutionIndex: 921
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x96x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_6_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -137577,7 +148267,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -137597,28 +148287,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 6656
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -137631,26 +148321,28 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 96
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 96
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
+    NumLoadsA: 2
+    NumLoadsB: 3
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 3
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -137693,6 +148385,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -137709,8 +148402,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 860
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 922
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x96x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_6_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -137719,21 +148412,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 6]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 6
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 6
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -137754,14 +148447,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -137774,21 +148467,21 @@
     LSCA: 8
     LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 128
     LVCA: 4
-    LVCB: 4
+    LVCB: 2
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3168
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -137801,18 +148494,20 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -137832,7 +148527,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -137861,6 +148556,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -137877,8 +148573,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 861
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 923
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -137887,11 +148583,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -137919,7 +148615,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -137933,7 +148629,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -137948,11 +148644,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2144
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -137965,24 +148665,26 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -137995,7 +148697,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
@@ -138025,6 +148727,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -138041,8 +148744,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 862
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA2_LPB2_PGR0_PLR0_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 924
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -138051,19 +148754,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -138083,7 +148786,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
@@ -138112,11 +148815,15 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2176
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -138129,24 +148836,26 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -138159,7 +148868,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -138189,6 +148898,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -138205,8 +148915,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 863
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 925
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -138215,11 +148925,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -138227,7 +148937,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -138248,7 +148958,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -138276,13 +148986,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -138297,22 +149007,26 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -138355,6 +149069,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -138371,8 +149086,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 864
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 926
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -138381,11 +149096,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -138396,8 +149111,6 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -138409,23 +149122,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -138435,20 +149148,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2176
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetB: 1088
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -138459,24 +149176,26 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -138489,7 +149208,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -138519,6 +149238,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -138535,8 +149255,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 865
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_LPA4_LPB4_PGR0_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 927
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -138545,11 +149265,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -138557,9 +149277,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -138582,7 +149302,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -138593,7 +149313,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -138602,49 +149322,51 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB_Blk: 5120
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -138687,6 +149409,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -138703,29 +149426,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 866
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM1
+    SolutionIndex: 928
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
-    VectorAtomicWidth: 1
-    VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -138741,54 +149464,54 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 128
+    LVCA: 4
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
-    LdsPadB: 2
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -138796,25 +149519,25 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -138828,7 +149551,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -138857,6 +149580,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -138873,31 +149597,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 867
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW1_LPA0_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    SolutionIndex: 929
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT4_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -138909,15 +149635,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -138929,60 +149655,60 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 320
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 320
-    LdsOffsetB_Blk: 2368
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -139025,6 +149751,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -139041,31 +149768,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 868
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG4_16_4_WGM1
+    SolutionIndex: 930
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -139077,80 +149806,80 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 5120
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -139193,6 +149922,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -139209,31 +149939,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 869
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_LPA2_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
+    SolutionIndex: 931
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -139245,7 +149977,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -139253,46 +149985,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 8
-    LVCA: 8
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -139300,24 +150032,26 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -139332,7 +150066,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -139361,6 +150095,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -139377,31 +150112,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 870
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM8
+    SolutionIndex: 932
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -139413,14 +150148,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -139433,57 +150168,61 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 8
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 4
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -139498,7 +150237,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -139527,6 +150266,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -139543,33 +150283,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 871
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x16_SE_EPS1_FL1_GRVW2_LPA0_LPB0_PGR1_PLR1_TT2_2_USFGRO1_VW2_WG16_4_4_WGM1
+    SolutionIndex: 933
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -139581,7 +150319,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -139589,8 +150327,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -139607,48 +150345,50 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -139668,7 +150408,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -139697,6 +150437,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -139713,20 +150454,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 872
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_4_4_WGM1
+    SolutionIndex: 934
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -139734,10 +150475,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -139756,7 +150497,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -139769,7 +150510,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -139777,20 +150518,20 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 96
+    LSPA: 128
     LSPB: 64
     LVCA: 2
     LVCB: 4
-    LVPA: 24
+    LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -139804,19 +150545,23 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 96
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 96
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -139834,7 +150579,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -139863,6 +150608,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -139879,8 +150625,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 873
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT6_4_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 935
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -139889,23 +150635,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 6
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -139917,7 +150661,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -139925,7 +150669,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -139943,22 +150687,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
-    LSPB: 128
+    LSPB: 64
     LVCA: 4
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 7168
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -139971,25 +150715,27 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -140004,7 +150750,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -140033,6 +150779,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -140049,8 +150796,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 874
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR0_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 936
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140059,11 +150806,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -140073,7 +150820,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -140092,16 +150839,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -140114,19 +150861,19 @@
     LSCA: 8
     LSCB: 8
     LSPA: 64
-    LSPB: 128
+    LSPB: 64
     LVCA: 4
-    LVCB: 2
+    LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -140140,24 +150887,24 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -140172,7 +150919,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -140201,6 +150948,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -140217,8 +150965,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 875
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 937
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140227,11 +150975,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -140242,6 +150990,8 @@
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -140260,8 +151010,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -140269,7 +151019,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -140281,9 +151031,9 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 128
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
     LVPA: 32
     LVPB: 32
@@ -140315,17 +151065,17 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -140369,6 +151119,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -140385,8 +151136,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 876
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 938
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140410,6 +151161,8 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -140421,23 +151174,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -140447,22 +151200,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -140475,26 +151228,26 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -140537,6 +151290,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -140553,8 +151307,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 877
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 939
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140563,11 +151317,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -140577,7 +151331,9 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -140598,7 +151354,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -140609,7 +151365,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -140618,15 +151374,15 @@
     LSCA: 8
     LSCB: 8
     LSPA: 128
-    LSPB: 128
+    LSPB: 64
     LVCA: 2
-    LVCB: 2
+    LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -140645,17 +151401,19 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -140674,7 +151432,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -140703,6 +151461,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -140719,8 +151478,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 878
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_LPA0_LPB0_PGR1_PLR1_TT8_8_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 940
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140729,17 +151488,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -140757,16 +151516,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -140777,24 +151536,24 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
+    LdsNumElements: 3584
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -140811,22 +151570,22 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 8
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -140844,7 +151603,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -140873,6 +151632,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -140889,8 +151649,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 879
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 941
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -140899,21 +151659,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -140987,7 +151749,9 @@
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
@@ -141010,7 +151774,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -141039,6 +151803,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -141055,8 +151820,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 880
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 942
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -141077,7 +151842,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -141093,7 +151858,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -141101,8 +151866,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -141119,28 +151884,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 8
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -141148,19 +151913,21 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
+    MaxVgprNumber: 256
     MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -141207,6 +151974,7 @@
       NumIndicesLD: 4
       NumIndicesSummation: 1
       OperationType: GEMM
+      SetConstStrideA: []
       SilentHighPrecisionAccumulate: false
       TLUA: false
       TLUB: false
@@ -141223,20 +151991,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 881
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG8_16_2_WGM1
+    SolutionIndex: 943
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -141244,10 +152012,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -141296,13 +152064,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -141316,10 +152084,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141329,14 +152097,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -141350,7 +152118,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -141396,8 +152164,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 882
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 944
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -141406,11 +152174,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -141452,7 +152220,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -141467,13 +152235,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -141487,10 +152255,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141500,14 +152268,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -141521,7 +152289,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -141567,8 +152335,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 883
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 945
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -141577,19 +152345,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -141611,15 +152379,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -141631,20 +152399,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -141658,10 +152426,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141671,14 +152439,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -141692,7 +152460,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -141738,8 +152506,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 884
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 946
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -141748,11 +152516,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -141782,15 +152550,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -141802,20 +152570,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -141829,10 +152597,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -141842,14 +152610,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -141909,8 +152677,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 885
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 947
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -141919,11 +152687,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -141931,7 +152699,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -141952,7 +152720,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -141980,13 +152748,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -142000,10 +152768,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142013,12 +152781,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -142078,8 +152848,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 886
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 948
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -142088,11 +152858,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -142100,11 +152870,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -142123,7 +152891,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -142151,13 +152919,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -142171,10 +152939,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142184,12 +152952,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -142249,8 +153019,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 887
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 949
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -142259,11 +153029,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -142271,11 +153041,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -142294,7 +153062,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -142322,13 +153090,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -142342,10 +153110,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142355,12 +153123,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -142420,8 +153190,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 888
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 950
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -142430,11 +153200,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -142445,8 +153215,6 @@
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -142464,21 +153232,21 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -142486,16 +153254,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -142509,10 +153281,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142522,12 +153294,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -142540,8 +153312,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -142587,8 +153359,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 889
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_GSU1_PGR0_PLR1_TT4_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 951
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -142597,19 +153369,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -142632,7 +153404,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -142660,13 +153432,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -142680,10 +153452,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142693,14 +153465,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 2
-    NumLoadsB: 3
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -142760,8 +153530,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 890
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x96x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_6_VW2_WG16_16_1_WGM1
+    SolutionIndex: 952
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -142770,11 +153540,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -142785,6 +153555,8 @@
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -142803,7 +153575,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -142816,7 +153588,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -142831,13 +153603,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6656
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1536
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -142851,10 +153623,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 96
-    MacroTileA: 64
-    MacroTileB: 96
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -142864,14 +153636,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
-    NumLoadsA: 2
-    NumLoadsB: 3
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 3
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -142885,7 +153655,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -142931,8 +153701,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 891
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x96x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT4_6_VW2_WG16_16_1_WGM8
+    SolutionIndex: 953
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -142941,21 +153711,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 6]
-    ThreadTile0: 4
-    ThreadTile1: 6
-    ThreadTileA: 4
-    ThreadTileB: 6
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -142967,23 +153739,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -142993,22 +153765,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 128
-    LVCA: 4
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -143021,10 +153793,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -143035,14 +153807,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -143056,7 +153826,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -143102,8 +153872,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 892
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 954
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -143112,10 +153882,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -143126,7 +153896,9 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -143145,16 +153917,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -143166,20 +153938,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -143193,9 +153965,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -143206,14 +153978,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -143227,7 +153997,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -143273,8 +154043,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 893
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT4_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 955
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -143283,10 +154053,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -143298,6 +154068,8 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -143316,7 +154088,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -143329,7 +154101,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -143344,13 +154116,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -143364,9 +154136,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -143377,13 +154149,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 32
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -143398,7 +154168,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -143444,8 +154214,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 894
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 956
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -143454,21 +154224,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -143487,7 +154259,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -143515,13 +154287,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -143535,9 +154307,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -143548,13 +154320,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -143569,7 +154339,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -143615,8 +154385,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 895
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 957
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -143625,10 +154395,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -143640,6 +154410,8 @@
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -143651,7 +154423,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -143659,15 +154431,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -143677,22 +154449,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -143705,10 +154477,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -143719,11 +154491,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -143784,8 +154556,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 896
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 958
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -143794,10 +154566,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -143808,7 +154580,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -143842,7 +154614,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -143857,13 +154629,13 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 8192
+    LdsNumElementsAlignedA: 2048
     LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB: 2048
+    LdsOffsetB_Blk: 6144
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -143877,9 +154649,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
+    MacroTile0: 128
     MacroTile1: 128
-    MacroTileA: 64
+    MacroTileA: 128
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -143890,11 +154662,11 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 64
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -143955,8 +154727,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 897
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW2_WG16_16_1_WGM8
+    SolutionIndex: 959
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -143965,17 +154737,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
     ThreadTile1: 8
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -143993,14 +154765,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -144019,16 +154791,16 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 128
-    LVCA: 4
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
@@ -144040,7 +154812,7 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -144048,10 +154820,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -144061,8 +154833,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -144080,7 +154854,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -144126,33 +154900,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 898
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT4_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 960
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -144171,8 +154943,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -144192,37 +154964,37 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
+    LSPA: 32
     LSPB: 64
-    LVCA: 4
+    LVCA: 8
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -144232,12 +155004,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -144297,33 +155071,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 899
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 961
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -144342,9 +155114,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -144355,7 +155127,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -144364,36 +155136,36 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 5120
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 128
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 128
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -144403,12 +155175,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -144468,33 +155242,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 900
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT4_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 962
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -144541,13 +155313,13 @@
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -144561,9 +155333,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -144574,13 +155346,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -144631,6 +155403,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -144641,8 +155414,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 901
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 963
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR0_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -144651,10 +155424,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -144663,7 +155436,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -144712,13 +155485,13 @@
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -144732,9 +155505,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -144745,13 +155518,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -144766,7 +155539,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -144802,6 +155575,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -144812,8 +155586,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 902
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 964
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -144822,10 +155596,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -144834,7 +155608,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -144856,7 +155630,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -144864,11 +155638,11 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -144876,20 +155650,20 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 128
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -144903,9 +155677,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -144916,8 +155690,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -144937,7 +155711,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -144973,6 +155747,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -144983,8 +155758,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 903
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 965
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -144993,17 +155768,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
@@ -145027,7 +155802,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -145047,20 +155822,20 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 128
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -145074,9 +155849,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145087,8 +155862,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -145108,7 +155883,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -145144,6 +155919,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -145154,8 +155930,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 904
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 966
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -145164,10 +155940,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -145176,7 +155952,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -145190,7 +155966,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -145198,8 +155974,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -145216,22 +155992,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -145244,10 +156020,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145258,13 +156034,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -145315,6 +156091,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -145325,8 +156102,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 905
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 967
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -145335,10 +156112,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -145347,9 +156124,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -145361,23 +156138,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -145387,22 +156164,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -145415,10 +156188,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145429,11 +156202,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -145447,8 +156222,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -145484,6 +156259,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -145494,8 +156270,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 906
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 968
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_GSU1_LPA0_LPB0_PGR0_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -145504,10 +156280,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -145518,9 +156294,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -145532,23 +156306,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -145558,18 +156332,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -145586,10 +156360,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145600,11 +156374,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -145619,7 +156395,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -145655,6 +156431,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -145665,8 +156442,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 907
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 969
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -145675,10 +156452,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -145687,11 +156464,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -145703,23 +156478,23 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -145729,18 +156504,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -145757,10 +156532,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145771,11 +156546,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -145826,6 +156603,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -145836,8 +156614,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 908
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 970
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -145846,10 +156624,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -145858,11 +156636,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -145882,7 +156658,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -145890,11 +156666,11 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -145902,20 +156678,20 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 128
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -145929,9 +156705,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -145942,8 +156718,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -145997,6 +156773,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -146007,8 +156784,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 909
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW2_WG16_16_1_WGM1
+    SolutionIndex: 971
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR0_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -146017,17 +156794,17 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
@@ -146053,7 +156830,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -146061,11 +156838,11 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -146073,20 +156850,20 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 128
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -146100,9 +156877,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -146113,8 +156890,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -146132,7 +156909,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -146168,6 +156945,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -146178,8 +156956,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 910
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW2_WG16_16_1_WGM8
+    SolutionIndex: 972
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -146188,19 +156966,19 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -146222,9 +157000,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -146232,7 +157010,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -146244,20 +157022,16 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 128
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 512
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -146271,9 +157045,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 128
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -146284,8 +157058,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -146302,8 +157076,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -146339,6 +157113,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -146349,8 +157124,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 911
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_4_VW4_WG16_16_1_WGM8
+    SolutionIndex: 973
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS0_FL1_GRVW2_GSU1_LPA0_LPB0_PGR0_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -146359,10 +157134,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -146387,7 +157162,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -146396,7 +157171,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -146413,18 +157188,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
     LSPB: 64
-    LVCA: 2
+    LVCA: 4
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -146441,10 +157216,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -146455,8 +157230,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -146474,7 +157249,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -146510,6 +157285,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -146520,8 +157296,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 912
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_4_VW4_WG16_16_1_WGM1
+    SolutionIndex: 974
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR0_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -146530,10 +157306,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -146544,7 +157320,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -146558,14 +157334,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -146574,32 +157350,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -146612,11 +157388,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -146626,14 +157402,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -146647,7 +157421,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -146683,6 +157457,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -146693,8 +157468,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 913
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 975
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -146703,21 +157478,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -146729,14 +157506,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -146745,32 +157522,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -146783,11 +157560,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -146797,14 +157574,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -146818,7 +157593,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -146854,6 +157629,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -146864,8 +157640,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 914
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM8
+    SolutionIndex: 976
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -146874,21 +157650,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -146906,17 +157684,17 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -146928,20 +157706,16 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -146955,10 +157729,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -146968,14 +157742,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -146988,8 +157760,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -147025,6 +157797,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -147035,8 +157808,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 915
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 977
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_GSU1_LPA0_LPB0_PGR0_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147045,11 +157818,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -147057,9 +157830,11 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -147071,15 +157846,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -147087,32 +157862,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 96
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 24
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -147125,11 +157900,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -147139,14 +157914,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -147196,6 +157969,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -147206,8 +157980,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 916
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 978
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT6_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147216,21 +157990,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -147242,15 +158018,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -147258,32 +158034,32 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 96
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 24
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3328
+    LdsNumElementsAlignedA: 768
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 768
+    LdsOffsetB_Blk: 2816
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -147296,11 +158072,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 8
+    MacroTile0: 96
+    MacroTile1: 64
+    MacroTileA: 96
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -147310,14 +158086,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumElementsPerThread: 24
+    NumGlobalWriteVectorsPerThread: 12
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -147367,6 +158141,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -147377,8 +158152,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 917
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 979
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT6_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147387,21 +158162,23 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [6, 4]
+    ThreadTile0: 6
+    ThreadTile1: 4
+    ThreadTileA: 6
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -147413,7 +158190,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -147421,40 +158198,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -147467,10 +158244,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -147481,13 +158258,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
-    NumLoadsA: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -147538,6 +158315,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -147548,8 +158326,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 918
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 980
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147558,21 +158336,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -147584,7 +158362,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -147592,7 +158370,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -147604,28 +158382,28 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 128
     LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -147638,10 +158416,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -147652,14 +158430,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
+    NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -147709,6 +158487,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -147719,8 +158498,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 919
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 981
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147729,21 +158508,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -147755,48 +158534,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 128
+    LVCA: 4
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -147809,10 +158588,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -147823,12 +158602,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -147842,7 +158623,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -147878,6 +158659,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -147888,8 +158670,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 920
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 982
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -147898,23 +158680,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -147926,48 +158706,48 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 128
+    LVCA: 4
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -147980,10 +158760,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -147994,12 +158774,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -148049,6 +158831,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -148059,8 +158842,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 921
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 983
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148069,23 +158852,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -148097,7 +158878,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -148123,22 +158904,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -148151,10 +158932,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
+    LoopUnroll: 8
+    MacroTile0: 64
     MacroTile1: 128
-    MacroTileA: 128
+    MacroTileA: 64
     MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -148165,12 +158946,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -148184,7 +158965,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -148220,6 +159001,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -148230,8 +159012,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 922
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 984
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148240,10 +159022,10 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
     ThreadTile1: 8
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -148252,9 +159034,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -148268,15 +159050,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -148284,7 +159066,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -148294,22 +159076,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -148322,11 +159104,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148336,12 +159118,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -148355,7 +159139,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -148391,6 +159175,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -148401,8 +159186,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 923
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 985
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR0_TT8_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148411,11 +159196,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -148423,11 +159208,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -148439,15 +159222,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -148455,7 +159238,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -148465,22 +159248,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 64
+    LVCA: 2
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -148493,11 +159276,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148507,12 +159290,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -148562,6 +159347,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -148572,8 +159358,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 924
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW2_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 986
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148582,11 +159368,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -148594,11 +159380,9 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -148610,7 +159394,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -148618,40 +159402,40 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 3584
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -148664,11 +159448,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148678,12 +159462,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 32
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -148697,7 +159481,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -148733,6 +159517,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -148743,8 +159528,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 925
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_8_VW2_WG16_16_1_WGM1
+    SolutionIndex: 987
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148753,21 +159538,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -148781,16 +159566,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -148807,22 +159592,18 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
     LSPB: 64
-    LVCA: 4
+    LVCA: 2
     LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 1536
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetB: 1024
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -148835,11 +159616,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -148849,12 +159630,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -148867,8 +159648,8 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -148904,6 +159685,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -148914,8 +159696,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 926
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR0_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 988
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS0_FL1_GRVW4_GSU1_LPA0_LPB0_PGR0_PLR1_TT8_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -148924,11 +159706,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -148938,7 +159720,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -148987,9 +159769,9 @@
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 8192
+    LdsNumElements: 7168
     LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2048
@@ -149008,9 +159790,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 128
-    MacroTile1: 128
+    MacroTile1: 64
     MacroTileA: 128
-    MacroTileB: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -149020,12 +159802,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -149075,6 +159857,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -149085,8 +159868,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 927
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM1
+    SolutionIndex: 989
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -149095,11 +159878,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
+    ThreadTile: [8, 4]
     ThreadTile0: 8
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -149123,7 +159906,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -149149,22 +159932,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 8192
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 2048
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -149177,7 +159960,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 8
     MacroTile0: 128
     MacroTile1: 128
     MacroTileA: 128
@@ -149195,8 +159978,8 @@
     NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -149210,7 +159993,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -149246,6 +160029,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -149256,8 +160040,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 928
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x16_SE_EPS1_FL1_GRVW4_GSU1_PGR1_PLR1_TT8_8_VW4_WG16_16_1_WGM8
+    SolutionIndex: 990
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR0_TT8_8_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -149280,7 +160064,7 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -149294,15 +160078,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -149320,28 +160104,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 64
-    LVCA: 8
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 128
+    LSPB: 128
+    LVCA: 2
+    LVCB: 2
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -149349,10 +160133,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 128
+    MacroTile1: 128
+    MacroTileA: 128
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -149362,10 +160146,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 64
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -149419,6 +160201,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -149429,31 +160212,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 929
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG8_16_2_WGM1
+    SolutionIndex: 991
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_8_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [8, 8]
+    ThreadTile0: 8
+    ThreadTile1: 8
+    ThreadTileA: 8
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -149472,8 +160257,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -149482,10 +160267,10 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -149493,36 +160278,36 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 64
-    LVCA: 8
+    LVCA: 4
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -149533,10 +160318,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -149590,6 +160373,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -149600,14 +160384,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 930
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW4_WG8_16_2_WGM8
+    SolutionIndex: 992
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -149620,11 +160404,13 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -149636,7 +160422,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -149644,15 +160430,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -149662,22 +160448,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
     LSPB: 32
-    LVCA: 4
+    LVCA: 8
     LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -149690,10 +160476,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -149704,8 +160490,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -149761,6 +160547,7 @@
       Tensor0: 0
       Tensor1: 1
       TileA: 0
+      TileAwareSelection: false
       TileB: 1
       TotalIndices: 4
       TransposeA: true
@@ -149771,31 +160558,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 931
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU1_PGR1_PLR1_TT4_4_VW2_WG16_8_2_WGM8
+    SolutionIndex: 993
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_2_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -149815,7 +160602,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -149835,36 +160622,36 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 64
+    LSPA: 32
     LSPB: 64
-    LVCA: 4
+    LVCA: 8
     LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -149875,8 +160662,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -149896,7 +160683,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -149943,14 +160730,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 932
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR0_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 994
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -149964,8 +160751,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
   - AggressivePerfMode: 1
@@ -149987,7 +160774,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -149995,7 +160782,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -150007,36 +160794,36 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 64
+    LSPA: 32
     LSPB: 64
-    LVCA: 4
+    LVCA: 8
     LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -150047,8 +160834,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -150115,14 +160902,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 933
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 995
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -150136,7 +160923,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
@@ -150151,7 +160938,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -150160,14 +160947,14 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -150177,28 +160964,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
     LSPB: 64
-    LVCA: 4
+    LVCA: 8
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
+    LdsOffsetA_Blk: 2048
     LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB_Blk: 2560
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -150206,9 +160993,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -150219,8 +161006,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -150287,14 +161074,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 934
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 996
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -150308,10 +161095,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [8, 16, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150330,7 +161117,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -150339,7 +161126,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -150351,36 +161138,36 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 64
+    LSPA: 32
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 32
+    LVPA: 16
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -150391,10 +161178,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -150459,14 +161244,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 935
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 997
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -150480,10 +161265,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150502,7 +161289,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -150511,7 +161298,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -150523,36 +161310,36 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 64
+    LSPA: 32
     LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 32
+    LVPA: 16
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -150563,10 +161350,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -150631,14 +161416,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 936
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 998
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -150652,10 +161437,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [8, 16, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150667,61 +161454,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150731,8 +161522,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -150751,7 +161542,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -150799,31 +161590,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 937
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL0_GRVW4_GSU1_LPA0_LPB0_PGR0_PLR1_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 999
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_FL0_GRVW1_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -150835,7 +161626,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -150843,15 +161634,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -150861,39 +161652,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -150903,8 +161694,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -150971,15 +161762,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 938
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 1000
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -150992,10 +161783,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -151007,7 +161798,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -151015,15 +161806,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -151033,39 +161824,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151075,8 +161866,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -151143,15 +161934,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 939
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 1001
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -151164,10 +161955,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -151179,15 +161970,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -151195,38 +161986,38 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -151235,9 +162026,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151247,8 +162038,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -151266,7 +162059,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -151313,15 +162106,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 940
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR0_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 1002
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -151333,13 +162126,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -151358,16 +162149,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -151380,15 +162171,15 @@
     LSCA: 8
     LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
+    LVCB: 8
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 4096
     LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
@@ -151398,18 +162189,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151419,8 +162210,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -151485,15 +162278,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 941
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 1003
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -151506,12 +162299,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -151529,7 +162320,7 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
@@ -151552,32 +162343,36 @@
     LSCA: 8
     LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
     LVCB: 4
     LVPA: 32
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1024
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
+    LdsOffsetA_Blk: 1024
     LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151587,8 +162382,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -151605,7 +162400,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -151653,15 +162448,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 942
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS0_FL1_GRVW2_GSU1_LPA0_LPB0_PGR0_PLR1_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 1004
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -151674,8 +162469,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -151691,7 +162486,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -151699,15 +162494,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -151717,39 +162512,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 8
+    LSCB: 8
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
     LVCB: 4
-    LVPA: 16
+    LVPA: 32
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151759,8 +162554,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -151778,7 +162573,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -151825,15 +162620,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 943
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR0_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 1005
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -151846,10 +162641,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -151863,7 +162658,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -151871,7 +162666,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -151880,37 +162675,37 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -151919,9 +162714,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -151931,7 +162726,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
@@ -151997,15 +162792,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 944
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 1006
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -152017,11 +162812,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -152035,7 +162830,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -152043,7 +162838,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -152061,28 +162856,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 32
     LVCA: 4
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -152091,9 +162886,9 @@
     LoopTail: true
     LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152103,8 +162898,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -152169,15 +162964,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 945
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 1007
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -152190,10 +162985,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 2]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -152213,21 +163008,21 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
+    ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -152235,33 +163030,37 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 128
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 1152
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 64
-    MacroTileA: 64
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152271,8 +163070,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -152289,7 +163088,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -152337,29 +163136,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 946
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS0_FL1_GRVW4_GSU1_LPA0_LPB0_PGR0_PLR1_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 1008
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x16_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -152375,7 +163174,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -152383,7 +163182,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -152395,45 +163194,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 96
-    LSPB: 64
-    LVCA: 2
-    LVCB: 4
-    LVPA: 24
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 128
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 1152
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152443,8 +163242,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -152509,31 +163308,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 947
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT6_4_WG16_16_1_WGM1
+    SolutionIndex: 1009
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -152547,7 +163346,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -152555,7 +163354,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -152567,45 +163366,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 96
-    LSPB: 64
-    LVCA: 2
-    LVCB: 4
-    LVPA: 24
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3328
-    LdsNumElementsAlignedA: 768
+    LdsNumElements: 1664
+    LdsNumElementsAlignedA: 128
     LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 768
-    LdsOffsetB_Blk: 2816
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 1152
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 96
-    MacroTile1: 64
-    MacroTileA: 96
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152615,8 +163414,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 24
-    NumGlobalWriteVectorsPerThread: 12
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -152681,31 +163480,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 948
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT96x64x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT6_4_WG16_16_1_WGM8
+    SolutionIndex: 1010
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [6, 4]
-    ThreadTile0: 6
-    ThreadTile1: 4
-    ThreadTileA: 6
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -152719,7 +163518,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -152727,7 +163526,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -152739,45 +163538,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152787,14 +163586,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
-    NumLoadsB: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -152855,31 +163654,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 949
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
+    SolutionIndex: 1011
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -152891,7 +163690,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -152899,8 +163698,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -152917,39 +163716,39 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 128
-    LVCA: 4
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 32
+    LVCA: 16
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 1280
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 32
+    MacroTileA: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -152959,8 +163758,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -153027,31 +163826,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 950
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
+    SolutionIndex: 1012
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153063,14 +163862,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -153083,45 +163882,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 128
-    LVCA: 4
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 8
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 4
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 3200
+    LdsNumElementsAlignedA: 128
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 128
+    LdsOffsetB_Blk: 2176
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 8
+    MacroTile1: 64
+    MacroTileA: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -153131,10 +163930,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -153199,31 +163996,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 951
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
+    SolutionIndex: 1013
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153235,7 +164034,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -153243,7 +164042,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -153255,45 +164054,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 128
-    LVCA: 4
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -153303,8 +164102,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -153371,31 +164170,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 952
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM8
+    SolutionIndex: 1014
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153407,65 +164206,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 4
+    LVCA: 16
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
     LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -153475,12 +164274,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -153541,33 +164342,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 953
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
+    SolutionIndex: 1015
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 8
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153579,7 +164378,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -153587,8 +164386,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -153605,38 +164404,38 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 2
+    LVCA: 16
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -153647,8 +164446,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -153668,7 +164467,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -153715,20 +164514,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 954
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR0_TT8_4_WG16_16_1_WGM8
+    SolutionIndex: 1016
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -153736,10 +164535,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153751,7 +164550,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -153759,8 +164558,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -153777,38 +164576,38 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 2
+    LVCA: 16
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -153819,8 +164618,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -153887,20 +164686,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 955
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_4_WG16_16_1_WGM1
+    SolutionIndex: 1017
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -153908,10 +164707,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -153923,24 +164722,24 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
@@ -153949,38 +164748,38 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
     LSPB: 64
-    LVCA: 4
+    LVCA: 16
     LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3584
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -153991,11 +164790,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -154057,20 +164858,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 956
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_4_WG16_16_1_WGM1
+    SolutionIndex: 1018
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -154078,12 +164879,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -154095,61 +164894,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: true
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 64
-    LVCA: 2
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 1536
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetB: 1024
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154159,8 +164962,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -154177,7 +164982,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -154225,33 +165030,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 957
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS0_FL1_GRVW4_GSU1_LPA0_LPB0_PGR0_PLR1_TT8_4_WG16_16_1_WGM8
+    SolutionIndex: 1019
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -154270,20 +165073,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -154291,37 +165094,37 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 7168
-    LdsNumElementsAlignedA: 2048
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2048
-    LdsOffsetB_Blk: 6144
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154331,11 +165134,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -154397,33 +165202,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 958
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_4_WG16_16_1_WGM1
+    SolutionIndex: 1020
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -154435,16 +165238,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -154455,45 +165258,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 128
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154503,8 +165306,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -154522,7 +165327,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -154569,33 +165374,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 959
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR0_TT8_8_WG16_16_1_WGM8
+    SolutionIndex: 1021
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -154607,7 +165410,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -154615,8 +165418,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -154627,45 +165430,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 128
-    LSPB: 128
-    LVCA: 2
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 2048
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetA_Blk: 1024
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 128
-    MacroTile1: 128
-    MacroTileA: 128
-    MacroTileB: 128
+    LoopUnroll: 4
+    MacroTile0: 32
+    MacroTile1: 16
+    MacroTileA: 32
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154675,8 +165478,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 64
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -154741,31 +165544,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 960
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x128x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT8_8_WG16_16_1_WGM8
+    SolutionIndex: 1022
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 8]
-    ThreadTile0: 8
-    ThreadTile1: 8
-    ThreadTileA: 8
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -154786,9 +165589,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -154796,7 +165599,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -154808,15 +165611,15 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 64
+    LSPB: 16
     LVCA: 4
-    LVCB: 4
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -154826,18 +165629,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 4
     MacroTile0: 64
-    MacroTile1: 64
+    MacroTile1: 16
     MacroTileA: 64
-    MacroTileB: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -154847,8 +165650,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 8
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 2
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -154913,15 +165718,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 961
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_16_1_WGM8
+    SolutionIndex: 1023
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 4
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -154934,12 +165739,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -154951,7 +165754,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -154959,7 +165762,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -154967,7 +165770,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -154977,28 +165780,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 1024
     LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -155006,10 +165809,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155087,31 +165890,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 962
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_2_WG8_16_2_WGM8
+    SolutionIndex: 1024
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
+    ThreadTile: [4, 4]
     ThreadTile0: 4
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155123,7 +165926,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -155131,46 +165934,46 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 64
-    LVCA: 8
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -155178,10 +165981,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155191,7 +165994,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
@@ -155259,15 +166062,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 963
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
+    SolutionIndex: 1025
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -155279,11 +166082,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155295,7 +166098,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -155303,8 +166106,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -155321,28 +166124,28 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 32
-    LSPB: 64
-    LVCA: 8
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -155350,10 +166153,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155363,8 +166166,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -155431,15 +166234,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 964
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
+    SolutionIndex: 1026
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -155452,10 +166255,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155475,8 +166278,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -155495,37 +166298,37 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 64
-    LVCA: 8
-    LVCB: 4
+    LSPA: 64
+    LSPB: 16
+    LVCA: 4
+    LVCB: 16
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 1024
+    LdsNumElementsAlignedA: 1024
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 2560
+    LdsOffsetB: 1024
+    LdsOffsetB_Blk: 3072
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 4
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155535,8 +166338,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -155603,15 +166406,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 965
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
+    SolutionIndex: 1027
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -155624,8 +166427,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -155655,7 +166458,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -155667,37 +166470,37 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 32
-    LSPB: 64
+    LSPA: 64
+    LSPB: 16
     LVCA: 4
     LVCB: 4
-    LVPA: 16
-    LVPB: 32
+    LVPA: 32
+    LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElementsAlignedA: 512
+    LdsNumElementsAlignedB: 128
     LdsOffsetA: 0
     LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
+    LdsOffsetB: 512
+    LdsOffsetB_Blk: 1536
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    LoopUnroll: 2
+    MacroTile0: 64
+    MacroTile1: 16
+    MacroTileA: 64
+    MacroTileB: 16
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -155707,8 +166510,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -155773,15 +166576,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 966
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM1
+    SolutionIndex: 1028
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
-    SubGroup1: 16
-    SubGroupA: 8
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -155794,8 +166597,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
@@ -155811,14 +166614,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -155837,38 +166640,38 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 16
-    LVPB: 32
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
+    LoopUnroll: 16
+    MacroTile0: 64
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 64
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -155879,12 +166682,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -155945,14 +166750,14 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 967
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG8_16_2_WGM8
+    SolutionIndex: 1029
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW2_GSU1_LPA4_LPB4_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 8
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 8
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -155966,12 +166771,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [8, 16, 2]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -155990,20 +166793,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -156011,37 +166814,37 @@
     KernelLanguage: Assembly
     LSCA: 8
     LSCB: 8
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
     LVPA: 32
     LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3168
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 512
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 768
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 8
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156051,10 +166854,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -156072,7 +166873,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -156119,31 +166920,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 968
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x8_SE_EPS1_FL0_GRVW1_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_8_2_WGM1
+    SolutionIndex: 1030
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA4_LPB4_PGR1_PLR0_TT4_4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156155,61 +166958,61 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
     LSPB: 32
-    LVCA: 4
+    LVCA: 8
     LVCB: 8
-    LVPA: 32
-    LVPB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 32
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -156224,12 +167027,10 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -156291,31 +167092,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 969
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
+    SolutionIndex: 1031
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT4_2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156327,7 +167130,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -156336,56 +167139,56 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156396,7 +167199,7 @@
     NonTemporalB: 0
     NonTemporalC: 0
     NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -156463,31 +167266,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 970
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM8
+    SolutionIndex: 1032
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156506,9 +167309,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -156516,7 +167319,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -156527,37 +167330,37 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156569,8 +167372,6 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -156635,20 +167436,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 971
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM8
+    SolutionIndex: 1033
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -156656,10 +167457,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156671,7 +167474,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -156679,8 +167482,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -156691,45 +167494,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
-    LVPA: 32
-    LVPB: 32
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156739,14 +167542,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -156807,31 +167610,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 972
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
+    SolutionIndex: 1034
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -156850,16 +167653,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -156872,36 +167675,36 @@
     LSCA: 8
     LSCB: 8
     LSPA: 64
-    LSPB: 32
+    LSPB: 128
     LVCA: 4
-    LVCB: 4
+    LVCB: 2
     LVPA: 32
-    LVPB: 16
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 4
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 128
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -156911,8 +167714,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -156977,33 +167782,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 973
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
+    SolutionIndex: 1035
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA4_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 8]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 8
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -157015,65 +167818,65 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
     LVCB: 4
-    LVPA: 32
+    LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -157083,11 +167886,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -157149,33 +167954,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 974
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x8_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM8
+    SolutionIndex: 1036
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT8_4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -157194,20 +167997,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -157215,33 +168018,33 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -157255,13 +168058,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -157321,8 +168126,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 975
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
+    SolutionIndex: 1037
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_GSU1_LPA4_LPB4_PGR1_PLR1_TT4_4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -157341,13 +168146,11 @@
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -157366,16 +168169,16 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -157387,33 +168190,33 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 32
-    LVCA: 4
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 16
     MacroTile0: 64
     MacroTile1: 32
     MacroTileA: 64
@@ -157427,13 +168230,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -157493,8 +168298,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 976
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_8_2_WGM1
+    SolutionIndex: 1038
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_GSU1_LPA4_LPB4_PGR1_PLR1_TT4_4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -157514,12 +168319,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 2]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -157538,20 +168341,20 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -157560,35 +168363,35 @@
     LSCA: 16
     LSCB: 16
     LSPA: 8
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3168
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 1152
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 8
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -157599,13 +168402,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -157665,33 +168470,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 977
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x16_SE_EPS1_FL1_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
+    SolutionIndex: 1039
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS1_FL0_GRVW1_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -157703,16 +168506,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -157723,44 +168526,44 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
-    LSPB: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 8
     LVCB: 8
     LVPA: 4
-    LVPB: 16
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 1152
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 8
+    LoopUnroll: 32
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 8
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -157771,13 +168574,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -157837,33 +168642,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 978
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
+    SolutionIndex: 1040
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 8, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -157875,15 +168678,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -157891,7 +168694,7 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -157901,24 +168704,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 8
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 4
-    LVPB: 16
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 1664
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 1152
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -157929,7 +168732,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 8
     MacroTile1: 32
     MacroTileA: 8
@@ -157945,10 +168748,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -158009,8 +168814,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 979
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
+    SolutionIndex: 1041
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -158033,9 +168838,7 @@
     WorkGroup: [4, 16, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -158047,7 +168850,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -158067,30 +168870,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -158101,10 +168904,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -158115,14 +168918,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -158183,8 +168986,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 980
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_2_WG4_16_4_WGM1
+    SolutionIndex: 1042
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -158193,10 +168996,10 @@
     SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -158205,9 +169008,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -158219,7 +169022,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -158235,34 +169038,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 32
-    LVCA: 16
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 16
+    LVCA: 32
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 1280
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -158273,10 +169076,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 8
+    MacroTile0: 8
     MacroTile1: 32
-    MacroTileA: 16
+    MacroTileA: 8
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -158287,14 +169090,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -158355,8 +169158,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 981
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_2_WG4_16_4_WGM1
+    SolutionIndex: 1043
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -158365,10 +169168,10 @@
     SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
     ThreadTile1: 2
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -158379,7 +169182,7 @@
     WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -158391,15 +169194,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -158411,30 +169214,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 8
-    LSPB: 64
-    LVCA: 8
-    LVCB: 4
-    LVPA: 4
-    LVPB: 16
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3200
-    LdsNumElementsAlignedA: 128
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 128
-    LdsOffsetB_Blk: 2176
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -158445,11 +169248,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 8
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 8
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158459,8 +169262,10 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -158525,8 +169330,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 982
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG4_16_4_WGM1
+    SolutionIndex: 1044
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -158535,11 +169340,11 @@
     SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -158549,9 +169354,7 @@
     WorkGroup: [4, 16, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -158563,7 +169366,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -158583,30 +169386,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 320
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 320
+    LdsOffsetB_Blk: 2368
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -158617,11 +169420,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158631,8 +169434,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 1
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -158699,8 +169502,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 983
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM1
+    SolutionIndex: 1045
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -158709,11 +169512,11 @@
     SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -158721,9 +169524,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -158735,7 +169538,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -158743,16 +169546,16 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -158761,24 +169564,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 64
+    LSPB: 16
     LVCA: 16
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -158789,11 +169592,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 16
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 16
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158803,14 +169606,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 2
+    NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -158824,7 +169627,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -158871,8 +169674,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 984
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM8
+    SolutionIndex: 1046
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR0_TT4_2_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -158881,11 +169684,11 @@
     SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -158893,9 +169696,9 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -158907,7 +169710,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -158916,41 +169719,41 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 16
-    LSPB: 64
-    LVCA: 16
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -158961,11 +169764,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -158975,13 +169778,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -159043,31 +169846,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 985
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM1
+    SolutionIndex: 1047
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW1_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -159079,7 +169882,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -159087,41 +169890,41 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 64
+    LSPB: 8
     LVCA: 16
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 256
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
     LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
@@ -159133,11 +169936,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159147,13 +169950,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -159215,31 +170018,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 986
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM8
+    SolutionIndex: 1048
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPA2_LPB0_PGR1_PLR1_TT2_2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -159251,7 +170054,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -159259,42 +170062,42 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 16
-    LSPB: 64
+    LSPB: 8
     LVCA: 16
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159305,11 +170108,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 8
+    MacroTileA: 32
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159319,13 +170122,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -159387,31 +170190,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 987
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG4_16_4_WGM1
+    SolutionIndex: 1049
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 4
+    SubGroupA: 16
+    SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [16, 4, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -159423,7 +170226,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -159431,7 +170234,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -159439,34 +170242,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 8
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159477,11 +170280,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 8
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159491,7 +170294,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -159559,8 +170362,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 988
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM1
+    SolutionIndex: 1050
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -159569,11 +170372,11 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -159583,7 +170386,7 @@
     WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -159595,7 +170398,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -159603,7 +170406,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -159611,34 +170414,34 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
+    LSCA: 32
+    LSCB: 32
     LSPA: 32
-    LSPB: 16
+    LSPB: 8
     LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3456
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 320
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159649,11 +170452,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
-    MacroTile1: 16
+    MacroTile1: 8
     MacroTileA: 32
-    MacroTileB: 16
+    MacroTileB: 8
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -159663,7 +170466,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -159731,8 +170534,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 989
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM8
+    SolutionIndex: 1051
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -159741,11 +170544,11 @@
     SubGroupA: 16
     SubGroupB: 4
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
+    ThreadTile: [2, 2]
     ThreadTile0: 2
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -159755,7 +170558,7 @@
     WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -159767,7 +170570,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -159775,7 +170578,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 1
     GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
@@ -159783,8 +170586,8 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -159793,24 +170596,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159821,7 +170624,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -159837,12 +170640,12 @@
     NonTemporalC: 0
     NumElementsPerThread: 2
     NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsA: 4
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -159903,8 +170706,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 990
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM1
+    SolutionIndex: 1052
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW1_GSU8_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -159927,7 +170730,7 @@
     WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -159939,7 +170742,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -159955,8 +170758,8 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -159965,24 +170768,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 2048
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -159993,7 +170796,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 32
     MacroTile1: 16
     MacroTileA: 32
@@ -160011,7 +170814,7 @@
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -160073,8 +170876,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 991
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x16_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT2_4_WG16_4_4_WGM8
+    SolutionIndex: 1053
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -160097,7 +170900,7 @@
     WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -160111,7 +170914,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -160119,16 +170922,16 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -160137,24 +170940,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
     LSPB: 16
-    LVCA: 4
+    LVCA: 16
     LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -160165,7 +170968,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 16
     MacroTileA: 64
@@ -160181,11 +170984,11 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumLoadsA: 4
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -160247,8 +171050,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 992
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
+    SolutionIndex: 1054
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -160271,7 +171074,7 @@
     WorkGroup: [16, 4, 4]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -160283,7 +171086,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -160292,7 +171095,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -160300,7 +171103,7 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 8
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
@@ -160309,24 +171112,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
     LSPB: 16
-    LVCA: 4
+    LVCA: 8
     LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -160337,7 +171140,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 16
     MacroTileA: 64
@@ -160353,11 +171156,11 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -160419,8 +171222,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 993
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
+    SolutionIndex: 1055
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW4_GSU8_LPA2_LPB2_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -160443,7 +171246,7 @@
     WorkGroup: [16, 4, 4]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -160455,16 +171258,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -160481,24 +171284,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
+    LSCA: 32
+    LSCB: 32
+    LSPA: 32
     LSPB: 16
-    LVCA: 4
+    LVCA: 8
     LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 6784
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -160509,7 +171312,7 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
     MacroTile1: 16
     MacroTileA: 64
@@ -160525,11 +171328,9 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -160591,8 +171392,8 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 994
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU8_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
+    SolutionIndex: 1056
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU8_LPA2_LPB2_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -160613,9 +171414,11 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -160627,7 +171430,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -160635,8 +171438,8 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -160644,33 +171447,33 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 1
+    GlobalSplitU: 4
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 1
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 16
-    LVCA: 4
-    LVCB: 16
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElements: 3392
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -160681,11 +171484,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 8
+    MacroTile0: 8
+    MacroTile1: 32
+    MacroTileA: 8
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -160695,7 +171498,7 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
+    NumElementsPerThread: 1
     NumGlobalWriteVectorsPerThread: 1
     NumLoadsA: 1
     NumLoadsB: 1
@@ -160763,31 +171566,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 995
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
+    SolutionIndex: 1057
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU4_LPA0_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
-    ThreadTile1: 4
-    ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -160808,7 +171611,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -160828,15 +171631,15 @@
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 16
+    LSPB: 32
     LVCA: 4
-    LVCB: 16
+    LVCB: 8
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
     LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 1024
@@ -160846,18 +171649,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 2
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
+    LoopUnroll: 8
     MacroTile0: 64
-    MacroTile1: 16
+    MacroTile1: 32
     MacroTileA: 64
-    MacroTileB: 16
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -160867,8 +171670,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 2
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -160931,19 +171734,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 996
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x16_SE_EPS1_FL0_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
+    SolutionIndex: 1058
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -160956,7 +171761,7 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 8, 2]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -160971,16 +171776,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -160997,22 +171802,22 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 16
-    LVCA: 4
+    LSCA: 16
+    LSCB: 16
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
     LVCB: 4
-    LVPA: 32
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 4096
-    LdsNumElementsAlignedA: 512
-    LdsNumElementsAlignedB: 128
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 1024
-    LdsOffsetB: 512
-    LdsOffsetB_Blk: 1536
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
     LdsPadA: 0
     LdsPadB: 0
     LocalDotLayout: 1
@@ -161025,11 +171830,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 2
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 4
+    MacroTile0: 16
+    MacroTile1: 64
+    MacroTileA: 16
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -161041,6 +171846,8 @@
     NonTemporalC: 0
     NumElementsPerThread: 4
     NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
@@ -161101,19 +171908,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 997
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x8_SE_EPS1_FL1_GRVW4_GSU1_LPA0_LPB0_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
+    SolutionIndex: 1059
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG4_16_4_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 4
-    SubGroupA: 16
-    SubGroupB: 4
+    SubGroup0: 4
+    SubGroup1: 16
+    SubGroupA: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -161126,12 +171935,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -161151,15 +171958,15 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
@@ -161171,36 +171978,36 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
+    LSPA: 16
+    LSPB: 64
+    LVCA: 16
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6272
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 4096
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 1024
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 2304
+    LdsPadA: 0
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 1
+    LocalSplitU: 4
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 4
+    MacroTile0: 16
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 16
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -161211,14 +172018,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 1
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -161275,18 +172082,20 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 998
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW2_GSU1_LPA4_LPB4_PGR1_PLR1_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 1060
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG4_16_4_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 4
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 4
     SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
@@ -161300,8 +172109,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [4, 16, 4]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -161315,7 +172124,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -161335,30 +172144,30 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 32
-    LVPB: 32
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3168
+    LdsNumElements: 3680
     LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
     LdsOffsetB: 576
     LdsOffsetB_Blk: 2624
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -161369,10 +172178,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
+    LoopUnroll: 16
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -161383,12 +172192,12 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -161402,7 +172211,7 @@
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -161445,12 +172254,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 999
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x8_SE_EPS1_FL1_GRVW2_GSU1_LPA4_LPB4_PGR1_PLR0_TT4_4_WG16_16_1_WGM1
+    SolutionIndex: 1061
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -161459,21 +172270,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
+    VectorWidth: 2
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -161523,12 +172334,12 @@
     LVPB: 8
     LdcEqualsLdd: false
     LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
@@ -161542,10 +172353,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 32
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -161559,8 +172370,8 @@
     NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -161617,12 +172428,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1000
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT4_2_WG16_16_1_WGM8
+    SolutionIndex: 1062
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -161631,11 +172444,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -161667,7 +172480,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -161687,20 +172500,20 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 64
-    LVCA: 8
+    LVCA: 4
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3680
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
@@ -161714,10 +172527,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 64
-    MacroTileA: 32
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -161727,14 +172540,14 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsA: 1
-    NumLoadsB: 1
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -161791,12 +172604,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1001
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_16_1_WGM8
+    SolutionIndex: 1063
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -161805,11 +172620,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -161837,9 +172652,9 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -161851,7 +172666,7 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -161859,22 +172674,18 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 32
+    LSPA: 64
     LSPB: 64
-    LVCA: 8
+    LVCA: 4
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3680
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3200
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 2112
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -161886,9 +172697,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 32
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -161899,11 +172710,13 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -161917,7 +172730,7 @@
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -161961,12 +172774,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1002
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_16_1_WGM8
+    SolutionIndex: 1064
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -161975,23 +172790,21 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
+    VectorWidth: 4
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -162010,7 +172823,7 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -162039,12 +172852,12 @@
     LVPB: 16
     LdcEqualsLdd: false
     LdsNumElements: 7264
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
@@ -162058,10 +172871,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162073,12 +172886,10 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
-    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
@@ -162135,12 +172946,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1003
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
+    SolutionIndex: 1065
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT8_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -162149,11 +172962,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -162161,9 +172974,11 @@
     VectorStore: true
     VectorWidth: 2
     WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -162175,15 +172990,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 8
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -162201,24 +173016,24 @@
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 8
-    LSCB: 8
+    LSCA: 16
+    LSCB: 16
     LSPA: 64
-    LSPB: 128
+    LSPB: 64
     LVCA: 4
-    LVCB: 2
-    LVPA: 32
-    LVPB: 32
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3648
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
     LdsPadA: 4
-    LdsPadB: 0
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -162229,11 +173044,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162245,11 +173060,9 @@
     NonTemporalC: 0
     NumElementsPerThread: 32
     NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 1
-    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
@@ -162307,12 +173120,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1004
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x8_SE_EPS1_FL0_GRVW4_GSU1_LPA4_LPB0_PGR1_PLR1_TT4_8_WG16_16_1_WGM1
+    SolutionIndex: 1066
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA4_LPB4_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -162321,11 +173136,11 @@
     SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
@@ -162335,7 +173150,9 @@
     WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 3
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -162355,19 +173172,19 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
     InnerUnroll: 1
@@ -162375,22 +173192,22 @@
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -162402,10 +173219,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162415,15 +173232,15 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
@@ -162479,33 +173296,35 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1005
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT8_4_WG16_16_1_WGM8
+    SolutionIndex: 1067
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -162651,12 +173470,14 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1006
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_GSU1_LPA4_LPB4_PGR1_PLR1_TT4_4_WG16_8_1_WGM1
+    SolutionIndex: 1068
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
@@ -162677,7 +173498,7 @@
     VectorStore: true
     VectorWidth: 4
     WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 1
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -162714,25 +173535,26 @@
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
+    LSPA: 16
+    LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3712
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetB_Blk: 5184
     LdsPadA: 4
     LdsPadB: 4
     LocalDotLayout: 1
@@ -162747,9 +173569,9 @@
     LoopTail: true
     LoopUnroll: 16
     MacroTile0: 64
-    MacroTile1: 32
+    MacroTile1: 64
     MacroTileA: 64
-    MacroTileB: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162761,19 +173583,21 @@
     NonTemporalC: 0
     NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 8
+    NumLoadsA: 4
     NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularA: 4
     NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -162823,19 +173647,21 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1007
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_GSU1_LPA4_LPB4_PGR1_PLR1_TT4_4_WG16_8_1_WGM8
+    SolutionIndex: 1069
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -162848,8 +173674,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -162871,42 +173697,43 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3168
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -162918,10 +173745,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -162931,21 +173758,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 4
-    NumLoadsB: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 4
-    NumThreads: 128
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -162995,32 +173824,34 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1008
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x16_SE_EPS1_FL0_GRVW1_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_8_1_WGM1
+    SolutionIndex: 1070
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL0_GRVW4_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
@@ -163035,42 +173866,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
     LVCA: 8
     LVCB: 8
-    LVPA: 4
-    LVPB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6272
+    LdsNumElements: 6240
     LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
@@ -163089,11 +173921,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 32
-    MacroTile0: 32
-    MacroTile1: 32
-    MacroTileA: 32
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -163103,21 +173935,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 2
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 128
+    NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -163167,24 +173999,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1009
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_8_1_WGM1
+    SolutionIndex: 1071
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -163192,10 +174026,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 8, 1]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -163207,15 +174043,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -163227,45 +174063,46 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -163275,21 +174112,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -163339,35 +174176,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1010
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPA0_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
+    SolutionIndex: 1072
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -163379,15 +174220,15 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -163399,45 +174240,46 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 320
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 320
-    LdsOffsetB_Blk: 2368
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 64
+    MacroTileA: 64
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -163447,21 +174289,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -163511,35 +174353,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1011
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
+    SolutionIndex: 1073
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
+    ThreadTile1: 4
+    ThreadTileA: 4
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -163559,56 +174405,57 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 8
-    LSPB: 16
-    LVCA: 32
-    LVCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 320
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 320
-    LdsOffsetB_Blk: 2368
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 8
+    LoopUnroll: 32
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 8
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -163619,21 +174466,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -163683,24 +174532,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1012
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
+    SolutionIndex: 1074
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -163708,8 +174559,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
   - AggressivePerfMode: 1
@@ -163730,8 +174581,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -163743,44 +174594,45 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 8
+    LSPA: 32
     LSPB: 32
-    LVCA: 32
+    LVCA: 8
     LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 320
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 320
-    LdsOffsetB_Blk: 2368
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 8
+    LoopUnroll: 32
+    MacroTile0: 64
     MacroTile1: 32
-    MacroTileA: 8
+    MacroTileA: 64
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -163791,21 +174643,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -163855,24 +174707,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1013
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM1
+    SolutionIndex: 1075
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
+    ThreadTile: [4, 2]
+    ThreadTile0: 4
     ThreadTile1: 2
-    ThreadTileA: 2
+    ThreadTileA: 4
     ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -163880,10 +174734,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -163895,7 +174751,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -163903,7 +174759,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -163915,45 +174771,46 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 32
-    LVCA: 32
-    LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3456
-    LdsNumElementsAlignedA: 320
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 320
-    LdsOffsetB_Blk: 2368
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -163963,8 +174820,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsA: 1
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -163976,8 +174833,10 @@
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -164027,35 +174886,37 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1014
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
+    SolutionIndex: 1076
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -164067,42 +174928,43 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 64
+    LVCA: 8
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3712
+    LdsNumElements: 3680
     LdsNumElementsAlignedA: 576
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
@@ -164114,18 +174976,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 16
-    MacroTile1: 32
-    MacroTileA: 16
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 32
+    MacroTile1: 64
+    MacroTileA: 32
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164135,28 +174997,28 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 2
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
+    NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: false
+    PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -164199,35 +175061,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1015
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x32x32_SE_EPS1_FL0_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR0_TT4_2_WG4_16_4_WGM1
+    SolutionIndex: 1077
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 2]
-    ThreadTile0: 4
-    ThreadTile1: 2
-    ThreadTileA: 4
-    ThreadTileB: 2
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -164246,58 +175112,59 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3456
+    LdsNumElements: 7296
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetB_Blk: 5184
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 32
     MacroTile0: 32
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 32
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164307,21 +175174,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -164371,35 +175238,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1016
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW1_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM1
+    SolutionIndex: 1078
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -164418,58 +175289,59 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
     LVPA: 8
     LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 3392
+    LdsNumElements: 7296
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 256
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetB_Blk: 5184
     LdsPadA: 2
-    LdsPadB: 0
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
+    LoopUnroll: 32
     MacroTile0: 32
-    MacroTile1: 8
+    MacroTile1: 64
     MacroTileA: 32
-    MacroTileB: 8
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164479,21 +175351,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -164543,35 +175415,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1017
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPA2_LPB0_PGR1_PLR1_TT2_2_WG16_4_4_WGM8
+    SolutionIndex: 1079
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
+    ThreadTile: [2, 4]
     ThreadTile0: 2
-    ThreadTile1: 2
+    ThreadTile1: 4
     ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -164583,7 +175459,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -164592,7 +175468,7 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -164603,45 +175479,46 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 8
-    LVCA: 16
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3456
+    LdsNumElements: 7296
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164651,21 +175528,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
-    NumLoadsB: 1
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -164715,35 +175594,37 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1018
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW2_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM8
+    SolutionIndex: 1080
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -164755,65 +175636,66 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
-    LSPB: 8
+    LSPB: 32
     LVCA: 8
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3456
+    LdsNumElements: 7264
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetB_Blk: 5184
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164823,28 +175705,28 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -164887,35 +175769,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1019
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM1
+    SolutionIndex: 1081
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR0_TT4_8_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -164927,65 +175813,66 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 32
-    LSPB: 8
+    LSPB: 32
     LVCA: 8
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LVCB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3456
+    LdsNumElements: 7232
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 320
+    LdsNumElementsAlignedB: 2048
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 8
-    MacroTileA: 32
-    MacroTileB: 8
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -164995,21 +175882,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -165059,35 +175946,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1020
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x8x32_SE_EPS1_FL0_GRVW4_GSU1_LPA2_LPB2_PGR1_PLR1_TT2_2_WG16_4_4_WGM8
+    SolutionIndex: 1082
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW2_LPA4_LPB0_PGR1_PLR1_TT4_8_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -165099,65 +175990,66 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
-    LSPB: 8
-    LVCA: 32
-    LVCB: 32
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3712
+    LdsNumElements: 7264
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 2112
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
+    LdsOffsetB_Blk: 5184
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 128
+    MacroTileA: 64
+    MacroTileB: 128
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165167,21 +176059,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 4
-    NumLoadsB: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 1
     NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -165231,35 +176123,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1021
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x32_SE_EPS1_FL0_GRVW1_GSU8_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_4_4_WGM1
+    SolutionIndex: 1083
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
-    ThreadTile1: 4
-    ThreadTileA: 2
-    ThreadTileB: 4
+    ThreadTile: [4, 8]
+    ThreadTile0: 4
+    ThreadTile1: 8
+    ThreadTileA: 4
+    ThreadTileB: 8
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -165271,65 +176167,62 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    ExpandPointerSwap: false
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
+    LSCA: 16
+    LSCB: 16
     LSPA: 16
     LSPB: 16
     LVCA: 16
     LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3712
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3200
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetB: 2112
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 32
-    MacroTile1: 16
-    MacroTileA: 32
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165339,25 +176232,29 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 2
-    NumGlobalWriteVectorsPerThread: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -165401,37 +176298,37 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1022
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x16x32_SE_EPS1_FL1_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR1_TT2_4_WG16_4_4_WGM8
+    SolutionIndex: 1084
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW1_LPA4_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 4]
-    ThreadTile0: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 2
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -165443,7 +176340,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -165451,36 +176348,37 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 2
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 2
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 4
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 16
-    LSPB: 16
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6784
+    LdsNumElements: 7264
     LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 2112
@@ -165490,18 +176388,18 @@
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165511,21 +176409,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 4
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
+    NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -165575,24 +176475,26 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1023
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW2_GSU8_LPA2_LPB2_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
+    SolutionIndex: 1085
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT8_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -165600,10 +176502,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -165615,16 +176517,16 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
+    ExpandPointerSwap: false
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -165632,48 +176534,45 @@
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
     GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3200
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165683,8 +176582,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsA: 2
     NumLoadsB: 1
     NumLoadsCoalescedA: 1
@@ -165696,14 +176595,16 @@
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -165747,35 +176648,37 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1024
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x32_SE_EPS1_FL0_GRVW4_GSU8_LPA2_LPB2_PGR1_PLR1_TT4_4_WG16_4_4_WGM8
+    SolutionIndex: 1086
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -165787,7 +176690,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 8
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -165795,7 +176698,7 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
@@ -165803,38 +176706,39 @@
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 8
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 32
-    LSPB: 16
-    LVCA: 8
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 8
+    LSCB: 8
+    LSPA: 64
+    LSPB: 64
+    LVCA: 4
+    LVCB: 4
+    LVPA: 32
+    LVPB: 32
     LdcEqualsLdd: false
-    LdsNumElements: 6784
-    LdsNumElementsAlignedA: 2112
-    LdsNumElementsAlignedB: 576
+    LdsNumElements: 3648
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 512
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 0
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
@@ -165842,10 +176746,10 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 16
-    MacroTileA: 64
-    MacroTileB: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -165855,8 +176759,8 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 2
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
@@ -165866,15 +176770,17 @@
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
     PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -165917,35 +176823,37 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1025
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x16x32_SE_EPS1_FL1_GRVW4_GSU8_LPA2_LPB2_PGR1_PLR1_TT4_4_WG16_4_4_WGM1
+    SolutionIndex: 1087
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x8_SE_EPS1_FL1_GRVW2_LPA4_LPB0_PGR1_PLR0_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 4
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 4
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 4, 4]
-    WorkGroupMapping: 1
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 3
     fractionalPerpOverhangA: 0
     fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
@@ -165959,65 +176867,66 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 32
+    DepthU: 16
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
-    GlobalSplitU: 4
+    GlobalReadVectorWidth: 2
+    GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 1
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 32
-    LSCB: 32
-    LSPA: 8
+    LSCA: 16
+    LSCB: 16
+    LSPA: 32
     LSPB: 32
-    LVCA: 32
+    LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 16
+    LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 3392
-    LdsNumElementsAlignedA: 256
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
-    LdsPadB: 2
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 8
-    MacroTile1: 32
-    MacroTileA: 8
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166027,21 +176936,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 1
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 2
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -166091,35 +177000,39 @@
       TransposeB: false
       UseBeta: true
       UseInitialStrides: false
+      ZeroPadA: []
+      ZeroPadB: []
     ReplacementKernel: false
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1026
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT8x32x32_SE_EPS1_FL0_GRVW4_GSU4_LPA0_LPB2_PGR1_PLR1_TT2_2_WG4_16_4_WGM8
+    SolutionIndex: 1088
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW2_LPA4_LPB4_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [2, 2]
-    ThreadTile0: 2
-    ThreadTile1: 2
-    ThreadTileA: 2
-    ThreadTileB: 2
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
+    ThreadTile1: 4
+    ThreadTileA: 8
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 1
+    _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -166138,9 +177051,9 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 2
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
@@ -166151,45 +177064,46 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
     LSPA: 64
-    LSPB: 32
+    LSPB: 64
     LVCA: 4
-    LVCB: 8
+    LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 1024
-    LdsNumElementsAlignedB: 512
+    LdsNumElements: 7264
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 1024
-    LdsOffsetB_Blk: 3072
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 2
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 8
-    MacroTile0: 64
-    MacroTile1: 32
-    MacroTileA: 64
-    MacroTileB: 32
+    LoopUnroll: 16
+    MacroTile0: 128
+    MacroTile1: 64
+    MacroTileA: 128
+    MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166199,21 +177113,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 8
-    NumGlobalWriteVectorsPerThread: 2
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 16
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -166269,31 +177183,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1027
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_2_WGM8
+    SolutionIndex: 1089
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT8_4_USFGRO1_VW2_WG16_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 8
+    SubGroup1: 16
     SubGroupA: 16
-    SubGroupB: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 2]
+    VectorWidth: 2
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -166312,8 +177228,8 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
@@ -166328,41 +177244,42 @@
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
+    LSPA: 64
     LSPB: 64
-    LVCA: 16
+    LVCA: 4
     LVCB: 4
     LVPA: 16
     LVPB: 16
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 7296
+    LdsNumElementsAlignedA: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 2112
+    LdsOffsetB_Blk: 6208
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
+    LoopUnroll: 16
+    MacroTile0: 128
     MacroTile1: 64
-    MacroTileA: 16
+    MacroTileA: 128
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -166373,21 +177290,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 32
+    NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 1
     NumThreads: 256
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -166443,20 +177360,20 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1028
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG4_16_4_WGM1
+    SolutionIndex: 1090
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA4_LPB4_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
+    SubGroup0: 16
     SubGroup1: 16
-    SubGroupA: 4
+    SubGroupA: 16
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
-    ThreadTile0: 4
+    ThreadTile: [8, 4]
+    ThreadTile0: 8
     ThreadTile1: 4
-    ThreadTileA: 4
+    ThreadTileA: 8
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
@@ -166464,10 +177381,12 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [4, 16, 4]
+    WorkGroup: [16, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -166488,56 +177407,57 @@
     ExpandPointerSwap: true
     FractionalLoad: 0
     GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthB: 1
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 1
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
     GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 16
-    LSPB: 64
+    LSPA: 8
+    LSPB: 8
     LVCA: 16
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LVCB: 16
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 4096
-    LdsNumElementsAlignedA: 256
-    LdsNumElementsAlignedB: 1024
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 576
     LdsOffsetA: 0
     LdsOffsetA_Blk: 2048
-    LdsOffsetB: 256
-    LdsOffsetB_Blk: 2304
-    LdsPadA: 0
-    LdsPadB: 0
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 3136
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
-    LocalSplitU: 4
+    LocalSplitU: 1
     LocalWrite2A: true
     LocalWrite2B: true
     LocalWriteUseSgprA: false
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 4
-    MacroTile0: 16
-    MacroTile1: 64
-    MacroTileA: 16
-    MacroTileB: 64
+    LoopUnroll: 16
+    MacroTile0: 64
+    MacroTile1: 32
+    MacroTileA: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166547,21 +177467,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 4
-    NumGlobalWriteVectorsPerThread: 1
-    NumLoadsA: 1
-    NumLoadsB: 1
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 8
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularA: 8
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -166617,15 +177539,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1029
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT16x64x16_SE_EPS1_FL0_GRVW4_LPA0_LPB0_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG4_16_4_WGM8
+    SolutionIndex: 1091
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 4
-    SubGroup1: 16
-    SubGroupA: 4
-    SubGroupB: 16
+    SubGroup0: 16
+    SubGroup1: 8
+    SubGroupA: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [4, 4]
     ThreadTile0: 4
@@ -166638,8 +177560,8 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 4
-    WorkGroup: [4, 16, 4]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
   - AggressivePerfMode: 1
@@ -166653,14 +177575,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 2
     GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
@@ -166676,25 +177598,22 @@
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 32
-    LSPB: 32
-    LVCA: 8
-    LVCB: 8
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 16
+    LVCB: 16
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3680
-    LdsNumElementsAlignedA: 576
-    LdsNumElementsAlignedB: 1088
+    LdsNumElements: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
-    LdsOffsetB: 576
-    LdsOffsetB_Blk: 2624
+    LdsOffsetB: 1088
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
@@ -166707,11 +177626,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
+    LoopUnroll: 32
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166723,24 +177642,28 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 4
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
-    NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumLoadsPerpendicularA: 4
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
-    PrefetchLocalRead: true
+    PrefetchGlobalRead: false
+    PrefetchLocalRead: false
     ProblemType:
       AssignedDerivedParameters: true
       Batched: true
@@ -166789,15 +177712,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1030
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM1
+    SolutionIndex: 1092
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS0_FL0_GRVW2_LPA2_LPB2_PGR0_PLR0_TT2_4_USFGRO1_VW2_WG16_8_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [2, 4]
     ThreadTile0: 2
@@ -166810,12 +177733,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -166833,8 +177754,8 @@
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: true
-    FractionalLoad: 1
+    ExpandPointerSwap: false
+    FractionalLoad: 0
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -166850,25 +177771,22 @@
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 32
     LSCB: 32
-    LSPA: 32
-    LSPB: 32
+    LSPA: 16
+    LSPB: 16
     LVCA: 8
     LVCB: 8
-    LVPA: 8
-    LVPB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElements: 2176
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 5184
     LdsPadA: 2
     LdsPadB: 2
     LocalDotLayout: 1
@@ -166883,9 +177801,9 @@
     LoopTail: true
     LoopUnroll: 32
     MacroTile0: 32
-    MacroTile1: 64
+    MacroTile1: 32
     MacroTileA: 32
-    MacroTileB: 64
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -166897,23 +177815,27 @@
     NonTemporalC: 0
     NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: true
+    PrefetchGlobalRead: false
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -166963,15 +177885,15 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1031
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1093
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS0_FL0_GRVW4_LPA2_LPB2_PGR0_PLR1_TT2_4_USFGRO1_VW2_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
     ThreadTile: [2, 4]
     ThreadTile0: 2
@@ -166984,12 +177906,10 @@
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 1
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -167001,7 +177921,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -167024,21 +177944,22 @@
     GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 7264
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 2112
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
     LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
@@ -167055,11 +177976,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
-    MacroTile1: 128
-    MacroTileA: 64
-    MacroTileB: 128
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -167069,21 +177990,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
-    NumLoadsA: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
     NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularA: 2
     NumLoadsPerpendicularB: 2
-    NumThreads: 256
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -167139,31 +178062,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1032
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x128x16_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_8_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1094
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 8]
-    ThreadTile0: 4
-    ThreadTile1: 8
-    ThreadTileA: 4
-    ThreadTileB: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
+    ThreadTile1: 4
+    ThreadTileA: 2
+    ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
     VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -167175,14 +178098,14 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
-    ExpandPointerSwap: false
-    FractionalLoad: 0
+    ExpandPointerSwap: true
+    FractionalLoad: 1
     GlobalLoadVectorWidthA: 4
     GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
@@ -167195,26 +178118,31 @@
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3200
+    LdsNumElements: 6272
+    LdsNumElementsAlignedA: 1088
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetB: 2112
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 4096
+    LdsOffsetB: 1088
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -167225,11 +178153,11 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 128
-    MacroTile1: 64
-    MacroTileA: 128
-    MacroTileB: 64
+    LoopUnroll: 32
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
     MaxOccupancy: 40
@@ -167239,27 +178167,27 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 8
-    NumLoadsA: 2
-    NumLoadsB: 1
+    NumElementsPerThread: 8
+    NumGlobalWriteVectorsPerThread: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularB: 2
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
     PersistentKernel: 0
     PrefetchAcrossPersistent: 0
-    PrefetchGlobalRead: false
+    PrefetchGlobalRead: true
     PrefetchLocalRead: true
     ProblemType:
       AssignedDerivedParameters: true
@@ -167309,31 +178237,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1033
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS0_FL0_GRVW4_LPA4_LPB4_PGR0_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM8
+    SolutionIndex: 1095
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT2_4_USFGRO1_VW2_WG16_8_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
     SubGroup0: 16
-    SubGroup1: 16
+    SubGroup1: 8
     SubGroupA: 16
-    SubGroupB: 16
+    SubGroupB: 8
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [2, 4]
+    ThreadTile0: 2
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 2
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [16, 8, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -167352,43 +178282,44 @@
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    FractionalLoad: 0
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 2
+    GlobalWriteVectorWidth: 4
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7264
-    LdsNumElementsAlignedA: 2112
+    LdsNumElements: 3712
+    LdsNumElementsAlignedA: 576
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 2
-    LdsPadB: 2
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 4
+    LdsPadB: 4
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -167400,9 +178331,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -167413,19 +178344,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
-    NumGlobalWriteVectorsPerThread: 16
+    NumElementsPerThread: 16
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 2
+    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -167481,33 +178416,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1034
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT8_4_USFGRO1_VW2_WG16_16_1_WGM8
+    SolutionIndex: 1096
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL0_GRVW2_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 2
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 4
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
     _staggerStrideShift: 2
-    fractionalPerpOverhangA: 0
-    fractionalPerpOverhangB: 0
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -167527,42 +178460,43 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 1
-    GlobalLoadVectorWidthA: 4
-    GlobalLoadVectorWidthB: 4
+    GlobalLoadVectorWidthA: 2
+    GlobalLoadVectorWidthB: 2
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 4
+    GlobalReadVectorWidth: 2
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
     LSCA: 16
     LSCB: 16
-    LSPA: 64
-    LSPB: 64
-    LVCA: 4
-    LVCB: 4
-    LVPA: 16
-    LVPB: 16
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 8
+    LVPB: 8
     LdcEqualsLdd: false
-    LdsNumElements: 7296
-    LdsNumElementsAlignedA: 2112
+    LdsNumElements: 3680
+    LdsNumElementsAlignedA: 576
     LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 4096
-    LdsOffsetB: 2112
-    LdsOffsetB_Blk: 6208
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetA_Blk: 2048
+    LdsOffsetB: 576
+    LdsOffsetB_Blk: 2624
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -167574,9 +178508,9 @@
     LoopDoWhile: false
     LoopTail: true
     LoopUnroll: 16
-    MacroTile0: 128
+    MacroTile0: 32
     MacroTile1: 64
-    MacroTileA: 128
+    MacroTileA: 32
     MacroTileB: 64
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -167587,19 +178521,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 32
+    NumElementsPerThread: 16
     NumGlobalWriteVectorsPerThread: 8
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
     NumLoadsPerpendicularA: 2
-    NumLoadsPerpendicularB: 1
-    NumThreads: 256
+    NumLoadsPerpendicularB: 4
+    NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -167655,29 +178591,29 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1035
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT128x64x16_SE_EPS1_FL1_GRVW4_LPA4_LPB4_PGR1_PLR1_TT8_4_USFGRO1_VW4_WG16_16_1_WGM1
+    SolutionIndex: 1097
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x64x16_SE_EPS1_FL1_GRVW2_LPA2_LPB2_PGR1_PLR1_TT4_4_USFGRO1_VW2_WG8_16_1_WGM8
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
+    SubGroup0: 8
     SubGroup1: 16
-    SubGroupA: 16
+    SubGroupA: 8
     SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [8, 4]
-    ThreadTile0: 8
+    ThreadTile: [4, 4]
+    ThreadTile0: 4
     ThreadTile1: 4
-    ThreadTileA: 8
+    ThreadTileA: 4
     ThreadTileB: 4
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 16, 1]
-    WorkGroupMapping: 1
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 8
     WorkGroupMappingType: B
     _staggerStrideShift: 2
     fractionalPerpOverhangA: 0
@@ -167693,7 +178629,7 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
@@ -167701,42 +178637,43 @@
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
     FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3712
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -167747,10 +178684,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 32
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -167761,21 +178698,23 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 8
-    NumLoadsB: 4
+    NumLoadsA: 2
+    NumLoadsB: 2
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -167831,31 +178770,31 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1036
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM1
+    SolutionIndex: 1098
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL0_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
     WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
   - AggressivePerfMode: 1
     AssertFree0ElementMultiple: 1
     AssertFree1ElementMultiple: 1
@@ -167867,50 +178806,51 @@
     BufferStore: true
     CheckDimOverflow: 0
     CheckTensorDimAsserts: false
-    DepthU: 16
+    DepthU: 32
     DirectToLds: false
     DirectToLdsA: false
     DirectToLdsB: false
     DisableKernelPieces: 0
     EdgeType: ShiftPtr
     ExpandPointerSwap: true
-    FractionalLoad: 0
-    GlobalLoadVectorWidthA: 1
-    GlobalLoadVectorWidthB: 1
+    FractionalLoad: 1
+    GlobalLoadVectorWidthA: 4
+    GlobalLoadVectorWidthB: 4
     GlobalRead2A: true
     GlobalRead2B: true
     GlobalReadCoalesceGroupA: true
     GlobalReadCoalesceGroupB: true
     GlobalReadCoalesceVectorA: true
     GlobalReadCoalesceVectorB: true
-    GlobalReadVectorWidth: 1
+    GlobalReadVectorWidth: 4
     GlobalSplitU: 1
     GlobalSplitUSummationAssignmentRoundRobin: true
     GlobalSplitUWorkGroupMappingRoundRobin: false
-    GlobalWriteVectorWidth: 4
+    GlobalWriteVectorWidth: 2
     GuaranteeNoPartialA: true
     GuaranteeNoPartialB: true
+    ISA: [9, 0, 6]
     InnerUnroll: 1
     InterleaveAlpha: 0
     KernelLanguage: Assembly
-    LSCA: 16
-    LSCB: 16
-    LSPA: 8
-    LSPB: 8
-    LVCA: 16
-    LVCB: 16
-    LVPA: 8
-    LVPB: 8
+    LSCA: 32
+    LSCB: 32
+    LSPA: 16
+    LSPB: 16
+    LVCA: 8
+    LVCB: 8
+    LVPA: 4
+    LVPB: 4
     LdcEqualsLdd: false
-    LdsNumElements: 3712
+    LdsNumElements: 6272
     LdsNumElementsAlignedA: 1088
-    LdsNumElementsAlignedB: 576
+    LdsNumElementsAlignedB: 1088
     LdsOffsetA: 0
-    LdsOffsetA_Blk: 2048
+    LdsOffsetA_Blk: 4096
     LdsOffsetB: 1088
-    LdsOffsetB_Blk: 3136
-    LdsPadA: 4
-    LdsPadB: 4
+    LdsOffsetB_Blk: 5184
+    LdsPadA: 2
+    LdsPadB: 2
     LocalDotLayout: 1
     LocalRead2A: true
     LocalRead2B: true
@@ -167921,10 +178861,10 @@
     LocalWriteUseSgprB: false
     LoopDoWhile: false
     LoopTail: true
-    LoopUnroll: 16
-    MacroTile0: 64
+    LoopUnroll: 32
+    MacroTile0: 32
     MacroTile1: 32
-    MacroTileA: 64
+    MacroTileA: 32
     MacroTileB: 32
     MacroTileShapeMax: 64
     MacroTileShapeMin: 1
@@ -167935,21 +178875,21 @@
     NonTemporalA: 0
     NonTemporalB: 0
     NonTemporalC: 0
-    NumElementsPerThread: 16
+    NumElementsPerThread: 8
     NumGlobalWriteVectorsPerThread: 4
-    NumLoadsA: 8
-    NumLoadsB: 4
     NumLoadsCoalescedA: 1
     NumLoadsCoalescedB: 1
-    NumLoadsPerpendicularA: 8
-    NumLoadsPerpendicularB: 4
+    NumLoadsPerpendicularA: 2
+    NumLoadsPerpendicularB: 2
     NumThreads: 128
     OptNoLoadLoop: 1
     PackBatchDims: 0
     PackFreeDims: 1
     PackGranularity: 2
-    PackedC0Indices: [I]
-    PackedC1Indices: [J]
+    PackedC0IdxChars: [I]
+    PackedC0IndicesX: [0]
+    PackedC1IdxChars: [J]
+    PackedC1IndicesX: [1]
     PerformanceSyncLocation: -1
     PerformanceWaitCount: -1
     PerformanceWaitLocation: -1
@@ -168005,31 +178945,33 @@
     ScheduleGlobalRead: 1
     ScheduleIterAlg: 1
     ScheduleLocalWrite: 1
-    SolutionIndex: 1037
-    SolutionNameMin: Cijk_Alik_Bljk_SB_MT64x32x16_SE_EPS1_FL0_GRVW1_LPA4_LPB4_PGR1_PLR1_TT4_4_USFGRO1_VW4_WG16_8_1_WGM8
+    SolutionIndex: 1099
+    SolutionNameMin: Cijk_Alik_Bljk_SB_MT32x32x32_SE_EPS1_FL1_GRVW4_LPA2_LPB2_PGR1_PLR1_TT4_2_USFGRO1_VW2_WG8_16_1_WGM1
     StaggerU: 32
     StaggerUMapping: 0
     StaggerUStride: 256
-    SubGroup0: 16
-    SubGroup1: 8
-    SubGroupA: 16
-    SubGroupB: 8
+    SubGroup0: 8
+    SubGroup1: 16
+    SubGroupA: 8
+    SubGroupB: 16
     SuppressNoLoadLoop: false
-    ThreadTile: [4, 4]
+    ThreadTile: [4, 2]
     ThreadTile0: 4
-    ThreadTile1: 4
+    ThreadTile1: 2
     ThreadTileA: 4
-    ThreadTileB: 4
+    ThreadTileB: 2
     UnrollMemFence: false
     UseSgprForGRO: 1
     Valid: true
     VectorAtomicWidth: 1
     VectorStore: true
-    VectorWidth: 4
-    WorkGroup: [16, 8, 1]
-    WorkGroupMapping: 8
+    VectorWidth: 2
+    WorkGroup: [8, 16, 1]
+    WorkGroupMapping: 1
     WorkGroupMappingType: B
-    _staggerStrideShift: 2
+    _staggerStrideShift: 1
+    fractionalPerpOverhangA: 0
+    fractionalPerpOverhangB: 0
 - [2, 3, 0, 1]
 - - - [1024, 128, 1, 128]
     - [12, 896.219]
@@ -174073,6094 +185015,6238 @@
     - [474, 959.247]
   - - [512, 1024, 1, 196]
     - [417, 4978.7]
-  - - [96, 64, 36, 10368]
-    - [511, 5000.95]
-  - - [384, 448, 36, 512]
-    - [516, 8903.0]
   - - [2048, 64, 1, 1001]
     - [509, 4385.13]
-  - - [224, 192, 36, 5184]
-    - [515, 7487.81]
   - - [2048, 128, 1, 1001]
     - [508, 5764.63]
-  - - [96, 96, 36, 10368]
-    - [517, 5275.21]
-  - - [192, 80, 36, 20736]
-    - [513, 5409.4]
-  - - [96, 64, 36, 5184]
-    - [511, 4911.83]
   - - [1536, 64, 1, 1001]
     - [510, 3162.03]
-  - - [96, 64, 36, 20736]
-    - [512, 5034.33]
+  - - [32, 32, 64, 40000]
+    - [544, 2449.4]
+  - - [224, 192, 36, 5184]
+    - [539, 7500.12]
+  - - [32, 32, 49, 115200]
+    - [545, 1878.28]
+  - - [384, 448, 49, 512]
+    - [535, 8945.32]
+  - - [192, 80, 36, 20736]
+    - [533, 5412.26]
+  - - [384, 448, 64, 256]
+    - [536, 9230.33]
+  - - [96, 64, 64, 18432]
+    - [520, 5008.4]
+  - - [224, 192, 64, 4608]
+    - [539, 8684.53]
+  - - [96, 96, 49, 3136]
+    - [543, 5183.63]
+  - - [224, 192, 64, 2304]
+    - [535, 8722.76]
+  - - [64, 32, 49, 57600]
+    - [525, 3565.26]
   - - [384, 448, 36, 256]
-    - [514, 8815.87]
+    - [534, 8843.41]
+  - - [96, 64, 36, 10368]
+    - [527, 4997.46]
+  - - [96, 64, 36, 20736]
+    - [529, 5034.77]
+  - - [192, 80, 49, 14400]
+    - [525, 4892.22]
+  - - [96, 64, 49, 6272]
+    - [546, 5617.04]
+  - - [64, 32, 49, 115200]
+    - [524, 3572.57]
+  - - [384, 448, 49, 256]
+    - [537, 8858.66]
+  - - [96, 96, 64, 2304]
+    - [533, 5379.02]
+  - - [96, 96, 49, 6272]
+    - [542, 5235.76]
+  - - [224, 192, 49, 6272]
+    - [538, 7629.28]
+  - - [96, 96, 36, 10368]
+    - [541, 5281.04]
+  - - [96, 64, 36, 5184]
+    - [526, 4945.73]
+  - - [384, 448, 64, 512]
+    - [534, 9294.86]
+  - - [224, 192, 49, 3136]
+    - [538, 7513.4]
+  - - [384, 448, 36, 512]
+    - [540, 8961.38]
+  - - [32, 32, 36, 175232]
+    - [548, 1385.5]
+  - - [224, 192, 36, 10368]
+    - [539, 7565.73]
+  - - [64, 32, 64, 40000]
+    - [524, 4658.85]
+  - - [96, 64, 64, 4608]
+    - [523, 5461.6]
+  - - [32, 32, 49, 57600]
+    - [545, 1877.01]
+  - - [192, 80, 36, 41472]
+    - [531, 5123.59]
+  - - [32, 32, 36, 87616]
+    - [544, 1382.32]
+  - - [192, 80, 49, 28800]
+    - [524, 4901.95]
+  - - [96, 64, 49, 28800]
+    - [521, 4862.5]
+  - - [96, 64, 36, 41472]
+    - [528, 5002.26]
+  - - [192, 80, 64, 9216]
+    - [519, 5300.55]
   - - [96, 96, 36, 5184]
-    - [518, 5236.02]
+    - [541, 5246.24]
+  - - [32, 32, 64, 80000]
+    - [549, 2457.11]
+  - - [96, 64, 64, 2304]
+    - [547, 6225.74]
+  - - [96, 64, 49, 3136]
+    - [546, 5489.02]
+  - - [64, 32, 36, 87616]
+    - [524, 2636.29]
+  - - [64, 32, 64, 80000]
+    - [524, 4677.64]
+  - - [96, 96, 64, 4608]
+    - [530, 5119.63]
+  - - [64, 32, 36, 175232]
+    - [525, 2639.83]
   - - [1024, 128, 1, 128]
-    - [531, 896.319]
+    - [562, 896.319]
   - - [4, 704, 1, 1280]
-    - [568, 328.976]
+    - [599, 328.976]
   - - [4, 1856, 1, 3328]
-    - [578, 501.461]
+    - [609, 501.461]
   - - [1856, 448, 1, 3328]
-    - [623, 5678.01]
+    - [654, 5678.01]
   - - [2944, 4288, 1, 1280]
-    - [609, 8412.49]
+    - [640, 8412.49]
   - - [2368, 64, 1, 3328]
-    - [559, 4914.02]
+    - [590, 4914.02]
   - - [1760, 32, 1, 1760]
-    - [586, 3313.04]
+    - [617, 3313.04]
   - - [2368, 5888, 1, 256]
-    - [609, 6489.82]
+    - [640, 6489.82]
   - - [5888, 1856, 1, 256]
-    - [621, 7791.98]
+    - [652, 7791.98]
   - - [128, 64, 1, 256]
-    - [593, 369.317]
+    - [624, 369.317]
   - - [512, 24000, 1, 1536]
-    - [615, 8827.47]
+    - [646, 8827.47]
   - - [128, 6784, 1, 3328]
-    - [615, 6537.09]
+    - [646, 6537.09]
   - - [5888, 1408, 1, 256]
-    - [629, 6129.71]
+    - [660, 6129.71]
   - - [5888, 1856, 1, 3328]
-    - [615, 7969.27]
+    - [646, 7969.27]
   - - [5056, 704, 1, 256]
-    - [615, 6723.92]
+    - [646, 6723.92]
   - - [2048, 400, 1, 512]
-    - [621, 4531.54]
+    - [652, 4531.54]
   - - [5888, 2944, 1, 3328]
-    - [621, 8608.14]
+    - [652, 8608.14]
   - - [1856, 4288, 1, 256]
-    - [621, 6297.64]
+    - [652, 6297.64]
   - - [1024, 5056, 1, 128]
-    - [599, 3595.47]
+    - [630, 3595.47]
   - - [5056, 5056, 1, 3328]
-    - [615, 8559.26]
+    - [646, 8559.26]
   - - [1408, 5888, 1, 1280]
-    - [610, 6797.16]
+    - [641, 6797.16]
   - - [2368, 448, 1, 128]
-    - [599, 2815.0]
+    - [630, 2815.0]
   - - [2368, 6784, 1, 128]
-    - [603, 4782.08]
+    - [634, 4782.08]
   - - [1024, 3584, 1, 3328]
-    - [611, 8402.54]
+    - [642, 8402.54]
   - - [512, 48000, 1, 2048]
-    - [615, 8162.33]
+    - [646, 8162.33]
   - - [128, 448, 1, 1280]
-    - [586, 2903.59]
+    - [617, 2903.59]
   - - [256, 4288, 1, 3328]
-    - [616, 6346.04]
+    - [647, 6346.04]
   - - [5888, 1408, 1, 1280]
-    - [615, 8959.55]
+    - [646, 8959.55]
   - - [704, 1856, 1, 3328]
-    - [610, 6955.37]
+    - [641, 6955.37]
   - - [4, 1408, 1, 128]
-    - [630, 60.1747]
+    - [661, 60.1747]
   - - [1024, 2368, 1, 256]
-    - [617, 5927.88]
+    - [648, 5927.88]
   - - [64, 4, 1, 256]
-    - [635, 13.3129]
+    - [666, 13.3129]
   - - [1408, 1856, 1, 1280]
-    - [613, 8051.68]
+    - [644, 8051.68]
   - - [1408, 64, 1, 1280]
-    - [589, 3400.55]
+    - [620, 3400.55]
   - - [448, 1024, 1, 1280]
-    - [617, 5730.02]
+    - [648, 5730.02]
   - - [6144, 24000, 1, 2048]
-    - [621, 7738.4]
+    - [652, 7738.4]
   - - [4096, 32, 1, 4096]
-    - [559, 2381.53]
+    - [590, 2381.53]
   - - [256, 1408, 1, 3328]
-    - [617, 4844.88]
+    - [648, 4844.88]
   - - [5056, 5056, 1, 1280]
-    - [621, 9090.2]
+    - [652, 9090.2]
   - - [448, 5056, 1, 256]
-    - [627, 4961.28]
+    - [658, 4961.28]
   - - [704, 1856, 1, 1280]
-    - [613, 6456.54]
+    - [644, 6456.54]
   - - [128, 5056, 1, 128]
-    - [542, 2251.12]
+    - [573, 2251.12]
   - - [2368, 128, 1, 256]
-    - [610, 3403.37]
+    - [641, 3403.37]
   - - [1760, 6400, 1, 1760]
-    - [609, 8959.8]
+    - [640, 8959.8]
   - - [1856, 1408, 1, 128]
-    - [602, 3493.16]
+    - [633, 3493.16]
   - - [64, 5056, 1, 256]
-    - [611, 2582.32]
+    - [642, 2582.32]
   - - [6784, 256, 1, 3328]
-    - [609, 7323.64]
+    - [640, 7323.64]
   - - [6784, 4288, 1, 3328]
-    - [611, 8542.19]
+    - [642, 8542.19]
   - - [4288, 448, 1, 256]
-    - [627, 5030.6]
+    - [658, 5030.6]
   - - [64, 704, 1, 128]
-    - [544, 375.567]
+    - [575, 375.567]
   - - [1856, 2368, 1, 3328]
-    - [620, 6742.44]
+    - [651, 6742.44]
   - - [4288, 2944, 1, 1280]
-    - [621, 8578.27]
+    - [652, 8578.27]
   - - [704, 5056, 1, 1280]
-    - [617, 8014.55]
+    - [648, 8014.55]
   - - [2368, 704, 1, 3328]
-    - [616, 6544.41]
+    - [647, 6544.41]
   - - [256, 5888, 1, 256]
-    - [614, 5933.0]
+    - [645, 5933.0]
   - - [1856, 4288, 1, 3328]
-    - [620, 7410.82]
+    - [651, 7410.82]
   - - [256, 2944, 1, 256]
-    - [616, 5014.08]
+    - [647, 5014.08]
   - - [5888, 1024, 1, 256]
-    - [621, 8069.44]
+    - [652, 8069.44]
   - - [448, 64, 1, 1280]
-    - [596, 2057.28]
+    - [627, 2057.28]
   - - [3072, 64, 1, 1024]
-    - [576, 2145.52]
+    - [607, 2145.52]
   - - [3584, 4, 1, 1280]
-    - [568, 498.743]
+    - [599, 498.743]
   - - [16384, 3200, 1, 4096]
-    - [608, 6621.53]
+    - [639, 6621.53]
   - - [2944, 64, 1, 256]
-    - [616, 2554.89]
+    - [647, 2554.89]
   - - [128, 4, 1, 1280]
-    - [578, 87.2489]
+    - [609, 87.2489]
   - - [1408, 2944, 1, 256]
-    - [615, 8029.45]
+    - [646, 8029.45]
   - - [256, 1856, 1, 1280]
-    - [610, 6170.7]
+    - [641, 6170.7]
   - - [6784, 5056, 1, 3328]
-    - [619, 7134.29]
+    - [650, 7134.29]
   - - [5056, 5056, 1, 256]
-    - [627, 6246.9]
+    - [658, 6246.9]
   - - [1408, 6784, 1, 128]
-    - [604, 4329.55]
+    - [635, 4329.55]
   - - [64, 1024, 1, 1280]
-    - [586, 3206.75]
+    - [617, 3206.75]
   - - [2944, 4, 1, 256]
-    - [635, 333.58]
+    - [666, 333.58]
   - - [704, 5056, 1, 128]
-    - [599, 4085.52]
+    - [630, 4085.52]
   - - [4, 2368, 1, 1280]
-    - [636, 394.767]
+    - [667, 394.767]
   - - [2368, 2944, 1, 1280]
-    - [615, 8634.05]
+    - [646, 8634.05]
   - - [128, 3584, 1, 1280]
-    - [616, 6046.25]
+    - [647, 6046.25]
   - - [6784, 6784, 1, 1280]
-    - [621, 8847.51]
+    - [652, 8847.51]
   - - [1408, 4288, 1, 1280]
-    - [621, 8236.79]
+    - [652, 8236.79]
   - - [3584, 4288, 1, 1280]
-    - [616, 7399.98]
+    - [647, 7399.98]
   - - [2368, 704, 1, 1280]
-    - [609, 6754.5]
+    - [640, 6754.5]
   - - [5056, 4288, 1, 3328]
-    - [615, 8569.63]
+    - [646, 8569.63]
   - - [3584, 2368, 1, 3328]
-    - [620, 7942.48]
+    - [651, 7942.48]
   - - [64, 704, 1, 1280]
-    - [589, 2363.69]
+    - [620, 2363.69]
   - - [4288, 256, 1, 256]
-    - [617, 4591.9]
+    - [648, 4591.9]
   - - [2944, 128, 1, 128]
-    - [542, 1878.39]
+    - [573, 1878.39]
   - - [6144, 32, 1, 2560]
-    - [587, 3334.2]
+    - [618, 3334.2]
   - - [6784, 448, 1, 1280]
-    - [619, 7939.3]
+    - [650, 7939.3]
   - - [1408, 2944, 1, 128]
-    - [603, 4096.61]
+    - [634, 4096.61]
   - - [4288, 2944, 1, 256]
-    - [609, 8141.23]
+    - [640, 8141.23]
   - - [5888, 704, 1, 1280]
-    - [610, 7516.23]
+    - [641, 7516.23]
   - - [5056, 4, 1, 3328]
-    - [553, 552.509]
+    - [584, 552.509]
   - - [1856, 64, 1, 1280]
-    - [559, 3870.86]
+    - [590, 3870.86]
   - - [1760, 16, 1, 1760]
-    - [571, 2181.51]
+    - [602, 2181.51]
   - - [448, 5888, 1, 128]
-    - [604, 3371.1]
+    - [635, 3371.1]
   - - [5888, 64, 1, 3328]
-    - [584, 5319.48]
+    - [615, 5319.48]
   - - [2944, 256, 1, 3328]
-    - [616, 7122.4]
+    - [647, 7122.4]
   - - [1024, 64, 1, 128]
-    - [531, 595.882]
+    - [562, 595.882]
   - - [5056, 2368, 1, 1280]
-    - [610, 7778.29]
+    - [641, 7778.29]
   - - [448, 3584, 1, 1280]
-    - [615, 6500.62]
+    - [646, 6500.62]
   - - [6784, 5888, 1, 256]
-    - [615, 8918.68]
+    - [646, 8918.68]
   - - [704, 1024, 1, 128]
-    - [599, 2627.51]
+    - [630, 2627.51]
   - - [704, 128, 1, 1280]
-    - [586, 3408.59]
+    - [617, 3408.59]
   - - [4, 3584, 1, 128]
-    - [630, 140.821]
+    - [661, 140.821]
   - - [1408, 448, 1, 1280]
-    - [610, 5881.54]
+    - [641, 5881.54]
   - - [1024, 1408, 1, 256]
-    - [614, 5647.27]
+    - [645, 5647.27]
   - - [2368, 2368, 1, 3328]
-    - [608, 7688.83]
+    - [639, 7688.83]
   - - [1856, 6784, 1, 128]
-    - [599, 4705.95]
+    - [630, 4705.95]
   - - [5056, 704, 1, 3328]
-    - [619, 8198.98]
+    - [650, 8198.98]
   - - [1408, 1856, 1, 256]
-    - [621, 6340.05]
+    - [652, 6340.05]
   - - [1408, 704, 1, 3328]
-    - [613, 7599.65]
+    - [644, 7599.65]
   - - [2368, 5056, 1, 256]
-    - [621, 8242.85]
+    - [652, 8242.85]
   - - [1408, 256, 1, 1280]
-    - [616, 4879.26]
+    - [647, 4879.26]
   - - [3072, 128, 1, 1024]
-    - [585, 2525.52]
+    - [616, 2525.52]
   - - [3584, 2368, 1, 1280]
-    - [617, 8132.72]
+    - [648, 8132.72]
   - - [4288, 64, 1, 3328]
-    - [572, 5156.53]
+    - [603, 5156.53]
   - - [2368, 4, 1, 1280]
-    - [634, 482.75]
+    - [665, 482.75]
   - - [704, 5888, 1, 256]
-    - [624, 5398.75]
+    - [655, 5398.75]
   - - [6784, 2944, 1, 128]
-    - [600, 4748.99]
+    - [631, 4748.99]
   - - [2560, 1600, 1, 2560]
-    - [611, 7355.0]
+    - [642, 7355.0]
   - - [4288, 6784, 1, 3328]
-    - [608, 7409.41]
+    - [639, 7409.41]
   - - [2944, 256, 1, 256]
-    - [616, 5077.42]
+    - [647, 5077.42]
   - - [2944, 6784, 1, 3328]
-    - [621, 8068.05]
+    - [652, 8068.05]
   - - [704, 1408, 1, 3328]
-    - [616, 7239.43]
+    - [647, 7239.43]
   - - [6144, 5984, 1, 2048]
-    - [615, 7176.07]
+    - [646, 7176.07]
   - - [3584, 704, 1, 3328]
-    - [621, 6642.86]
+    - [652, 6642.86]
   - - [2944, 256, 1, 128]
-    - [600, 2644.54]
+    - [631, 2644.54]
   - - [6784, 4, 1, 1280]
-    - [632, 402.487]
+    - [663, 402.487]
   - - [1024, 64, 1, 1280]
-    - [586, 2602.03]
+    - [617, 2602.03]
   - - [2048, 1600, 1, 512]
-    - [613, 5592.5]
+    - [644, 5592.5]
   - - [448, 4288, 1, 256]
-    - [611, 6128.99]
+    - [642, 6128.99]
   - - [64, 3584, 1, 3328]
-    - [552, 5534.93]
+    - [583, 5534.93]
   - - [1856, 4288, 1, 128]
-    - [602, 4400.11]
+    - [633, 4400.11]
   - - [704, 2368, 1, 1280]
-    - [627, 5735.02]
+    - [658, 5735.02]
   - - [1856, 2368, 1, 1280]
-    - [624, 6482.4]
+    - [655, 6482.4]
   - - [2368, 128, 1, 3328]
-    - [597, 4717.32]
+    - [628, 4717.32]
   - - [2944, 128, 1, 256]
-    - [624, 3276.9]
+    - [655, 3276.9]
   - - [448, 1408, 1, 256]
-    - [616, 4852.28]
+    - [647, 4852.28]
   - - [1856, 4288, 1, 1280]
-    - [611, 8132.96]
+    - [642, 8132.96]
   - - [64, 5056, 1, 3328]
-    - [587, 5097.06]
+    - [618, 5097.06]
   - - [4, 704, 1, 256]
-    - [634, 128.831]
+    - [665, 128.831]
   - - [1024, 448, 1, 128]
-    - [599, 1816.94]
+    - [630, 1816.94]
   - - [704, 4, 1, 1280]
-    - [635, 328.976]
+    - [666, 328.976]
   - - [704, 256, 1, 128]
-    - [603, 876.569]
+    - [634, 876.569]
   - - [704, 2944, 1, 128]
-    - [603, 3734.47]
+    - [634, 3734.47]
   - - [1408, 1024, 1, 1280]
-    - [611, 7224.85]
+    - [642, 7224.85]
   - - [704, 6784, 1, 256]
-    - [615, 7354.77]
+    - [646, 7354.77]
   - - [6784, 704, 1, 256]
-    - [611, 6012.28]
+    - [642, 6012.28]
   - - [5056, 1408, 1, 128]
-    - [604, 4311.28]
+    - [635, 4311.28]
   - - [2048, 7000, 1, 2048]
-    - [615, 7232.07]
+    - [646, 7232.07]
   - - [256, 3584, 1, 3328]
-    - [619, 7006.0]
+    - [650, 7006.0]
   - - [4, 5888, 1, 3328]
-    - [637, 534.612]
+    - [668, 534.612]
   - - [128, 1408, 1, 128]
-    - [529, 1177.07]
+    - [560, 1177.07]
   - - [3584, 4288, 1, 3328]
-    - [621, 7135.0]
+    - [652, 7135.0]
   - - [5888, 1856, 1, 1280]
-    - [609, 8395.03]
+    - [640, 8395.03]
   - - [256, 1408, 1, 256]
-    - [610, 3977.46]
+    - [641, 3977.46]
   - - [5056, 64, 1, 1280]
-    - [610, 4257.78]
+    - [641, 4257.78]
   - - [1024, 704, 1, 256]
-    - [610, 5036.93]
+    - [641, 5036.93]
   - - [448, 128, 1, 128]
-    - [531, 533.533]
+    - [562, 533.533]
   - - [2368, 3584, 1, 1280]
-    - [615, 8272.43]
+    - [646, 8272.43]
   - - [2368, 6784, 1, 1280]
-    - [608, 8288.24]
+    - [639, 8288.24]
   - - [1856, 4, 1, 1280]
-    - [548, 464.1]
+    - [579, 464.1]
   - - [448, 448, 1, 256]
-    - [610, 3058.45]
+    - [641, 3058.45]
   - - [2944, 3584, 1, 3328]
-    - [615, 8557.63]
+    - [646, 8557.63]
   - - [7680, 32, 1, 2560]
-    - [587, 3729.03]
+    - [618, 3729.03]
   - - [128, 4288, 1, 128]
-    - [530, 2116.2]
+    - [561, 2116.2]
   - - [256, 256, 1, 3328]
-    - [586, 4051.06]
+    - [617, 4051.06]
   - - [128, 1024, 1, 3328]
-    - [559, 5139.21]
+    - [590, 5139.21]
   - - [4, 1408, 1, 3328]
-    - [578, 502.871]
+    - [609, 502.871]
   - - [6784, 2944, 1, 256]
-    - [609, 8446.06]
+    - [640, 8446.06]
   - - [64, 1856, 1, 1280]
-    - [551, 3870.86]
+    - [582, 3870.86]
   - - [6784, 64, 1, 128]
-    - [599, 1877.62]
+    - [630, 1877.62]
   - - [4288, 2368, 1, 3328]
-    - [619, 8419.4]
+    - [650, 8419.4]
   - - [1856, 2368, 1, 256]
-    - [613, 6887.48]
+    - [644, 6887.48]
   - - [3584, 256, 1, 128]
-    - [603, 2496.71]
+    - [634, 2496.71]
   - - [3584, 6784, 1, 3328]
-    - [615, 7626.18]
+    - [646, 7626.18]
   - - [256, 1024, 1, 256]
-    - [616, 3095.53]
+    - [647, 3095.53]
   - - [4, 6784, 1, 3328]
-    - [578, 589.274]
+    - [609, 589.274]
   - - [1024, 5888, 1, 3328]
-    - [615, 7794.35]
+    - [646, 7794.35]
   - - [1024, 128, 1, 1280]
-    - [588, 3130.18]
+    - [619, 3130.18]
   - - [3072, 32, 1, 1024]
-    - [575, 1675.59]
+    - [606, 1675.59]
   - - [6144, 24000, 1, 2560]
-    - [615, 7256.14]
+    - [646, 7256.14]
   - - [5056, 4288, 1, 1280]
-    - [613, 8349.03]
+    - [644, 8349.03]
   - - [5888, 64, 1, 256]
-    - [562, 2593.35]
+    - [593, 2593.35]
   - - [6784, 1856, 1, 3328]
-    - [609, 8087.38]
+    - [640, 8087.38]
   - - [1408, 5056, 1, 1280]
-    - [611, 7802.63]
+    - [642, 7802.63]
   - - [1856, 256, 1, 1280]
-    - [616, 6150.73]
+    - [647, 6150.73]
   - - [64, 5888, 1, 3328]
-    - [583, 5301.49]
+    - [614, 5301.49]
   - - [2368, 2368, 1, 1280]
-    - [613, 8233.43]
+    - [644, 8233.43]
   - - [2944, 5888, 1, 128]
-    - [606, 3745.51]
+    - [637, 3745.51]
   - - [704, 5888, 1, 1280]
-    - [611, 8245.04]
+    - [642, 8245.04]
   - - [2368, 3584, 1, 128]
-    - [603, 4523.43]
+    - [634, 4523.43]
   - - [1856, 5056, 1, 128]
-    - [600, 4498.08]
+    - [631, 4498.08]
   - - [704, 1024, 1, 1280]
-    - [624, 5479.59]
+    - [655, 5479.59]
   - - [448, 256, 1, 3328]
-    - [567, 5048.8]
+    - [598, 5048.8]
   - - [448, 1856, 1, 128]
-    - [600, 2936.92]
+    - [631, 2936.92]
   - - [8192, 3200, 1, 2048]
-    - [609, 6713.12]
+    - [640, 6713.12]
   - - [128, 1024, 1, 128]
-    - [545, 998.744]
+    - [576, 998.744]
   - - [2944, 4, 1, 128]
-    - [630, 98.7471]
+    - [661, 98.7471]
   - - [1024, 704, 1, 1280]
-    - [616, 5897.0]
+    - [647, 5897.0]
   - - [128, 5888, 1, 256]
-    - [616, 5014.08]
+    - [647, 5014.08]
   - - [1024, 5056, 1, 1280]
-    - [615, 8857.81]
+    - [646, 8857.81]
   - - [4288, 1024, 1, 256]
-    - [621, 6195.39]
+    - [652, 6195.39]
   - - [2944, 2368, 1, 128]
-    - [599, 4442.23]
+    - [630, 4442.23]
   - - [704, 704, 1, 3328]
-    - [616, 6764.4]
+    - [647, 6764.4]
   - - [704, 1408, 1, 1280]
-    - [617, 7383.58]
+    - [648, 7383.58]
   - - [5888, 448, 1, 1280]
-    - [615, 7299.49]
+    - [646, 7299.49]
   - - [3584, 256, 1, 3328]
-    - [613, 7061.72]
+    - [644, 7061.72]
   - - [704, 5888, 1, 3328]
-    - [617, 8142.42]
+    - [648, 8142.42]
   - - [704, 1856, 1, 128]
-    - [603, 3139.14]
+    - [634, 3139.14]
   - - [448, 448, 1, 3328]
-    - [581, 5063.34]
+    - [612, 5063.34]
   - - [4, 4288, 1, 128]
-    - [631, 64.9775]
+    - [662, 64.9775]
   - - [128, 704, 1, 1280]
-    - [551, 3400.55]
+    - [582, 3400.55]
   - - [3584, 2944, 1, 256]
-    - [621, 7982.14]
+    - [652, 7982.14]
   - - [3584, 4, 1, 128]
-    - [630, 105.318]
+    - [661, 105.318]
   - - [1856, 128, 1, 3328]
-    - [582, 5442.19]
+    - [613, 5442.19]
   - - [4, 64, 1, 1280]
-    - [636, 42.3268]
+    - [667, 42.3268]
   - - [2944, 448, 1, 128]
-    - [599, 2926.95]
+    - [630, 2926.95]
   - - [128, 2944, 1, 1280]
-    - [610, 5109.69]
+    - [641, 5109.69]
   - - [64, 64, 1, 3328]
-    - [578, 1252.99]
+    - [609, 1252.99]
   - - [448, 2944, 1, 1280]
-    - [619, 6684.47]
+    - [650, 6684.47]
   - - [512, 24000, 1, 2048]
-    - [615, 7939.03]
+    - [646, 7939.03]
   - - [128, 256, 1, 3328]
-    - [596, 3276.9]
+    - [627, 3276.9]
   - - [1408, 5056, 1, 3328]
-    - [621, 8959.21]
+    - [652, 8959.21]
   - - [1856, 1856, 1, 3328]
-    - [611, 8006.17]
+    - [642, 8006.17]
   - - [3584, 128, 1, 256]
-    - [616, 4292.52]
+    - [647, 4292.52]
   - - [2560, 800, 1, 2560]
-    - [611, 6262.48]
+    - [642, 6262.48]
   - - [448, 1408, 1, 3328]
-    - [627, 4997.35]
+    - [658, 4997.35]
   - - [2368, 2368, 1, 256]
-    - [629, 4978.94]
+    - [660, 4978.94]
   - - [4288, 4288, 1, 1280]
-    - [608, 8617.78]
+    - [639, 8617.78]
   - - [64, 448, 1, 1280]
-    - [554, 2057.28]
+    - [585, 2057.28]
   - - [5888, 1024, 1, 1280]
-    - [626, 6848.17]
+    - [657, 6848.17]
   - - [1408, 4288, 1, 256]
-    - [609, 7077.01]
+    - [640, 7077.01]
   - - [448, 4, 1, 256]
-    - [634, 84.4294]
+    - [665, 84.4294]
   - - [5888, 448, 1, 128]
-    - [603, 3493.91]
+    - [634, 3493.91]
   - - [512, 48000, 1, 2560]
-    - [621, 8960.13]
+    - [652, 8960.13]
   - - [35, 8457, 1, 1760]
-    - [523, 3934.78]
+    - [554, 3934.78]
   - - [704, 6784, 1, 3328]
-    - [608, 8180.88]
+    - [639, 8180.88]
   - - [2560, 6400, 1, 2560]
-    - [609, 7822.24]
+    - [640, 7822.24]
   - - [5056, 1024, 1, 1280]
-    - [611, 8357.38]
+    - [642, 8357.38]
   - - [448, 5888, 1, 3328]
-    - [615, 7505.28]
+    - [646, 7505.28]
   - - [128, 4, 1, 128]
-    - [630, 0.662251]
+    - [661, 0.662251]
   - - [1024, 2944, 1, 1280]
-    - [615, 8406.24]
+    - [646, 8406.24]
   - - [5056, 5888, 1, 1280]
-    - [615, 8819.76]
+    - [646, 8819.76]
   - - [4288, 5888, 1, 128]
-    - [600, 3522.32]
+    - [631, 3522.32]
   - - [256, 3584, 1, 256]
-    - [611, 5883.89]
+    - [642, 5883.89]
   - - [1408, 3584, 1, 128]
-    - [599, 4283.41]
+    - [630, 4283.41]
   - - [256, 2944, 1, 3328]
-    - [619, 5670.63]
+    - [650, 5670.63]
   - - [448, 3584, 1, 128]
-    - [603, 3171.72]
+    - [634, 3171.72]
   - - [5888, 2944, 1, 1280]
-    - [621, 8198.86]
+    - [652, 8198.86]
   - - [4, 6784, 1, 1280]
-    - [568, 553.896]
+    - [599, 553.896]
   - - [2368, 5888, 1, 128]
-    - [599, 4787.32]
+    - [630, 4787.32]
   - - [8448, 16, 1, 2816]
-    - [558, 2452.63]
+    - [589, 2452.63]
   - - [64, 2944, 1, 128]
-    - [531, 1376.66]
+    - [562, 1376.66]
   - - [2368, 4, 1, 256]
-    - [553, 278.177]
+    - [584, 278.177]
   - - [3584, 5888, 1, 256]
-    - [629, 6233.66]
+    - [660, 6233.66]
   - - [2368, 1024, 1, 128]
-    - [600, 3781.51]
+    - [631, 3781.51]
   - - [2368, 704, 1, 128]
-    - [600, 3198.32]
+    - [631, 3198.32]
   - - [3584, 2944, 1, 1280]
-    - [611, 8045.68]
+    - [642, 8045.68]
   - - [3584, 2368, 1, 128]
-    - [600, 4188.57]
+    - [631, 4188.57]
   - - [5056, 704, 1, 128]
-    - [603, 4019.21]
+    - [634, 4019.21]
   - - [448, 2368, 1, 128]
-    - [605, 2522.21]
+    - [636, 2522.21]
   - - [5056, 1408, 1, 3328]
-    - [613, 8349.93]
+    - [644, 8349.93]
   - - [1408, 704, 1, 256]
-    - [619, 4741.42]
+    - [650, 4741.42]
   - - [6784, 1024, 1, 3328]
-    - [621, 8769.5]
+    - [652, 8769.5]
   - - [6784, 2944, 1, 3328]
-    - [618, 7319.74]
+    - [649, 7319.74]
   - - [2944, 5056, 1, 3328]
-    - [608, 8889.76]
+    - [639, 8889.76]
   - - [1856, 1856, 1, 256]
-    - [611, 6309.84]
+    - [642, 6309.84]
   - - [1024, 5888, 1, 128]
-    - [602, 3759.6]
+    - [633, 3759.6]
   - - [6784, 2368, 1, 1280]
-    - [611, 8298.4]
+    - [642, 8298.4]
   - - [256, 4, 1, 128]
-    - [630, 7.10171]
+    - [661, 7.10171]
   - - [4288, 5888, 1, 1280]
-    - [615, 8365.28]
+    - [646, 8365.28]
   - - [4288, 4288, 1, 256]
-    - [615, 6513.78]
+    - [646, 6513.78]
   - - [8448, 32, 1, 2816]
-    - [586, 4257.74]
+    - [617, 4257.74]
   - - [448, 2944, 1, 3328]
-    - [619, 6875.62]
+    - [650, 6875.62]
   - - [5888, 4, 1, 128]
-    - [630, 163.94]
+    - [661, 163.94]
   - - [4288, 1856, 1, 1280]
-    - [615, 8402.91]
+    - [646, 8402.91]
   - - [1856, 2944, 1, 3328]
-    - [615, 6612.21]
+    - [646, 6612.21]
   - - [256, 6784, 1, 3328]
-    - [616, 7358.7]
+    - [647, 7358.7]
   - - [64, 5888, 1, 256]
-    - [610, 3359.05]
+    - [641, 3359.05]
   - - [256, 5056, 1, 128]
-    - [603, 2489.21]
+    - [634, 2489.21]
   - - [5056, 1024, 1, 256]
-    - [621, 8077.87]
+    - [652, 8077.87]
   - - [704, 64, 1, 3328]
-    - [565, 3288.4]
+    - [596, 3288.4]
   - - [5056, 1856, 1, 3328]
-    - [619, 8171.13]
+    - [650, 8171.13]
   - - [4, 2944, 1, 3328]
-    - [578, 546.843]
+    - [609, 546.843]
   - - [4, 5056, 1, 256]
-    - [553, 378.561]
+    - [584, 378.561]
   - - [1856, 1408, 1, 256]
-    - [621, 6320.88]
+    - [652, 6320.88]
   - - [8448, 12000, 1, 2816]
-    - [619, 7365.87]
+    - [650, 7365.87]
   - - [6784, 128, 1, 3328]
-    - [616, 6366.57]
+    - [647, 6366.57]
   - - [4288, 1408, 1, 128]
-    - [599, 4451.7]
+    - [630, 4451.7]
   - - [1856, 5888, 1, 3328]
-    - [617, 8619.76]
+    - [648, 8619.76]
   - - [4288, 5056, 1, 256]
-    - [621, 7289.05]
+    - [652, 7289.05]
   - - [1408, 128, 1, 1280]
-    - [559, 4291.15]
+    - [590, 4291.15]
   - - [4096, 800, 1, 1024]
-    - [610, 5867.89]
+    - [641, 5867.89]
   - - [5056, 256, 1, 3328]
-    - [616, 7527.61]
+    - [647, 7527.61]
   - - [704, 704, 1, 256]
-    - [616, 4417.85]
+    - [647, 4417.85]
   - - [1024, 5888, 1, 1280]
-    - [621, 8674.57]
+    - [652, 8674.57]
   - - [6784, 2368, 1, 128]
-    - [599, 4724.08]
+    - [630, 4724.08]
   - - [4, 5056, 1, 1280]
-    - [568, 540.307]
+    - [599, 540.307]
   - - [256, 64, 1, 1280]
-    - [570, 1515.38]
+    - [601, 1515.38]
   - - [128, 1856, 1, 1280]
-    - [610, 4574.21]
+    - [641, 4574.21]
   - - [1856, 1024, 1, 1280]
-    - [615, 7741.61]
+    - [646, 7741.61]
   - - [6784, 4288, 1, 1280]
-    - [621, 8521.29]
+    - [652, 8521.29]
   - - [2560, 64, 1, 2560]
-    - [552, 3504.7]
+    - [583, 3504.7]
   - - [1856, 1856, 1, 1280]
-    - [611, 7779.31]
+    - [642, 7779.31]
   - - [4096, 400, 1, 1024]
-    - [621, 4157.81]
+    - [652, 4157.81]
   - - [3072, 24000, 1, 1024]
-    - [621, 8663.45]
+    - [652, 8663.45]
   - - [128, 4288, 1, 3328]
-    - [567, 5674.23]
+    - [598, 5674.23]
   - - [4, 2368, 1, 3328]
-    - [578, 525.48]
+    - [609, 525.48]
   - - [5888, 1856, 1, 128]
-    - [603, 4099.74]
+    - [634, 4099.74]
   - - [448, 704, 1, 1280]
-    - [616, 4309.47]
+    - [647, 4309.47]
   - - [128, 5056, 1, 1280]
-    - [559, 5068.46]
+    - [590, 5068.46]
   - - [1024, 448, 1, 3328]
-    - [619, 6077.82]
+    - [650, 6077.82]
   - - [1856, 704, 1, 1280]
-    - [627, 6257.49]
+    - [658, 6257.49]
   - - [5056, 3584, 1, 128]
-    - [600, 4598.52]
+    - [631, 4598.52]
   - - [5888, 5888, 1, 3328]
-    - [621, 8058.25]
+    - [652, 8058.25]
   - - [6784, 1024, 1, 256]
-    - [621, 5120.99]
+    - [652, 5120.99]
   - - [2944, 2368, 1, 256]
-    - [612, 6523.03]
+    - [643, 6523.03]
   - - [256, 448, 1, 256]
-    - [562, 1816.94]
+    - [593, 1816.94]
   - - [5056, 5888, 1, 3328]
-    - [614, 6722.41]
+    - [645, 6722.41]
   - - [1856, 1024, 1, 256]
-    - [621, 6632.31]
+    - [652, 6632.31]
   - - [512, 48000, 1, 1536]
-    - [615, 8556.01]
+    - [646, 8556.01]
   - - [3584, 448, 1, 1280]
-    - [610, 6567.09]
+    - [641, 6567.09]
   - - [8448, 5984, 1, 2816]
-    - [615, 8990.66]
+    - [646, 8990.66]
   - - [448, 5888, 1, 256]
-    - [615, 6220.47]
+    - [646, 6220.47]
   - - [704, 64, 1, 128]
-    - [528, 450.66]
+    - [559, 450.66]
   - - [1408, 6784, 1, 3328]
-    - [608, 8478.68]
+    - [639, 8478.68]
   - - [448, 1024, 1, 128]
-    - [607, 1844.33]
+    - [638, 1844.33]
   - - [4288, 704, 1, 128]
-    - [603, 3895.26]
+    - [634, 3895.26]
   - - [128, 1856, 1, 128]
-    - [534, 1456.46]
+    - [565, 1456.46]
   - - [448, 2368, 1, 3328]
-    - [613, 5538.04]
+    - [644, 5538.04]
   - - [5056, 64, 1, 128]
-    - [599, 1648.94]
+    - [630, 1648.94]
   - - [5056, 2944, 1, 256]
-    - [615, 8230.87]
+    - [646, 8230.87]
   - - [6784, 5888, 1, 128]
-    - [599, 4873.19]
+    - [630, 4873.19]
   - - [1024, 700, 1, 512]
-    - [613, 4445.37]
+    - [644, 4445.37]
   - - [704, 1024, 1, 256]
-    - [611, 4707.99]
+    - [642, 4707.99]
   - - [1024, 4, 1, 256]
-    - [553, 174.863]
+    - [584, 174.863]
   - - [2944, 704, 1, 128]
-    - [603, 3483.42]
+    - [634, 3483.42]
   - - [128, 6784, 1, 1280]
-    - [611, 6522.93]
+    - [642, 6522.93]
   - - [1408, 3584, 1, 3328]
-    - [615, 8673.59]
+    - [646, 8673.59]
   - - [2368, 6784, 1, 256]
-    - [611, 7941.76]
+    - [642, 7941.76]
   - - [5056, 1408, 1, 1280]
-    - [615, 8801.01]
+    - [646, 8801.01]
   - - [256, 256, 1, 128]
-    - [540, 551.982]
+    - [571, 551.982]
   - - [5056, 4288, 1, 128]
-    - [607, 3793.64]
+    - [638, 3793.64]
   - - [1408, 1856, 1, 128]
-    - [599, 3067.74]
+    - [630, 3067.74]
   - - [1408, 5888, 1, 3328]
-    - [615, 9148.97]
+    - [646, 9148.97]
   - - [1856, 256, 1, 256]
-    - [611, 4319.52]
+    - [642, 4319.52]
   - - [6784, 6784, 1, 256]
-    - [611, 7668.53]
+    - [642, 7668.53]
   - - [64, 256, 1, 128]
-    - [545, 131.172]
+    - [576, 131.172]
   - - [4288, 2368, 1, 128]
-    - [600, 4582.99]
+    - [631, 4582.99]
   - - [256, 4288, 1, 1280]
-    - [610, 6058.61]
+    - [641, 6058.61]
   - - [2368, 2944, 1, 256]
-    - [615, 8016.07]
+    - [646, 8016.07]
   - - [4, 1856, 1, 256]
-    - [632, 252.832]
+    - [663, 252.832]
   - - [3584, 1856, 1, 1280]
-    - [611, 7760.24]
+    - [642, 7760.24]
   - - [6784, 6784, 1, 128]
-    - [600, 4970.14]
+    - [631, 4970.14]
   - - [256, 1856, 1, 128]
-    - [606, 1580.59]
+    - [637, 1580.59]
   - - [704, 64, 1, 1280]
-    - [595, 2556.47]
+    - [626, 2556.47]
   - - [5888, 5056, 1, 256]
-    - [615, 8216.67]
+    - [646, 8216.67]
   - - [8448, 48000, 1, 2816]
-    - [621, 4082.89]
+    - [652, 4082.89]
   - - [3584, 448, 1, 256]
-    - [615, 5518.92]
+    - [646, 5518.92]
   - - [448, 4288, 1, 128]
-    - [603, 3415.25]
+    - [634, 3415.25]
   - - [7680, 64, 1, 2560]
-    - [564, 5162.1]
+    - [595, 5162.1]
   - - [256, 6784, 1, 256]
-    - [615, 6272.62]
+    - [646, 6272.62]
   - - [1408, 4288, 1, 128]
-    - [603, 4343.63]
+    - [634, 4343.63]
   - - [2944, 704, 1, 3328]
-    - [610, 7679.71]
+    - [641, 7679.71]
   - - [128, 448, 1, 256]
-    - [550, 1422.59]
+    - [581, 1422.59]
   - - [5056, 256, 1, 1280]
-    - [617, 5052.39]
+    - [648, 5052.39]
   - - [2560, 32, 1, 2560]
-    - [573, 3106.07]
+    - [604, 3106.07]
   - - [3584, 3584, 1, 256]
-    - [621, 8260.57]
+    - [652, 8260.57]
   - - [448, 1408, 1, 128]
-    - [599, 2397.38]
+    - [630, 2397.38]
   - - [128, 256, 1, 1280]
-    - [554, 2340.67]
+    - [585, 2340.67]
   - - [3584, 5056, 1, 256]
-    - [621, 7347.56]
+    - [652, 7347.56]
   - - [6784, 128, 1, 256]
-    - [611, 5591.1]
+    - [642, 5591.1]
   - - [4288, 4, 1, 256]
-    - [553, 354.206]
+    - [584, 354.206]
   - - [704, 448, 1, 256]
-    - [616, 3492.33]
+    - [647, 3492.33]
   - - [2944, 2368, 1, 1280]
-    - [623, 6661.71]
+    - [654, 6661.71]
   - - [448, 64, 1, 3328]
-    - [595, 3058.45]
+    - [626, 3058.45]
   - - [1408, 3584, 1, 256]
-    - [621, 7966.59]
+    - [652, 7966.59]
   - - [3584, 4, 1, 3328]
-    - [634, 605.559]
+    - [665, 605.559]
   - - [6784, 3584, 1, 256]
-    - [611, 7525.41]
+    - [642, 7525.41]
   - - [256, 128, 1, 128]
-    - [543, 276.041]
+    - [574, 276.041]
   - - [704, 1408, 1, 128]
-    - [600, 3109.85]
+    - [631, 3109.85]
   - - [4, 2368, 1, 256]
-    - [634, 283.375]
+    - [665, 283.375]
   - - [4288, 128, 1, 1280]
-    - [616, 5132.65]
+    - [647, 5132.65]
   - - [128, 1408, 1, 256]
-    - [610, 2733.35]
+    - [641, 2733.35]
   - - [4, 2944, 1, 256]
-    - [632, 314.127]
+    - [663, 314.127]
   - - [64, 128, 1, 3328]
-    - [580, 1514.71]
+    - [611, 1514.71]
   - - [5056, 2368, 1, 128]
-    - [604, 3449.17]
+    - [635, 3449.17]
   - - [2944, 2944, 1, 3328]
-    - [608, 8169.03]
+    - [639, 8169.03]
   - - [5056, 6784, 1, 256]
-    - [628, 5792.77]
+    - [659, 5792.77]
   - - [1856, 3584, 1, 128]
-    - [605, 4213.5]
+    - [636, 4213.5]
   - - [128, 2944, 1, 128]
-    - [529, 1970.46]
+    - [560, 1970.46]
   - - [35, 8457, 1, 2560]
-    - [524, 3525.15]
+    - [555, 3525.15]
   - - [1024, 704, 1, 3328]
-    - [610, 6784.99]
+    - [641, 6784.99]
   - - [6784, 448, 1, 256]
-    - [619, 6544.88]
+    - [650, 6544.88]
   - - [3584, 6784, 1, 128]
-    - [599, 4623.6]
+    - [630, 4623.6]
   - - [128, 4288, 1, 256]
-    - [613, 3606.6]
+    - [644, 3606.6]
   - - [704, 448, 1, 3328]
-    - [610, 4478.01]
+    - [641, 4478.01]
   - - [128, 128, 1, 3328]
-    - [595, 2177.65]
+    - [626, 2177.65]
   - - [5056, 1856, 1, 256]
-    - [629, 5608.72]
+    - [660, 5608.72]
   - - [4608, 5984, 1, 1536]
-    - [618, 7859.85]
+    - [649, 7859.85]
   - - [256, 128, 1, 256]
-    - [554, 998.744]
+    - [585, 998.744]
   - - [1760, 3200, 1, 1760]
-    - [611, 8179.64]
+    - [642, 8179.64]
   - - [1024, 1856, 1, 256]
-    - [621, 6143.27]
+    - [652, 6143.27]
   - - [4096, 1600, 1, 1024]
-    - [629, 5851.52]
+    - [660, 5851.52]
   - - [4288, 64, 1, 128]
-    - [534, 1372.26]
+    - [565, 1372.26]
   - - [256, 448, 1, 3328]
-    - [573, 4795.1]
+    - [604, 4795.1]
   - - [1408, 6784, 1, 1280]
-    - [615, 8426.5]
+    - [646, 8426.5]
   - - [3584, 3584, 1, 1280]
-    - [615, 7556.56]
+    - [646, 7556.56]
   - - [7680, 24000, 1, 2560]
-    - [608, 5019.19]
+    - [639, 5019.19]
   - - [64, 2368, 1, 1280]
-    - [559, 4061.8]
+    - [590, 4061.8]
   - - [448, 2368, 1, 1280]
-    - [610, 5928.77]
+    - [641, 5928.77]
   - - [4608, 48000, 1, 1536]
-    - [615, 6937.4]
+    - [646, 6937.4]
   - - [5888, 5888, 1, 128]
-    - [600, 3744.0]
+    - [631, 3744.0]
   - - [64, 6784, 1, 3328]
-    - [610, 5988.72]
+    - [641, 5988.72]
   - - [2944, 256, 1, 1280]
-    - [616, 6717.97]
+    - [647, 6717.97]
   - - [2048, 16, 1, 2048]
-    - [568, 1210.58]
+    - [599, 1210.58]
   - - [256, 2368, 1, 128]
-    - [603, 1936.07]
+    - [634, 1936.07]
   - - [5056, 2368, 1, 3328]
-    - [621, 8875.63]
+    - [652, 8875.63]
   - - [2944, 4288, 1, 256]
-    - [615, 8063.24]
+    - [646, 8063.24]
   - - [1408, 3584, 1, 1280]
-    - [611, 8197.07]
+    - [642, 8197.07]
   - - [2368, 64, 1, 256]
-    - [610, 2365.79]
+    - [641, 2365.79]
   - - [64, 448, 1, 3328]
-    - [596, 3027.4]
+    - [627, 3027.4]
   - - [704, 128, 1, 3328]
-    - [567, 4452.19]
+    - [598, 4452.19]
   - - [8192, 1600, 1, 2048]
-    - [615, 7229.93]
+    - [646, 7229.93]
   - - [1856, 704, 1, 256]
-    - [617, 5545.45]
+    - [648, 5545.45]
   - - [4, 4288, 1, 1280]
-    - [568, 523.825]
+    - [599, 523.825]
   - - [1408, 448, 1, 3328]
-    - [622, 4789.4]
+    - [653, 4789.4]
   - - [1024, 4, 1, 3328]
-    - [548, 504.223]
+    - [579, 504.223]
   - - [512, 24000, 1, 2560]
-    - [621, 8903.62]
+    - [652, 8903.62]
   - - [2368, 6784, 1, 3328]
-    - [621, 8311.14]
+    - [652, 8311.14]
   - - [1856, 1408, 1, 1280]
-    - [611, 8160.11]
+    - [642, 8160.11]
   - - [1856, 448, 1, 1280]
-    - [613, 6243.07]
+    - [644, 6243.07]
   - - [6784, 704, 1, 128]
-    - [599, 4069.05]
+    - [630, 4069.05]
   - - [4, 4, 1, 256]
-    - [568, 0.842029]
+    - [599, 0.842029]
   - - [128, 5888, 1, 128]
-    - [599, 2328.02]
+    - [630, 2328.02]
   - - [1408, 5888, 1, 256]
-    - [610, 6986.91]
+    - [641, 6986.91]
   - - [704, 2944, 1, 1280]
-    - [611, 7905.03]
+    - [642, 7905.03]
   - - [4288, 64, 1, 1280]
-    - [586, 3828.27]
+    - [617, 3828.27]
   - - [256, 64, 1, 256]
-    - [561, 655.46]
+    - [592, 655.46]
   - - [704, 1856, 1, 256]
-    - [619, 5444.37]
+    - [650, 5444.37]
   - - [704, 6784, 1, 128]
-    - [599, 4319.77]
+    - [630, 4319.77]
   - - [3584, 704, 1, 1280]
-    - [619, 7726.43]
+    - [650, 7726.43]
   - - [256, 128, 1, 1280]
-    - [554, 2184.63]
+    - [585, 2184.63]
   - - [5888, 2368, 1, 256]
-    - [621, 8192.69]
+    - [652, 8192.69]
   - - [256, 2368, 1, 1280]
-    - [616, 5675.54]
+    - [647, 5675.54]
   - - [2944, 6784, 1, 128]
-    - [604, 4248.35]
+    - [635, 4248.35]
   - - [3584, 448, 1, 3328]
-    - [615, 6560.77]
+    - [646, 6560.77]
   - - [1408, 4, 1, 256]
-    - [633, 176.79]
+    - [664, 176.79]
   - - [704, 2368, 1, 3328]
-    - [616, 7085.31]
+    - [647, 7085.31]
   - - [2944, 448, 1, 256]
-    - [612, 3412.0]
+    - [643, 3412.0]
   - - [1856, 448, 1, 128]
-    - [600, 2748.82]
+    - [631, 2748.82]
   - - [4288, 4, 1, 3328]
-    - [568, 553.648]
+    - [599, 553.648]
   - - [2368, 128, 1, 1280]
-    - [589, 4173.65]
+    - [620, 4173.65]
   - - [256, 5888, 1, 128]
-    - [604, 2860.98]
+    - [635, 2860.98]
   - - [64, 6784, 1, 256]
-    - [617, 3637.18]
+    - [648, 3637.18]
   - - [64, 5056, 1, 1280]
-    - [616, 4289.53]
+    - [647, 4289.53]
   - - [4, 6784, 1, 128]
-    - [630, 160.906]
+    - [661, 160.906]
   - - [2048, 3200, 1, 512]
-    - [617, 6927.09]
+    - [648, 6927.09]
   - - [2944, 2944, 1, 1280]
-    - [609, 6267.85]
+    - [640, 6267.85]
   - - [5056, 448, 1, 3328]
-    - [610, 7400.36]
+    - [641, 7400.36]
   - - [4, 3584, 1, 1280]
-    - [568, 499.83]
+    - [599, 499.83]
   - - [1408, 128, 1, 128]
-    - [545, 1037.36]
+    - [576, 1037.36]
   - - [6784, 704, 1, 3328]
-    - [616, 7633.95]
+    - [647, 7633.95]
   - - [128, 64, 1, 1280]
-    - [568, 1170.39]
+    - [599, 1170.39]
   - - [2368, 256, 1, 1280]
-    - [616, 5609.89]
+    - [647, 5609.89]
   - - [4, 448, 1, 3328]
-    - [636, 358.5]
+    - [667, 358.5]
   - - [5888, 4288, 1, 128]
-    - [604, 4521.74]
+    - [635, 4521.74]
   - - [4, 5888, 1, 256]
-    - [568, 353.933]
+    - [599, 353.933]
   - - [1408, 2944, 1, 3328]
-    - [609, 8951.41]
+    - [640, 8951.41]
   - - [3584, 704, 1, 128]
-    - [599, 3395.41]
+    - [630, 3395.41]
   - - [4608, 12000, 1, 1536]
-    - [608, 6609.99]
+    - [639, 6609.99]
   - - [64, 1024, 1, 256]
-    - [554, 1588.85]
+    - [585, 1588.85]
   - - [5056, 5056, 1, 128]
-    - [599, 4080.81]
+    - [630, 4080.81]
   - - [2368, 448, 1, 1280]
-    - [610, 5423.04]
+    - [641, 5423.04]
   - - [128, 3584, 1, 256]
-    - [616, 4705.25]
+    - [647, 4705.25]
   - - [704, 448, 1, 1280]
-    - [613, 3961.07]
+    - [644, 3961.07]
   - - [8192, 800, 1, 2048]
-    - [611, 6306.36]
+    - [642, 6306.36]
   - - [448, 5056, 1, 128]
-    - [603, 3709.56]
+    - [634, 3709.56]
   - - [256, 4, 1, 1280]
-    - [635, 163.94]
+    - [666, 163.94]
   - - [5056, 3584, 1, 256]
-    - [608, 7008.34]
+    - [639, 7008.34]
   - - [2368, 4, 1, 3328]
-    - [568, 496.366]
+    - [599, 496.366]
   - - [1408, 5056, 1, 128]
-    - [603, 4175.37]
+    - [634, 4175.37]
   - - [2944, 3584, 1, 128]
-    - [599, 4659.79]
+    - [630, 4659.79]
   - - [3584, 2368, 1, 256]
-    - [621, 5851.87]
+    - [652, 5851.87]
   - - [128, 3584, 1, 3328]
-    - [611, 6105.04]
+    - [642, 6105.04]
   - - [128, 1024, 1, 1280]
-    - [551, 3848.09]
+    - [582, 3848.09]
   - - [8448, 24000, 1, 2816]
-    - [621, 5128.64]
+    - [652, 5128.64]
   - - [64, 704, 1, 256]
-    - [554, 1253.83]
+    - [585, 1253.83]
   - - [4288, 256, 1, 1280]
-    - [610, 5625.86]
+    - [641, 5625.86]
   - - [3584, 3584, 1, 3328]
-    - [615, 8206.15]
+    - [646, 8206.15]
   - - [4, 704, 1, 128]
-    - [630, 29.5484]
+    - [661, 29.5484]
   - - [5888, 6784, 1, 256]
-    - [617, 8248.75]
+    - [648, 8248.75]
   - - [4288, 2944, 1, 3328]
-    - [615, 8657.12]
+    - [646, 8657.12]
   - - [2944, 64, 1, 128]
-    - [534, 1240.7]
+    - [565, 1240.7]
   - - [1024, 128, 1, 3328]
-    - [559, 4433.1]
+    - [590, 4433.1]
   - - [1024, 16, 1, 500000]
-    - [522, 2571.15]
+    - [553, 2571.15]
   - - [4288, 128, 1, 3328]
-    - [559, 5716.85]
+    - [590, 5716.85]
   - - [7680, 128, 1, 2560]
-    - [557, 5488.1]
+    - [588, 5488.1]
   - - [256, 5056, 1, 1280]
-    - [617, 6380.06]
+    - [648, 6380.06]
   - - [1408, 256, 1, 128]
-    - [603, 1633.83]
+    - [634, 1633.83]
   - - [2944, 5888, 1, 3328]
-    - [612, 7849.02]
+    - [643, 7849.02]
   - - [6784, 5888, 1, 1280]
-    - [621, 9047.72]
+    - [652, 9047.72]
   - - [2048, 800, 1, 512]
-    - [616, 4841.17]
+    - [647, 4841.17]
   - - [704, 128, 1, 256]
-    - [561, 1567.27]
+    - [592, 1567.27]
   - - [5888, 4288, 1, 1280]
-    - [615, 7982.93]
+    - [646, 7982.93]
   - - [1024, 24000, 1, 2048]
-    - [617, 5774.4]
+    - [648, 5774.4]
   - - [448, 256, 1, 1280]
-    - [551, 3707.19]
+    - [582, 3707.19]
   - - [5888, 3584, 1, 128]
-    - [604, 3804.5]
+    - [635, 3804.5]
   - - [1024, 2944, 1, 128]
-    - [599, 3308.36]
+    - [630, 3308.36]
   - - [5056, 4, 1, 1280]
-    - [632, 469.062]
+    - [663, 469.062]
   - - [256, 1408, 1, 1280]
-    - [610, 4899.99]
+    - [641, 4899.99]
   - - [3072, 16, 1, 1024]
-    - [568, 1233.72]
+    - [599, 1233.72]
   - - [704, 3584, 1, 128]
-    - [599, 3919.53]
+    - [630, 3919.53]
   - - [5888, 448, 1, 3328]
-    - [629, 6095.71]
+    - [660, 6095.71]
   - - [2368, 4288, 1, 1280]
-    - [611, 8338.4]
+    - [642, 8338.4]
   - - [4288, 2944, 1, 128]
-    - [603, 3946.6]
+    - [634, 3946.6]
   - - [1024, 6784, 1, 3328]
-    - [617, 7494.38]
+    - [648, 7494.38]
   - - [128, 2368, 1, 256]
-    - [616, 2895.42]
+    - [647, 2895.42]
   - - [6784, 64, 1, 3328]
-    - [610, 5964.99]
+    - [641, 5964.99]
   - - [5056, 2944, 1, 3328]
-    - [621, 6605.63]
+    - [652, 6605.63]
   - - [448, 128, 1, 256]
-    - [554, 1339.52]
+    - [585, 1339.52]
   - - [2944, 3584, 1, 256]
-    - [617, 7165.66]
+    - [648, 7165.66]
   - - [1408, 1408, 1, 3328]
-    - [621, 8332.96]
+    - [652, 8332.96]
   - - [1856, 128, 1, 1280]
-    - [616, 4498.43]
+    - [647, 4498.43]
   - - [3584, 3584, 1, 128]
-    - [600, 4000.11]
+    - [631, 4000.11]
   - - [64, 3584, 1, 256]
-    - [627, 2383.23]
+    - [658, 2383.23]
   - - [1408, 4, 1, 3328]
-    - [578, 423.008]
+    - [609, 423.008]
   - - [128, 2944, 1, 3328]
-    - [583, 5430.03]
+    - [614, 5430.03]
   - - [3584, 704, 1, 256]
-    - [616, 6154.09]
+    - [647, 6154.09]
   - - [2944, 448, 1, 3328]
-    - [616, 6507.82]
+    - [647, 6507.82]
   - - [3584, 1408, 1, 3328]
-    - [621, 8829.73]
+    - [652, 8829.73]
   - - [704, 3584, 1, 1280]
-    - [611, 7860.33]
+    - [642, 7860.33]
   - - [2944, 6784, 1, 1280]
-    - [621, 8894.6]
+    - [652, 8894.6]
   - - [1856, 6784, 1, 256]
-    - [621, 8115.19]
+    - [652, 8115.19]
   - - [4288, 448, 1, 3328]
-    - [613, 6397.35]
+    - [644, 6397.35]
   - - [6784, 4288, 1, 128]
-    - [599, 4109.54]
+    - [630, 4109.54]
   - - [6784, 704, 1, 1280]
-    - [609, 7999.14]
+    - [640, 7999.14]
   - - [256, 4288, 1, 256]
-    - [613, 4603.94]
+    - [644, 4603.94]
   - - [3584, 6784, 1, 256]
-    - [621, 7361.65]
+    - [652, 7361.65]
   - - [6144, 12000, 1, 2048]
-    - [620, 6311.76]
+    - [651, 6311.76]
   - - [6144, 16, 1, 2560]
-    - [569, 2240.65]
+    - [600, 2240.65]
   - - [3584, 64, 1, 128]
-    - [540, 1292.36]
+    - [571, 1292.36]
   - - [5888, 1024, 1, 3328]
-    - [608, 8394.59]
+    - [639, 8394.59]
   - - [448, 64, 1, 128]
-    - [531, 262.244]
+    - [562, 262.244]
   - - [704, 6784, 1, 1280]
-    - [615, 7740.66]
+    - [646, 7740.66]
   - - [4, 1024, 1, 1280]
-    - [568, 378.921]
+    - [599, 378.921]
   - - [5888, 128, 1, 256]
-    - [616, 5003.68]
+    - [647, 5003.68]
   - - [4096, 16, 1, 4096]
-    - [568, 1585.85]
+    - [599, 1585.85]
   - - [1856, 5056, 1, 3328]
-    - [609, 8522.92]
+    - [640, 8522.92]
   - - [4, 6784, 1, 256]
-    - [553, 387.757]
+    - [584, 387.757]
   - - [1024, 3584, 1, 128]
-    - [603, 3031.61]
+    - [634, 3031.61]
   - - [1024, 1408, 1, 128]
-    - [605, 2600.85]
+    - [636, 2600.85]
   - - [2368, 2944, 1, 128]
-    - [602, 4340.26]
+    - [633, 4340.26]
   - - [5056, 64, 1, 256]
-    - [616, 3109.62]
+    - [647, 3109.62]
   - - [4, 448, 1, 1280]
-    - [636, 253.835]
+    - [667, 253.835]
   - - [5056, 2944, 1, 128]
-    - [607, 3740.01]
+    - [638, 3740.01]
   - - [5888, 5056, 1, 3328]
-    - [621, 9016.48]
+    - [652, 9016.48]
   - - [1024, 704, 1, 128]
-    - [603, 2363.66]
+    - [634, 2363.66]
   - - [5888, 2368, 1, 128]
-    - [606, 3651.83]
+    - [637, 3651.83]
   - - [128, 5056, 1, 3328]
-    - [610, 6243.64]
+    - [641, 6243.64]
   - - [3584, 6784, 1, 1280]
-    - [608, 9080.67]
+    - [639, 9080.67]
   - - [448, 4, 1, 1280]
-    - [636, 243.083]
+    - [667, 243.083]
   - - [1856, 5888, 1, 256]
-    - [621, 8182.12]
+    - [652, 8182.12]
   - - [256, 256, 1, 256]
-    - [554, 1542.12]
+    - [585, 1542.12]
   - - [256, 64, 1, 128]
-    - [535, 135.226]
+    - [566, 135.226]
   - - [4288, 4288, 1, 3328]
-    - [621, 8674.64]
+    - [652, 8674.64]
   - - [4288, 1408, 1, 1280]
-    - [609, 7867.18]
+    - [640, 7867.18]
   - - [3584, 5056, 1, 128]
-    - [599, 4457.83]
+    - [630, 4457.83]
   - - [4, 1024, 1, 3328]
-    - [548, 440.394]
+    - [579, 440.394]
   - - [4288, 2368, 1, 256]
-    - [629, 5699.57]
+    - [660, 5699.57]
   - - [2944, 5056, 1, 1280]
-    - [621, 8236.56]
+    - [652, 8236.56]
   - - [448, 6784, 1, 256]
-    - [611, 6620.62]
+    - [642, 6620.62]
   - - [64, 128, 1, 128]
-    - [536, 67.6629]
+    - [567, 67.6629]
   - - [1856, 2368, 1, 128]
-    - [603, 4233.7]
+    - [634, 4233.7]
   - - [6784, 2368, 1, 3328]
-    - [621, 8269.9]
+    - [652, 8269.9]
   - - [256, 1024, 1, 1280]
-    - [610, 4882.88]
+    - [641, 4882.88]
   - - [704, 4, 1, 128]
-    - [630, 19.111]
+    - [661, 19.111]
   - - [256, 4, 1, 256]
-    - [568, 46.9114]
+    - [599, 46.9114]
   - - [4288, 128, 1, 256]
-    - [616, 4273.49]
+    - [647, 4273.49]
   - - [4288, 1856, 1, 3328]
-    - [611, 8195.81]
+    - [642, 8195.81]
   - - [3584, 448, 1, 128]
-    - [604, 2750.65]
+    - [635, 2750.65]
   - - [2048, 1600, 1, 2048]
-    - [627, 5753.59]
+    - [658, 5753.59]
   - - [256, 4, 1, 3328]
-    - [637, 297.978]
+    - [668, 297.978]
   - - [4, 1408, 1, 1280]
-    - [635, 402.386]
+    - [666, 402.386]
   - - [3584, 64, 1, 1280]
-    - [624, 4096.1]
+    - [655, 4096.1]
   - - [1408, 448, 1, 128]
-    - [599, 2498.25]
+    - [630, 2498.25]
   - - [3584, 1024, 1, 1280]
-    - [621, 7252.18]
+    - [652, 7252.18]
   - - [1856, 5056, 1, 256]
-    - [615, 7711.59]
+    - [646, 7711.59]
   - - [4, 3584, 1, 256]
-    - [632, 314.314]
+    - [663, 314.314]
   - - [4, 2944, 1, 1280]
-    - [568, 483.218]
+    - [599, 483.218]
   - - [1024, 4288, 1, 256]
-    - [620, 6544.52]
+    - [651, 6544.52]
   - - [5888, 3584, 1, 3328]
-    - [609, 8105.15]
+    - [640, 8105.15]
   - - [1856, 4, 1, 256]
-    - [568, 252.832]
+    - [599, 252.832]
   - - [4, 256, 1, 256]
-    - [553, 48.2882]
+    - [584, 48.2882]
   - - [5056, 3584, 1, 3328]
-    - [614, 7354.8]
+    - [645, 7354.8]
   - - [704, 448, 1, 128]
-    - [607, 1233.91]
+    - [638, 1233.91]
   - - [2368, 1408, 1, 1280]
-    - [615, 6654.24]
+    - [646, 6654.24]
   - - [5056, 2944, 1, 1280]
-    - [621, 8505.72]
+    - [652, 8505.72]
   - - [4, 4, 1, 128]
-    - [631, 0.1478505]
+    - [662, 0.1478505]
   - - [3584, 256, 1, 256]
-    - [613, 4616.47]
+    - [644, 4616.47]
   - - [1024, 6784, 1, 256]
-    - [615, 7944.98]
+    - [646, 7944.98]
   - - [4, 128, 1, 256]
-    - [568, 29.3571]
+    - [599, 29.3571]
   - - [64, 64, 1, 1280]
-    - [579, 642.61]
+    - [610, 642.61]
   - - [5124, 9124, 1, 2048]
-    - [621, 8019.4]
+    - [652, 8019.4]
   - - [6784, 4, 1, 128]
-    - [630, 193.067]
+    - [661, 193.067]
   - - [2944, 1408, 1, 128]
-    - [599, 3827.13]
+    - [630, 3827.13]
   - - [448, 128, 1, 3328]
-    - [572, 4064.0]
+    - [603, 4064.0]
   - - [3584, 1408, 1, 1280]
-    - [621, 7180.83]
+    - [652, 7180.83]
   - - [64, 4288, 1, 3328]
-    - [567, 4786.84]
+    - [598, 4786.84]
   - - [5056, 6784, 1, 3328]
-    - [608, 7889.83]
+    - [639, 7889.83]
   - - [128, 2944, 1, 256]
-    - [611, 3599.69]
+    - [642, 3599.69]
   - - [128, 6784, 1, 128]
-    - [529, 2606.79]
+    - [560, 2606.79]
   - - [3584, 4288, 1, 256]
-    - [615, 7299.81]
+    - [646, 7299.81]
   - - [448, 1856, 1, 256]
-    - [611, 5207.07]
+    - [642, 5207.07]
   - - [1856, 6784, 1, 3328]
-    - [613, 8386.36]
+    - [644, 8386.36]
   - - [3584, 128, 1, 3328]
-    - [557, 5590.04]
+    - [588, 5590.04]
   - - [64, 1856, 1, 256]
-    - [550, 1949.38]
+    - [581, 1949.38]
   - - [64, 448, 1, 256]
-    - [555, 955.833]
+    - [586, 955.833]
   - - [5888, 4288, 1, 256]
-    - [619, 7791.84]
+    - [650, 7791.84]
   - - [4, 448, 1, 128]
-    - [630, 8.84146]
+    - [661, 8.84146]
   - - [5056, 1408, 1, 256]
-    - [621, 5154.01]
+    - [652, 5154.01]
   - - [35, 8457, 1, 2048]
-    - [526, 3182.57]
+    - [557, 3182.57]
   - - [64, 256, 1, 1280]
-    - [575, 1713.46]
+    - [606, 1713.46]
   - - [3584, 1024, 1, 256]
-    - [611, 6528.18]
+    - [642, 6528.18]
   - - [256, 704, 1, 256]
-    - [610, 2720.46]
+    - [641, 2720.46]
   - - [5888, 5888, 1, 256]
-    - [619, 7992.26]
+    - [650, 7992.26]
   - - [4288, 1024, 1, 1280]
-    - [613, 7837.5]
+    - [644, 7837.5]
   - - [5888, 128, 1, 3328]
-    - [616, 7181.13]
+    - [647, 7181.13]
   - - [448, 6784, 1, 3328]
-    - [610, 7663.1]
+    - [641, 7663.1]
   - - [2944, 1408, 1, 1280]
-    - [619, 7903.14]
+    - [650, 7903.14]
   - - [64, 128, 1, 1280]
-    - [568, 1191.66]
+    - [599, 1191.66]
   - - [2944, 1856, 1, 3328]
-    - [609, 7844.41]
+    - [640, 7844.41]
   - - [2368, 64, 1, 128]
-    - [540, 997.973]
+    - [571, 997.973]
   - - [256, 1024, 1, 128]
-    - [599, 1215.84]
+    - [630, 1215.84]
   - - [3584, 5888, 1, 1280]
-    - [608, 8958.94]
+    - [639, 8958.94]
   - - [64, 4, 1, 128]
-    - [631, 1.21608]
+    - [662, 1.21608]
   - - [6784, 1856, 1, 1280]
-    - [608, 6728.8]
+    - [639, 6728.8]
   - - [2944, 5056, 1, 256]
-    - [621, 8275.21]
+    - [652, 8275.21]
   - - [4288, 4, 1, 128]
-    - [630, 147.644]
+    - [661, 147.644]
   - - [5888, 256, 1, 3328]
-    - [617, 7094.2]
+    - [648, 7094.2]
   - - [2944, 4288, 1, 128]
-    - [602, 4611.55]
+    - [633, 4611.55]
   - - [3584, 1408, 1, 256]
-    - [612, 6543.06]
+    - [643, 6543.06]
   - - [704, 3584, 1, 3328]
-    - [611, 8117.2]
+    - [642, 8117.2]
   - - [4096, 3200, 1, 1024]
-    - [626, 6656.13]
+    - [657, 6656.13]
   - - [5056, 448, 1, 1280]
-    - [624, 6096.2]
+    - [655, 6096.2]
   - - [3584, 1856, 1, 3328]
-    - [609, 8552.41]
+    - [640, 8552.41]
   - - [4288, 6784, 1, 1280]
-    - [615, 8212.46]
+    - [646, 8212.46]
   - - [2560, 7000, 1, 2560]
-    - [617, 7655.34]
+    - [648, 7655.34]
   - - [1408, 704, 1, 1280]
-    - [613, 5756.79]
+    - [644, 5756.79]
   - - [2944, 1024, 1, 256]
-    - [621, 6880.91]
+    - [652, 6880.91]
   - - [6784, 64, 1, 256]
-    - [616, 4438.96]
+    - [647, 4438.96]
   - - [2368, 4288, 1, 3328]
-    - [617, 8377.99]
+    - [648, 8377.99]
   - - [4, 1408, 1, 256]
-    - [634, 222.599]
+    - [665, 222.599]
   - - [1024, 1408, 1, 1280]
-    - [611, 6339.38]
+    - [642, 6339.38]
   - - [64, 64, 1, 256]
-    - [568, 187.346]
+    - [599, 187.346]
   - - [704, 256, 1, 3328]
-    - [610, 4046.14]
+    - [641, 4046.14]
   - - [6784, 5056, 1, 256]
-    - [621, 7972.17]
+    - [652, 7972.17]
   - - [1856, 1856, 1, 128]
-    - [605, 3716.61]
+    - [636, 3716.61]
   - - [3584, 5056, 1, 3328]
-    - [621, 8684.76]
+    - [652, 8684.76]
   - - [448, 6784, 1, 128]
-    - [603, 3829.05]
+    - [634, 3829.05]
   - - [4, 704, 1, 3328]
-    - [636, 393.206]
+    - [667, 393.206]
   - - [35, 8457, 1, 4096]
-    - [525, 3173.24]
+    - [556, 3173.24]
   - - [448, 2944, 1, 256]
-    - [619, 5553.41]
+    - [650, 5553.41]
   - - [4, 4288, 1, 3328]
-    - [578, 573.211]
+    - [609, 573.211]
   - - [2944, 6784, 1, 256]
-    - [615, 8566.06]
+    - [646, 8566.06]
   - - [2944, 2944, 1, 128]
-    - [599, 4540.83]
+    - [630, 4540.83]
   - - [4, 4, 1, 1280]
-    - [578, 3.14762]
+    - [609, 3.14762]
   - - [1856, 3584, 1, 1280]
-    - [615, 7306.36]
+    - [646, 7306.36]
   - - [64, 2944, 1, 256]
-    - [627, 2292.61]
+    - [658, 2292.61]
   - - [448, 256, 1, 128]
-    - [536, 797.93]
+    - [567, 797.93]
   - - [4288, 448, 1, 128]
-    - [602, 3430.5]
+    - [633, 3430.5]
   - - [4608, 24000, 1, 1536]
-    - [620, 6820.24]
+    - [651, 6820.24]
   - - [1856, 1408, 1, 3328]
-    - [623, 6600.24]
+    - [654, 6600.24]
   - - [128, 128, 1, 128]
-    - [528, 161.917]
+    - [559, 161.917]
   - - [1024, 4288, 1, 3328]
-    - [611, 7937.08]
+    - [642, 7937.08]
   - - [448, 2368, 1, 256]
-    - [619, 4526.45]
+    - [650, 4526.45]
   - - [1024, 4, 1, 128]
-    - [631, 16.9907]
+    - [662, 16.9907]
   - - [64, 1408, 1, 1280]
-    - [551, 3345.32]
+    - [582, 3345.32]
   - - [64, 6784, 1, 1280]
-    - [616, 5526.6]
+    - [647, 5526.6]
   - - [5056, 448, 1, 256]
-    - [610, 4216.65]
+    - [641, 4216.65]
   - - [2944, 2368, 1, 3328]
-    - [621, 7000.42]
+    - [652, 7000.42]
   - - [704, 4288, 1, 3328]
-    - [627, 6414.43]
+    - [658, 6414.43]
   - - [1408, 128, 1, 256]
-    - [610, 2720.46]
+    - [641, 2720.46]
   - - [1024, 1856, 1, 1280]
-    - [621, 7682.93]
+    - [652, 7682.93]
   - - [2048, 6400, 1, 2048]
-    - [617, 7418.22]
+    - [648, 7418.22]
   - - [512, 48000, 1, 2816]
-    - [621, 8884.77]
+    - [652, 8884.77]
   - - [5124, 9124, 1, 2560]
-    - [613, 6040.8]
+    - [644, 6040.8]
   - - [128, 2368, 1, 3328]
-    - [567, 5025.66]
+    - [598, 5025.66]
   - - [1024, 5888, 1, 256]
-    - [615, 7322.21]
+    - [646, 7322.21]
   - - [64, 2944, 1, 1280]
-    - [551, 4222.31]
+    - [582, 4222.31]
   - - [5056, 64, 1, 3328]
-    - [592, 4936.32]
+    - [623, 4936.32]
   - - [128, 704, 1, 128]
-    - [537, 683.414]
+    - [568, 683.414]
   - - [1408, 2368, 1, 256]
-    - [616, 6404.22]
+    - [647, 6404.22]
   - - [1408, 1408, 1, 256]
-    - [621, 4537.93]
+    - [652, 4537.93]
   - - [4, 64, 1, 128]
-    - [630, 2.56747]
+    - [661, 2.56747]
   - - [64, 1024, 1, 128]
-    - [529, 532.372]
+    - [560, 532.372]
   - - [1024, 8, 1, 500000]
-    - [519, 1685.08]
+    - [550, 1685.08]
   - - [2368, 2368, 1, 128]
-    - [600, 4334.33]
+    - [631, 4334.33]
   - - [64, 5888, 1, 128]
-    - [529, 2003.19]
+    - [560, 2003.19]
   - - [5888, 4, 1, 3328]
-    - [547, 339.118]
+    - [578, 339.118]
   - - [6784, 1408, 1, 128]
-    - [603, 4431.23]
+    - [634, 4431.23]
   - - [4288, 5888, 1, 256]
-    - [621, 7800.88]
+    - [652, 7800.88]
   - - [1408, 5056, 1, 256]
-    - [615, 8153.38]
+    - [646, 8153.38]
   - - [5056, 128, 1, 3328]
-    - [572, 5829.93]
+    - [603, 5829.93]
   - - [128, 128, 1, 1280]
-    - [575, 1691.35]
+    - [606, 1691.35]
   - - [448, 704, 1, 256]
-    - [616, 3364.28]
+    - [647, 3364.28]
   - - [4288, 3584, 1, 128]
-    - [600, 2952.68]
+    - [631, 2952.68]
   - - [2944, 128, 1, 3328]
-    - [572, 5620.82]
+    - [603, 5620.82]
   - - [64, 1408, 1, 3328]
-    - [573, 4169.91]
+    - [604, 4169.91]
   - - [3584, 5056, 1, 1280]
-    - [618, 7780.76]
+    - [649, 7780.76]
   - - [256, 448, 1, 1280]
-    - [551, 3929.45]
+    - [582, 3929.45]
   - - [704, 704, 1, 128]
-    - [599, 2346.17]
+    - [630, 2346.17]
   - - [5056, 4, 1, 128]
-    - [630, 144.557]
+    - [661, 144.557]
   - - [704, 256, 1, 1280]
-    - [619, 2283.22]
+    - [650, 2283.22]
   - - [64, 2368, 1, 3328]
-    - [551, 4921.69]
+    - [582, 4921.69]
   - - [1856, 1024, 1, 128]
-    - [600, 3459.57]
+    - [631, 3459.57]
   - - [1856, 64, 1, 128]
-    - [532, 918.237]
+    - [563, 918.237]
   - - [4096, 64, 1, 4096]
-    - [577, 4000.62]
+    - [608, 4000.62]
   - - [1024, 24000, 1, 1536]
-    - [613, 8502.36]
+    - [644, 8502.36]
   - - [704, 4288, 1, 256]
-    - [617, 6003.83]
+    - [648, 6003.83]
   - - [5888, 2368, 1, 1280]
-    - [608, 8801.3]
+    - [639, 8801.3]
   - - [128, 256, 1, 256]
-    - [562, 1070.08]
+    - [593, 1070.08]
   - - [64, 128, 1, 256]
-    - [568, 374.591]
+    - [599, 374.591]
   - - [2368, 5888, 1, 1280]
-    - [611, 8308.63]
+    - [642, 8308.63]
   - - [5888, 256, 1, 1280]
-    - [619, 7154.42]
+    - [650, 7154.42]
   - - [1760, 128, 1, 1760]
-    - [560, 5363.91]
+    - [591, 5363.91]
   - - [4, 5888, 1, 1280]
-    - [568, 542.304]
+    - [599, 542.304]
   - - [704, 128, 1, 128]
-    - [540, 779.447]
+    - [571, 779.447]
   - - [1024, 4, 1, 1280]
-    - [568, 392.531]
+    - [599, 392.531]
   - - [2368, 1856, 1, 3328]
-    - [611, 7975.32]
+    - [642, 7975.32]
   - - [2368, 128, 1, 128]
-    - [533, 1584.96]
+    - [564, 1584.96]
   - - [2944, 704, 1, 256]
-    - [619, 4039.21]
+    - [650, 4039.21]
   - - [5056, 128, 1, 128]
-    - [599, 2575.89]
+    - [630, 2575.89]
   - - [2368, 1024, 1, 3328]
-    - [627, 6165.54]
+    - [658, 6165.54]
   - - [256, 704, 1, 3328]
-    - [610, 4028.74]
+    - [641, 4028.74]
   - - [704, 3584, 1, 256]
-    - [621, 6102.92]
+    - [652, 6102.92]
   - - [704, 2944, 1, 3328]
-    - [611, 8202.84]
+    - [642, 8202.84]
   - - [6784, 1024, 1, 128]
-    - [603, 4386.4]
+    - [634, 4386.4]
   - - [256, 448, 1, 128]
-    - [540, 834.195]
+    - [571, 834.195]
   - - [448, 1024, 1, 3328]
-    - [628, 5412.48]
+    - [659, 5412.48]
   - - [2944, 1024, 1, 3328]
-    - [621, 6265.87]
+    - [652, 6265.87]
   - - [2944, 5056, 1, 128]
-    - [599, 4770.88]
+    - [630, 4770.88]
   - - [2368, 256, 1, 256]
-    - [616, 3975.23]
+    - [647, 3975.23]
   - - [1408, 6784, 1, 256]
-    - [615, 7987.02]
+    - [646, 7987.02]
   - - [6784, 1408, 1, 3328]
-    - [615, 8472.71]
+    - [646, 8472.71]
   - - [4288, 6784, 1, 128]
-    - [606, 3865.2]
+    - [637, 3865.2]
   - - [704, 64, 1, 256]
-    - [554, 1287.41]
+    - [585, 1287.41]
   - - [5888, 4, 1, 1280]
-    - [553, 510.022]
+    - [584, 510.022]
   - - [256, 2368, 1, 3328]
-    - [616, 5837.65]
+    - [647, 5837.65]
   - - [6784, 2944, 1, 1280]
-    - [621, 8560.54]
+    - [652, 8560.54]
   - - [4288, 1856, 1, 128]
-    - [599, 4617.07]
+    - [630, 4617.07]
   - - [1856, 2944, 1, 128]
-    - [599, 4287.73]
+    - [630, 4287.73]
   - - [6784, 448, 1, 128]
-    - [603, 3893.43]
+    - [634, 3893.43]
   - - [64, 3584, 1, 128]
-    - [529, 1609.76]
+    - [560, 1609.76]
   - - [448, 5056, 1, 1280]
-    - [619, 7124.41]
+    - [650, 7124.41]
   - - [2368, 1856, 1, 128]
-    - [602, 4004.65]
+    - [633, 4004.65]
   - - [64, 2944, 1, 3328]
-    - [552, 5086.48]
+    - [583, 5086.48]
   - - [4288, 704, 1, 256]
-    - [617, 6176.57]
+    - [648, 6176.57]
   - - [256, 3584, 1, 128]
-    - [600, 2553.15]
+    - [631, 2553.15]
   - - [5888, 704, 1, 256]
-    - [616, 6781.51]
+    - [647, 6781.51]
   - - [3584, 1024, 1, 128]
-    - [603, 3660.95]
+    - [634, 3660.95]
   - - [256, 5888, 1, 3328]
-    - [619, 7772.13]
+    - [650, 7772.13]
   - - [1408, 4288, 1, 3328]
-    - [615, 8832.86]
+    - [646, 8832.86]
   - - [6784, 4288, 1, 256]
-    - [621, 8566.14]
+    - [652, 8566.14]
   - - [4288, 256, 1, 128]
-    - [601, 1953.79]
+    - [632, 1953.79]
   - - [5888, 256, 1, 256]
-    - [619, 3730.53]
+    - [650, 3730.53]
   - - [6784, 1024, 1, 1280]
-    - [615, 8578.39]
+    - [646, 8578.39]
   - - [5888, 1024, 1, 128]
-    - [600, 4092.96]
+    - [631, 4092.96]
   - - [1024, 128, 1, 256]
-    - [550, 1897.98]
+    - [581, 1897.98]
   - - [512, 16, 1, 500000]
-    - [521, 2363.79]
+    - [552, 2363.79]
   - - [128, 64, 1, 3328]
-    - [578, 1592.56]
+    - [609, 1592.56]
   - - [448, 64, 1, 256]
-    - [568, 976.168]
+    - [599, 976.168]
   - - [2368, 256, 1, 128]
-    - [603, 2094.99]
+    - [634, 2094.99]
   - - [6784, 3584, 1, 1280]
-    - [615, 8570.16]
+    - [646, 8570.16]
   - - [1024, 6784, 1, 1280]
-    - [621, 8203.57]
+    - [652, 8203.57]
   - - [2944, 64, 1, 1280]
-    - [559, 4300.61]
+    - [590, 4300.61]
   - - [1408, 2944, 1, 1280]
-    - [611, 7349.64]
+    - [642, 7349.64]
   - - [256, 1856, 1, 256]
-    - [610, 4649.75]
+    - [641, 4649.75]
   - - [2048, 800, 1, 2048]
-    - [629, 4668.73]
+    - [660, 4668.73]
   - - [1408, 2368, 1, 3328]
-    - [619, 7537.74]
+    - [650, 7537.74]
   - - [2944, 4, 1, 3328]
-    - [568, 514.142]
+    - [599, 514.142]
   - - [128, 1408, 1, 3328]
-    - [560, 4991.64]
+    - [591, 4991.64]
   - - [2944, 1856, 1, 128]
-    - [599, 4317.39]
+    - [630, 4317.39]
   - - [256, 2944, 1, 128]
-    - [599, 2258.27]
+    - [630, 2258.27]
   - - [256, 6784, 1, 128]
-    - [599, 3147.02]
+    - [630, 3147.02]
   - - [2368, 4, 1, 128]
-    - [631, 33.9286]
+    - [662, 33.9286]
   - - [1408, 256, 1, 3328]
-    - [610, 5077.85]
+    - [641, 5077.85]
   - - [1856, 4, 1, 128]
-    - [631, 21.5025]
+    - [662, 21.5025]
   - - [5056, 6784, 1, 128]
-    - [599, 4945.11]
+    - [630, 4945.11]
   - - [4288, 5056, 1, 128]
-    - [602, 4729.87]
+    - [633, 4729.87]
   - - [1856, 5888, 1, 128]
-    - [599, 4707.96]
+    - [630, 4707.96]
   - - [2944, 5888, 1, 256]
-    - [613, 8014.78]
+    - [644, 8014.78]
   - - [3584, 1856, 1, 256]
-    - [615, 7567.13]
+    - [646, 7567.13]
   - - [4288, 3584, 1, 1280]
-    - [608, 8726.43]
+    - [639, 8726.43]
   - - [2368, 448, 1, 256]
-    - [616, 4227.7]
+    - [647, 4227.7]
   - - [4288, 256, 1, 3328]
-    - [617, 5487.41]
+    - [648, 5487.41]
   - - [1856, 704, 1, 128]
-    - [603, 3125.06]
+    - [634, 3125.06]
   - - [1408, 64, 1, 256]
-    - [563, 1620.09]
+    - [594, 1620.09]
   - - [64, 1856, 1, 128]
-    - [527, 955.147]
+    - [558, 955.147]
   - - [4, 256, 1, 128]
-    - [630, 10.8789]
+    - [661, 10.8789]
   - - [2560, 16, 1, 2560]
-    - [575, 2019.7]
+    - [606, 2019.7]
   - - [704, 5888, 1, 128]
-    - [604, 3976.26]
+    - [635, 3976.26]
   - - [6784, 3584, 1, 128]
-    - [603, 4018.91]
+    - [634, 4018.91]
   - - [1024, 64, 1, 256]
-    - [568, 1370.79]
+    - [599, 1370.79]
   - - [64, 2368, 1, 256]
-    - [610, 2255.76]
+    - [641, 2255.76]
   - - [4288, 5056, 1, 3328]
-    - [615, 8368.69]
+    - [646, 8368.69]
   - - [4, 1856, 1, 1280]
-    - [568, 392.126]
+    - [599, 392.126]
   - - [4288, 128, 1, 128]
-    - [533, 2287.03]
+    - [564, 2287.03]
   - - [1408, 1408, 1, 128]
-    - [603, 3233.48]
+    - [634, 3233.48]
   - - [7680, 16, 1, 2560]
-    - [571, 2257.37]
+    - [602, 2257.37]
   - - [1856, 128, 1, 128]
-    - [533, 1532.8]
+    - [564, 1532.8]
   - - [5056, 2368, 1, 256]
-    - [615, 8167.29]
+    - [646, 8167.29]
   - - [4288, 704, 1, 3328]
-    - [621, 6411.16]
+    - [652, 6411.16]
   - - [448, 3584, 1, 256]
-    - [621, 5477.74]
+    - [652, 5477.74]
   - - [2368, 64, 1, 1280]
-    - [551, 3936.52]
+    - [582, 3936.52]
   - - [2368, 1024, 1, 1280]
-    - [617, 7688.82]
+    - [648, 7688.82]
   - - [2944, 1408, 1, 3328]
-    - [608, 7668.78]
+    - [639, 7668.78]
   - - [1408, 448, 1, 256]
-    - [610, 4863.98]
+    - [641, 4863.98]
   - - [1024, 1408, 1, 3328]
-    - [619, 7448.99]
+    - [650, 7448.99]
   - - [2944, 5888, 1, 1280]
-    - [609, 8208.57]
+    - [640, 8208.57]
   - - [1408, 4, 1, 1280]
-    - [548, 479.419]
+    - [579, 479.419]
   - - [5888, 3584, 1, 256]
-    - [609, 8610.09]
+    - [640, 8610.09]
   - - [2368, 5056, 1, 128]
-    - [606, 3726.25]
+    - [637, 3726.25]
   - - [1408, 1856, 1, 3328]
-    - [610, 7829.48]
+    - [641, 7829.48]
   - - [4, 4, 1, 3328]
-    - [637, 4.39419]
+    - [668, 4.39419]
   - - [6784, 1408, 1, 1280]
-    - [610, 7690.8]
+    - [641, 7690.8]
   - - [4096, 7000, 1, 4096]
-    - [622, 6272.49]
+    - [653, 6272.49]
   - - [704, 2944, 1, 256]
-    - [611, 6095.91]
+    - [642, 6095.91]
   - - [4288, 64, 1, 256]
-    - [576, 2121.31]
+    - [607, 2121.31]
   - - [6784, 5888, 1, 3328]
-    - [615, 8955.6]
+    - [646, 8955.6]
   - - [2368, 4288, 1, 128]
-    - [599, 4699.65]
+    - [630, 4699.65]
   - - [64, 4288, 1, 1280]
-    - [589, 4013.73]
+    - [620, 4013.73]
   - - [6784, 64, 1, 1280]
-    - [610, 5418.83]
+    - [641, 5418.83]
   - - [3584, 128, 1, 128]
-    - [539, 2165.3]
+    - [570, 2165.3]
   - - [1024, 6784, 1, 128]
-    - [600, 3765.3]
+    - [631, 3765.3]
   - - [4, 1856, 1, 128]
-    - [631, 33.3728]
+    - [662, 33.3728]
   - - [1408, 64, 1, 3328]
-    - [572, 4489.51]
+    - [603, 4489.51]
   - - [6784, 4, 1, 256]
-    - [568, 400.262]
+    - [599, 400.262]
   - - [1408, 1408, 1, 1280]
-    - [615, 8139.53]
+    - [646, 8139.53]
   - - [16384, 400, 1, 4096]
-    - [619, 6087.28]
+    - [650, 6087.28]
   - - [256, 2368, 1, 256]
-    - [610, 4766.35]
+    - [641, 4766.35]
   - - [448, 4288, 1, 3328]
-    - [617, 7577.08]
+    - [648, 7577.08]
   - - [2368, 1408, 1, 256]
-    - [613, 5284.53]
+    - [644, 5284.53]
   - - [5888, 5056, 1, 128]
-    - [600, 3643.6]
+    - [631, 3643.6]
   - - [704, 2368, 1, 256]
-    - [615, 5334.73]
+    - [646, 5334.73]
   - - [1024, 24000, 1, 2560]
-    - [623, 7438.06]
+    - [654, 7438.06]
   - - [2944, 448, 1, 1280]
-    - [624, 4937.53]
+    - [655, 4937.53]
   - - [5888, 2368, 1, 3328]
-    - [609, 8201.84]
+    - [640, 8201.84]
   - - [5124, 9124, 1, 1760]
-    - [616, 6764.06]
+    - [647, 6764.06]
   - - [448, 1408, 1, 1280]
-    - [610, 5881.54]
+    - [641, 5881.54]
   - - [448, 1856, 1, 1280]
-    - [617, 6225.56]
+    - [648, 6225.56]
   - - [4288, 448, 1, 1280]
-    - [619, 5626.37]
+    - [650, 5626.37]
   - - [5888, 704, 1, 3328]
-    - [613, 7873.62]
+    - [644, 7873.62]
   - - [5056, 256, 1, 128]
-    - [604, 2921.03]
+    - [635, 2921.03]
   - - [1856, 256, 1, 128]
-    - [606, 1995.42]
+    - [637, 1995.42]
   - - [64, 1408, 1, 128]
-    - [527, 758.938]
+    - [558, 758.938]
   - - [704, 4, 1, 256]
-    - [568, 130.697]
+    - [599, 130.697]
   - - [1408, 5888, 1, 128]
-    - [599, 4574.05]
+    - [630, 4574.05]
   - - [7680, 12000, 1, 2560]
-    - [615, 8747.13]
+    - [646, 8747.13]
   - - [1408, 1024, 1, 256]
-    - [612, 4609.23]
+    - [643, 4609.23]
   - - [8192, 400, 1, 2048]
-    - [624, 5283.25]
+    - [655, 5283.25]
   - - [1024, 1856, 1, 128]
-    - [599, 2686.38]
+    - [630, 2686.38]
   - - [256, 704, 1, 128]
-    - [599, 1004.83]
+    - [630, 1004.83]
   - - [2560, 128, 1, 2560]
-    - [577, 4259.14]
+    - [608, 4259.14]
   - - [448, 1024, 1, 256]
-    - [610, 4813.24]
+    - [641, 4813.24]
   - - [128, 4, 1, 3328]
-    - [636, 128.408]
+    - [667, 128.408]
   - - [5056, 6784, 1, 1280]
-    - [618, 6579.85]
+    - [649, 6579.85]
   - - [1408, 64, 1, 128]
-    - [540, 819.3]
+    - [571, 819.3]
   - - [1024, 448, 1, 1280]
-    - [619, 5703.31]
+    - [650, 5703.31]
   - - [704, 5056, 1, 3328]
-    - [611, 7574.49]
+    - [642, 7574.49]
   - - [128, 5056, 1, 256]
-    - [610, 5113.53]
+    - [641, 5113.53]
   - - [64, 1024, 1, 3328]
-    - [595, 3980.1]
+    - [626, 3980.1]
   - - [1856, 4, 1, 3328]
-    - [549, 433.253]
+    - [580, 433.253]
   - - [4, 2944, 1, 128]
-    - [631, 46.6225]
+    - [662, 46.6225]
   - - [2368, 2944, 1, 3328]
-    - [609, 9002.13]
+    - [640, 9002.13]
   - - [448, 448, 1, 1280]
-    - [551, 3969.52]
+    - [582, 3969.52]
   - - [2368, 3584, 1, 256]
-    - [621, 7806.39]
+    - [652, 7806.39]
   - - [5056, 3584, 1, 1280]
-    - [608, 8971.56]
+    - [639, 8971.56]
   - - [5124, 9124, 1, 4096]
-    - [621, 7208.72]
+    - [652, 7208.72]
   - - [7680, 48000, 1, 2560]
-    - [615, 3835.91]
+    - [646, 3835.91]
   - - [448, 4, 1, 3328]
-    - [636, 409.7]
+    - [667, 409.7]
   - - [1856, 2944, 1, 1280]
-    - [608, 7173.71]
+    - [639, 7173.71]
   - - [1024, 48000, 1, 2816]
-    - [615, 8976.26]
+    - [646, 8976.26]
   - - [128, 1024, 1, 256]
-    - [554, 1969.26]
+    - [585, 1969.26]
   - - [2944, 1408, 1, 256]
-    - [617, 4585.12]
+    - [648, 4585.12]
   - - [4288, 1408, 1, 3328]
-    - [611, 8237.27]
+    - [642, 8237.27]
   - - [3584, 64, 1, 3328]
-    - [557, 5183.16]
+    - [588, 5183.16]
   - - [5888, 2944, 1, 128]
-    - [606, 3674.56]
+    - [637, 3674.56]
   - - [2944, 1024, 1, 128]
-    - [603, 3834.32]
+    - [634, 3834.32]
   - - [4288, 5056, 1, 1280]
-    - [615, 8086.1]
+    - [646, 8086.1]
   - - [5888, 6784, 1, 1280]
-    - [609, 6941.32]
+    - [640, 6941.32]
   - - [6784, 5056, 1, 128]
-    - [600, 4860.15]
+    - [631, 4860.15]
   - - [256, 1024, 1, 3328]
-    - [624, 5156.22]
+    - [655, 5156.22]
   - - [3584, 4, 1, 256]
-    - [568, 332.529]
+    - [599, 332.529]
   - - [1760, 1600, 1, 1760]
-    - [611, 6330.76]
+    - [642, 6330.76]
   - - [1856, 64, 1, 3328]
-    - [572, 4756.03]
+    - [603, 4756.03]
   - - [4, 128, 1, 3328]
-    - [636, 160.244]
+    - [667, 160.244]
   - - [5888, 1408, 1, 3328]
-    - [609, 8722.74]
+    - [640, 8722.74]
   - - [448, 2944, 1, 128]
-    - [602, 2997.63]
+    - [633, 2997.63]
   - - [2368, 1856, 1, 256]
-    - [610, 6662.34]
+    - [641, 6662.34]
   - - [256, 5056, 1, 256]
-    - [612, 5256.29]
+    - [643, 5256.29]
   - - [128, 3584, 1, 128]
-    - [531, 2073.56]
+    - [562, 2073.56]
   - - [448, 3584, 1, 3328]
-    - [608, 6833.96]
+    - [639, 6833.96]
   - - [4, 5056, 1, 3328]
-    - [578, 581.523]
+    - [609, 581.523]
   - - [704, 2368, 1, 128]
-    - [599, 3402.29]
+    - [630, 3402.29]
   - - [5888, 256, 1, 128]
-    - [604, 2977.54]
+    - [635, 2977.54]
   - - [4, 5056, 1, 128]
-    - [630, 65.2074]
+    - [661, 65.2074]
   - - [448, 256, 1, 256]
-    - [616, 1764.53]
+    - [647, 1764.53]
   - - [704, 4, 1, 3328]
-    - [568, 398.554]
+    - [599, 398.554]
   - - [1408, 256, 1, 256]
-    - [611, 3463.86]
+    - [642, 3463.86]
   - - [3584, 1856, 1, 128]
-    - [607, 3228.19]
+    - [638, 3228.19]
   - - [4288, 4288, 1, 128]
-    - [603, 4853.93]
+    - [634, 4853.93]
   - - [1856, 1024, 1, 3328]
-    - [627, 5994.68]
+    - [658, 5994.68]
   - - [128, 5888, 1, 3328]
-    - [581, 6512.85]
+    - [612, 6512.85]
   - - [1024, 5056, 1, 256]
-    - [621, 7859.42]
+    - [652, 7859.42]
   - - [5888, 5888, 1, 1280]
-    - [621, 8131.44]
+    - [652, 8131.44]
   - - [5056, 5888, 1, 128]
-    - [600, 4920.71]
+    - [631, 4920.71]
   - - [2368, 1408, 1, 3328]
-    - [619, 7110.74]
+    - [650, 7110.74]
   - - [1024, 48000, 1, 1536]
-    - [619, 8590.82]
+    - [650, 8590.82]
   - - [5888, 448, 1, 256]
-    - [620, 3567.74]
+    - [651, 3567.74]
   - - [2560, 3200, 1, 2560]
-    - [610, 7638.31]
+    - [641, 7638.31]
   - - [5888, 6784, 1, 128]
-    - [600, 3910.92]
+    - [631, 3910.92]
   - - [6144, 48000, 1, 2048]
-    - [621, 3412.95]
+    - [652, 3412.95]
   - - [6784, 5056, 1, 1280]
-    - [612, 7890.22]
+    - [643, 7890.22]
   - - [5056, 704, 1, 1280]
-    - [616, 7665.06]
+    - [647, 7665.06]
   - - [1024, 48000, 1, 2560]
-    - [621, 8188.5]
+    - [652, 8188.5]
   - - [4608, 32, 1, 1536]
-    - [589, 2856.97]
+    - [620, 2856.97]
   - - [1024, 2368, 1, 128]
-    - [599, 3019.35]
+    - [630, 3019.35]
   - - [128, 704, 1, 256]
-    - [550, 1696.33]
+    - [581, 1696.33]
   - - [2368, 448, 1, 3328]
-    - [616, 5799.29]
+    - [647, 5799.29]
   - - [128, 5888, 1, 1280]
-    - [610, 6680.75]
+    - [641, 6680.75]
   - - [16384, 800, 1, 4096]
-    - [615, 6322.22]
+    - [646, 6322.22]
   - - [448, 128, 1, 1280]
-    - [589, 2849.49]
+    - [620, 2849.49]
   - - [6784, 4, 1, 3328]
-    - [568, 563.12]
+    - [599, 563.12]
   - - [5888, 5056, 1, 1280]
-    - [615, 8631.33]
+    - [646, 8631.33]
   - - [1024, 64, 1, 3328]
-    - [590, 3481.96]
+    - [621, 3481.96]
   - - [3072, 48000, 1, 1024]
-    - [615, 9019.49]
+    - [646, 9019.49]
   - - [64, 3584, 1, 1280]
-    - [552, 4327.95]
+    - [583, 4327.95]
   - - [6784, 1408, 1, 256]
-    - [615, 6320.59]
+    - [646, 6320.59]
   - - [3584, 5888, 1, 128]
-    - [602, 4406.79]
+    - [633, 4406.79]
   - - [5056, 5888, 1, 256]
-    - [621, 8037.13]
+    - [652, 8037.13]
   - - [2368, 1024, 1, 256]
-    - [613, 4936.14]
+    - [644, 4936.14]
   - - [2944, 1856, 1, 256]
-    - [621, 7222.32]
+    - [652, 7222.32]
   - - [1856, 6784, 1, 1280]
-    - [611, 8251.81]
+    - [642, 8251.81]
   - - [64, 5056, 1, 128]
-    - [531, 1643.7]
+    - [562, 1643.7]
   - - [64, 6784, 1, 128]
-    - [529, 1929.77]
+    - [560, 1929.77]
   - - [448, 704, 1, 128]
-    - [601, 979.959]
+    - [632, 979.959]
   - - [4, 1024, 1, 128]
-    - [630, 20.1416]
+    - [661, 20.1416]
   - - [4288, 3584, 1, 256]
-    - [615, 8444.14]
+    - [646, 8444.14]
   - - [1408, 704, 1, 128]
-    - [599, 3021.0]
+    - [630, 3021.0]
   - - [64, 256, 1, 3328]
-    - [595, 2227.47]
+    - [626, 2227.47]
   - - [6784, 448, 1, 3328]
-    - [621, 6573.11]
+    - [652, 6573.11]
   - - [5056, 1856, 1, 1280]
-    - [613, 7976.23]
+    - [644, 7976.23]
   - - [1408, 1024, 1, 3328]
-    - [611, 7470.33]
+    - [642, 7470.33]
   - - [2368, 256, 1, 3328]
-    - [616, 5394.37]
+    - [647, 5394.37]
   - - [5888, 3584, 1, 1280]
-    - [608, 9031.55]
+    - [639, 9031.55]
   - - [1856, 3584, 1, 3328]
-    - [623, 7272.6]
+    - [654, 7272.6]
   - - [5888, 128, 1, 1280]
-    - [616, 6684.48]
+    - [647, 6684.48]
   - - [1024, 2944, 1, 256]
-    - [621, 7415.09]
+    - [652, 7415.09]
   - - [448, 6784, 1, 1280]
-    - [617, 7923.78]
+    - [648, 7923.78]
   - - [256, 3584, 1, 1280]
-    - [613, 6901.87]
+    - [644, 6901.87]
   - - [704, 5056, 1, 256]
-    - [618, 5004.55]
+    - [649, 5004.55]
   - - [3584, 1024, 1, 3328]
-    - [610, 7894.63]
+    - [641, 7894.63]
   - - [2944, 1856, 1, 1280]
-    - [615, 7903.27]
+    - [646, 7903.27]
   - - [128, 256, 1, 128]
-    - [528, 325.745]
+    - [559, 325.745]
   - - [5056, 256, 1, 256]
-    - [612, 3356.56]
+    - [643, 3356.56]
   - - [2944, 4288, 1, 3328]
-    - [621, 7813.93]
+    - [652, 7813.93]
   - - [2368, 3584, 1, 3328]
-    - [621, 8371.09]
+    - [652, 8371.09]
   - - [2944, 704, 1, 1280]
-    - [627, 5514.09]
+    - [658, 5514.09]
   - - [128, 4, 1, 256]
-    - [568, 25.3062]
+    - [599, 25.3062]
   - - [2944, 3584, 1, 1280]
-    - [615, 7738.83]
+    - [646, 7738.83]
   - - [1856, 5888, 1, 1280]
-    - [609, 8584.63]
+    - [640, 8584.63]
   - - [256, 256, 1, 1280]
-    - [589, 2962.18]
+    - [620, 2962.18]
   - - [2048, 3200, 1, 2048]
-    - [617, 6911.69]
+    - [648, 6911.69]
   - - [4288, 1408, 1, 256]
-    - [615, 7954.0]
+    - [646, 7954.0]
   - - [3584, 64, 1, 256]
-    - [616, 2780.42]
+    - [647, 2780.42]
   - - [64, 1856, 1, 3328]
-    - [551, 4912.04]
+    - [582, 4912.04]
   - - [256, 1408, 1, 128]
-    - [599, 1373.24]
+    - [630, 1373.24]
   - - [5888, 1408, 1, 128]
-    - [604, 4242.01]
+    - [635, 4242.01]
   - - [4288, 2368, 1, 1280]
-    - [613, 8012.7]
+    - [644, 8012.7]
   - - [4, 4288, 1, 256]
-    - [634, 301.674]
+    - [665, 301.674]
   - - [256, 4288, 1, 128]
-    - [599, 2706.36]
+    - [630, 2706.36]
   - - [2048, 128, 1, 2048]
-    - [594, 2885.26]
+    - [625, 2885.26]
   - - [256, 128, 1, 3328]
-    - [596, 3170.21]
+    - [627, 3170.21]
   - - [512, 8, 1, 500000]
-    - [520, 1915.12]
+    - [551, 1915.12]
   - - [6784, 2368, 1, 256]
-    - [615, 8323.66]
+    - [646, 8323.66]
   - - [5888, 128, 1, 128]
-    - [603, 2466.08]
+    - [634, 2466.08]
   - - [1024, 24000, 1, 2816]
-    - [613, 8131.64]
+    - [644, 8131.64]
   - - [7680, 5984, 1, 2560]
-    - [617, 6040.77]
+    - [648, 6040.77]
   - - [4288, 1856, 1, 256]
-    - [629, 5818.53]
+    - [660, 5818.53]
   - - [1856, 256, 1, 3328]
-    - [610, 6532.03]
+    - [641, 6532.03]
   - - [1856, 2944, 1, 256]
-    - [615, 7312.92]
+    - [646, 7312.92]
   - - [5056, 1024, 1, 128]
-    - [605, 4103.0]
+    - [636, 4103.0]
   - - [64, 5888, 1, 1280]
-    - [610, 5058.25]
+    - [641, 5058.25]
   - - [1760, 800, 1, 1760]
-    - [613, 7280.0]
+    - [644, 7280.0]
   - - [6784, 256, 1, 128]
-    - [603, 3257.69]
+    - [634, 3257.69]
   - - [5888, 704, 1, 128]
-    - [599, 3813.93]
+    - [630, 3813.93]
   - - [1408, 2368, 1, 128]
-    - [600, 3561.27]
+    - [631, 3561.27]
   - - [1024, 4288, 1, 1280]
-    - [619, 7752.74]
+    - [650, 7752.74]
   - - [2368, 5056, 1, 3328]
-    - [622, 7711.91]
+    - [653, 7711.91]
   - - [448, 4, 1, 128]
-    - [630, 18.4795]
+    - [661, 18.4795]
   - - [4, 256, 1, 3328]
-    - [637, 269.71]
+    - [668, 269.71]
   - - [4288, 1024, 1, 3328]
-    - [616, 7910.27]
+    - [647, 7910.27]
   - - [6144, 48000, 1, 2560]
-    - [615, 3541.09]
+    - [646, 3541.09]
   - - [1024, 5056, 1, 3328]
-    - [609, 8509.66]
+    - [640, 8509.66]
   - - [1024, 1856, 1, 3328]
-    - [615, 7907.93]
+    - [646, 7907.93]
   - - [704, 704, 1, 1280]
-    - [627, 5648.15]
+    - [658, 5648.15]
   - - [128, 2368, 1, 1280]
-    - [586, 4145.11]
+    - [617, 4145.11]
   - - [1408, 128, 1, 3328]
-    - [559, 4919.6]
+    - [590, 4919.6]
   - - [3584, 256, 1, 1280]
-    - [611, 5185.56]
+    - [642, 5185.56]
   - - [4, 128, 1, 128]
-    - [630, 3.07891]
+    - [661, 3.07891]
   - - [5888, 64, 1, 1280]
-    - [559, 4499.59]
+    - [590, 4499.59]
   - - [3584, 128, 1, 1280]
-    - [616, 5929.01]
+    - [647, 5929.01]
   - - [4, 256, 1, 1280]
-    - [635, 170.767]
+    - [666, 170.767]
   - - [128, 704, 1, 3328]
-    - [559, 4379.37]
+    - [590, 4379.37]
   - - [4288, 6784, 1, 256]
-    - [609, 7181.09]
+    - [640, 7181.09]
   - - [3584, 2944, 1, 3328]
-    - [615, 8553.3]
+    - [646, 8553.3]
   - - [128, 1856, 1, 256]
-    - [616, 3207.77]
+    - [647, 3207.77]
   - - [64, 4288, 1, 256]
-    - [610, 2907.99]
+    - [641, 2907.99]
   - - [4, 3584, 1, 3328]
-    - [568, 560.605]
+    - [599, 560.605]
   - - [64, 4, 1, 3328]
-    - [637, 67.5025]
+    - [668, 67.5025]
   - - [4, 64, 1, 3328]
-    - [637, 88.8467]
+    - [668, 88.8467]
   - - [5888, 2944, 1, 256]
-    - [615, 7255.77]
+    - [646, 7255.77]
   - - [1856, 64, 1, 256]
-    - [561, 1743.72]
+    - [592, 1743.72]
   - - [5056, 128, 1, 1280]
-    - [616, 6009.79]
+    - [647, 6009.79]
   - - [448, 4288, 1, 1280]
-    - [617, 6466.82]
+    - [648, 6466.82]
   - - [448, 1856, 1, 3328]
-    - [617, 6381.99]
+    - [648, 6381.99]
   - - [1024, 4288, 1, 128]
-    - [602, 3491.87]
+    - [633, 3491.87]
   - - [4, 1024, 1, 256]
-    - [635, 172.563]
+    - [666, 172.563]
   - - [5056, 4288, 1, 256]
-    - [615, 8241.52]
+    - [646, 8241.52]
   - - [1024, 448, 1, 256]
-    - [619, 4218.51]
+    - [650, 4218.51]
   - - [1024, 3584, 1, 256]
-    - [615, 6513.69]
+    - [646, 6513.69]
   - - [2944, 128, 1, 1280]
-    - [559, 4710.48]
+    - [590, 4710.48]
   - - [2048, 32, 1, 2048]
-    - [574, 1779.23]
+    - [605, 1779.23]
   - - [64, 256, 1, 256]
-    - [568, 655.46]
+    - [599, 655.46]
   - - [1408, 4, 1, 128]
-    - [631, 20.1249]
+    - [662, 20.1249]
   - - [128, 2368, 1, 128]
-    - [531, 1707.73]
+    - [562, 1707.73]
   - - [256, 704, 1, 1280]
-    - [610, 3735.31]
+    - [641, 3735.31]
   - - [64, 2368, 1, 128]
-    - [538, 1049.81]
+    - [569, 1049.81]
   - - [6784, 6784, 1, 3328]
-    - [615, 9277.94]
+    - [646, 9277.94]
   - - [448, 5888, 1, 1280]
-    - [621, 7319.75]
+    - [652, 7319.75]
   - - [5056, 448, 1, 128]
-    - [603, 3694.43]
+    - [634, 3694.43]
   - - [4288, 704, 1, 1280]
-    - [613, 7890.96]
+    - [644, 7890.96]
   - - [3584, 2944, 1, 128]
-    - [605, 4124.71]
+    - [636, 4124.71]
   - - [6784, 256, 1, 1280]
-    - [621, 7185.83]
+    - [652, 7185.83]
   - - [256, 2944, 1, 1280]
-    - [610, 6736.76]
+    - [641, 6736.76]
   - - [64, 4288, 1, 128]
-    - [529, 1614.41]
+    - [560, 1614.41]
   - - [2368, 5888, 1, 3328]
-    - [611, 8616.46]
+    - [642, 8616.46]
   - - [4, 64, 1, 256]
-    - [548, 11.4778]
+    - [579, 11.4778]
   - - [704, 1024, 1, 3328]
-    - [616, 6801.92]
+    - [647, 6801.92]
   - - [2368, 1856, 1, 1280]
-    - [613, 7853.57]
+    - [644, 7853.57]
   - - [448, 5056, 1, 3328]
-    - [616, 7453.04]
+    - [647, 7453.04]
   - - [128, 448, 1, 128]
-    - [531, 530.449]
+    - [562, 530.449]
   - - [128, 6784, 1, 256]
-    - [611, 5557.55]
+    - [642, 5557.55]
   - - [3584, 4288, 1, 128]
-    - [602, 4462.73]
+    - [633, 4462.73]
   - - [64, 448, 1, 128]
-    - [531, 278.132]
+    - [562, 278.132]
   - - [5888, 4288, 1, 3328]
-    - [608, 9153.55]
+    - [639, 9153.55]
   - - [2368, 704, 1, 256]
-    - [615, 5350.78]
+    - [646, 5350.78]
   - - [256, 1856, 1, 3328]
-    - [610, 6536.35]
+    - [641, 6536.35]
   - - [1856, 128, 1, 256]
-    - [624, 2847.36]
+    - [655, 2847.36]
   - - [6784, 128, 1, 128]
-    - [604, 2530.82]
+    - [635, 2530.82]
   - - [3584, 1408, 1, 128]
-    - [605, 3625.62]
+    - [636, 3625.62]
   - - [1856, 5056, 1, 1280]
-    - [611, 8123.39]
+    - [642, 8123.39]
   - - [2944, 1024, 1, 1280]
-    - [621, 8450.41]
+    - [652, 8450.41]
   - - [5056, 4, 1, 256]
-    - [635, 380.787]
+    - [666, 380.787]
   - - [3584, 5888, 1, 3328]
-    - [613, 8567.99]
+    - [644, 8567.99]
   - - [2368, 4288, 1, 256]
-    - [617, 7858.07]
+    - [648, 7858.07]
   - - [1024, 2368, 1, 3328]
-    - [611, 6776.45]
+    - [642, 6776.45]
   - - [64, 704, 1, 3328]
-    - [566, 3503.52]
+    - [597, 3503.52]
   - - [704, 1408, 1, 256]
-    - [611, 6099.99]
+    - [642, 6099.99]
   - - [4096, 128, 1, 4096]
-    - [591, 4116.57]
+    - [622, 4116.57]
   - - [1024, 3584, 1, 1280]
-    - [621, 7231.65]
+    - [652, 7231.65]
   - - [4288, 5888, 1, 3328]
-    - [615, 8762.42]
+    - [646, 8762.42]
   - - [4288, 4, 1, 1280]
-    - [568, 492.797]
+    - [599, 492.797]
   - - [4608, 16, 1, 1536]
-    - [569, 1892.58]
+    - [600, 1892.58]
   - - [5888, 64, 1, 128]
-    - [546, 1747.73]
+    - [577, 1747.73]
   - - [4, 5888, 1, 128]
-    - [631, 84.5915]
+    - [662, 84.5915]
   - - [1024, 2944, 1, 3328]
-    - [619, 6907.05]
+    - [650, 6907.05]
   - - [6784, 1856, 1, 256]
-    - [615, 6274.07]
+    - [646, 6274.07]
   - - [2048, 64, 1, 2048]
-    - [598, 2371.44]
+    - [629, 2371.44]
   - - [256, 6784, 1, 1280]
-    - [615, 7067.04]
+    - [646, 7067.04]
   - - [1856, 3584, 1, 256]
-    - [621, 7706.87]
+    - [652, 7706.87]
   - - [128, 448, 1, 3328]
-    - [566, 3995.93]
+    - [597, 3995.93]
   - - [6784, 1856, 1, 128]
-    - [603, 4459.09]
+    - [634, 4459.09]
   - - [4, 448, 1, 256]
-    - [568, 84.4294]
+    - [599, 84.4294]
   - - [5056, 128, 1, 256]
-    - [616, 4954.5]
+    - [647, 4954.5]
   - - [512, 24000, 1, 2816]
-    - [609, 8994.98]
+    - [640, 8994.98]
   - - [256, 5888, 1, 1280]
-    - [608, 6184.0]
+    - [639, 6184.0]
   - - [4, 128, 1, 1280]
-    - [636, 71.9597]
+    - [667, 71.9597]
   - - [16384, 1600, 1, 4096]
-    - [615, 6921.09]
+    - [646, 6921.09]
   - - [6784, 128, 1, 1280]
-    - [619, 6486.37]
+    - [650, 6486.37]
   - - [64, 1408, 1, 256]
-    - [556, 1647.86]
+    - [587, 1647.86]
   - - [2368, 1408, 1, 128]
-    - [603, 3937.1]
+    - [634, 3937.1]
   - - [1856, 448, 1, 256]
-    - [616, 4635.57]
+    - [647, 4635.57]
   - - [1408, 1024, 1, 128]
-    - [599, 3208.51]
+    - [630, 3208.51]
   - - [128, 64, 1, 128]
-    - [528, 70.192]
+    - [559, 70.192]
   - - [6784, 3584, 1, 3328]
-    - [621, 8466.28]
+    - [652, 8466.28]
   - - [1760, 7000, 1, 1760]
-    - [619, 8149.21]
+    - [650, 8149.21]
   - - [2944, 64, 1, 3328]
-    - [552, 5018.09]
+    - [583, 5018.09]
   - - [64, 64, 1, 128]
-    - [528, 35.5249]
+    - [559, 35.5249]
   - - [2368, 5056, 1, 1280]
-    - [615, 8764.0]
+    - [646, 8764.0]
   - - [64, 4, 1, 1280]
-    - [637, 43.6745]
+    - [668, 43.6745]
   - - [1408, 2368, 1, 1280]
-    - [616, 7660.38]
+    - [647, 7660.38]
   - - [128, 1408, 1, 1280]
-    - [551, 4185.27]
+    - [582, 4185.27]
   - - [256, 64, 1, 3328]
-    - [576, 2071.75]
+    - [607, 2071.75]
   - - [704, 4288, 1, 128]
-    - [599, 4069.18]
+    - [630, 4069.18]
   - - [128, 1856, 1, 3328]
-    - [582, 5776.15]
+    - [613, 5776.15]
   - - [2944, 2944, 1, 256]
-    - [621, 7949.31]
+    - [652, 7949.31]
   - - [2944, 4, 1, 1280]
-    - [568, 483.218]
+    - [599, 483.218]
   - - [5888, 4, 1, 256]
-    - [553, 396.765]
+    - [584, 396.765]
   - - [6784, 256, 1, 256]
-    - [627, 4044.83]
+    - [658, 4044.83]
   - - [256, 5056, 1, 3328]
-    - [610, 7607.37]
+    - [641, 7607.37]
   - - [128, 4288, 1, 1280]
-    - [551, 4958.78]
+    - [582, 4958.78]
   - - [5056, 1856, 1, 128]
-    - [603, 4560.94]
+    - [634, 4560.94]
   - - [5056, 1024, 1, 3328]
-    - [615, 8634.18]
+    - [646, 8634.18]
   - - [128, 128, 1, 256]
-    - [553, 699.151]
+    - [584, 699.151]
   - - [1760, 64, 1, 1760]
-    - [559, 4580.65]
+    - [590, 4580.65]
   - - [4288, 3584, 1, 3328]
-    - [621, 9143.76]
+    - [652, 9143.76]
   - - [448, 704, 1, 3328]
-    - [610, 4473.43]
+    - [641, 4473.43]
   - - [448, 448, 1, 128]
-    - [541, 1264.38]
+    - [572, 1264.38]
   - - [1024, 2368, 1, 1280]
-    - [619, 7452.51]
+    - [650, 7452.51]
   - - [1856, 704, 1, 3328]
-    - [610, 6103.34]
+    - [641, 6103.34]
   - - [4, 2368, 1, 128]
-    - [630, 96.019]
+    - [661, 96.019]
   - - [5888, 6784, 1, 3328]
-    - [615, 9131.74]
+    - [646, 9131.74]
   - - [704, 4288, 1, 1280]
-    - [617, 7906.46]
+    - [648, 7906.46]
   - - [704, 256, 1, 256]
-    - [610, 2772.78]
+    - [641, 2772.78]
   - - [1024, 48000, 1, 2048]
-    - [614, 6513.45]
+    - [645, 6513.45]
   - - [4288, 1024, 1, 128]
-    - [599, 4291.77]
+    - [630, 4291.77]
   - - [256, 64, 1, 3136]
-    - [640, 3015.37]
+    - [671, 3015.37]
   - - [256, 1024, 1, 196]
-    - [644, 4225.45]
+    - [675, 4225.45]
   - - [1024, 1024, 1, 3328]
-    - [756, 8705.1]
+    - [787, 8705.1]
   - - [2048, 200, 1, 3200]
-    - [761, 6173.42]
+    - [792, 6173.42]
   - - [1024, 200, 1, 13312]
-    - [659, 5213.31]
+    - [690, 5213.31]
   - - [1024, 256, 1, 1536]
-    - [761, 5859.43]
+    - [792, 5859.43]
   - - [4096, 256, 1, 12288]
-    - [766, 8807.52]
+    - [797, 8807.52]
   - - [64, 200, 1, 1024]
-    - [733, 366.632]
+    - [764, 366.632]
   - - [32, 512, 1, 1024]
-    - [688, 453.049]
+    - [719, 453.049]
   - - [2048, 256, 1, 3328]
-    - [750, 7876.73]
+    - [781, 7876.73]
   - - [4096, 512, 1, 32]
-    - [754, 3975.74]
+    - [785, 3975.74]
   - - [2048, 256, 1, 13312]
-    - [731, 7837.81]
+    - [762, 7837.81]
   - - [4096, 200, 1, 11264]
-    - [766, 6902.76]
+    - [797, 6902.76]
   - - [2048, 512, 1, 1024]
-    - [760, 8100.14]
+    - [791, 8100.14]
   - - [2048, 1024, 1, 1664]
-    - [660, 9082.08]
+    - [691, 9082.08]
   - - [1024, 1024, 1, 64]
-    - [756, 4258.28]
+    - [787, 4258.28]
   - - [512, 1024, 1, 1536]
-    - [750, 7597.33]
+    - [781, 7597.33]
   - - [1024, 256, 1, 15360]
-    - [651, 6735.24]
+    - [682, 6735.24]
   - - [1, 512, 1, 1024]
-    - [701, 15.1657]
+    - [732, 15.1657]
   - - [4096, 512, 1, 1408]
-    - [663, 9024.52]
+    - [694, 9024.52]
   - - [1024, 200, 1, 1408]
-    - [761, 4461.09]
+    - [792, 4461.09]
   - - [1024, 512, 1, 512]
-    - [755, 6528.2]
+    - [786, 6528.2]
   - - [4096, 256, 1, 15360]
-    - [762, 8824.03]
+    - [793, 8824.03]
   - - [2048, 512, 1, 640]
-    - [752, 7989.25]
+    - [783, 7989.25]
   - - [4096, 1024, 1, 1280]
-    - [658, 9421.54]
+    - [689, 9421.54]
   - - [1024, 200, 1, 6144]
-    - [750, 4966.52]
+    - [781, 4966.52]
   - - [1024, 1024, 1, 512]
-    - [752, 7731.54]
+    - [783, 7731.54]
   - - [128, 512, 1, 2048]
-    - [668, 2190.34]
+    - [699, 2190.34]
   - - [2048, 1024, 1, 640]
-    - [658, 8581.8]
+    - [689, 8581.8]
   - - [1024, 256, 1, 3328]
-    - [750, 6192.71]
+    - [781, 6192.71]
   - - [4096, 1024, 1, 13312]
-    - [663, 9642.59]
+    - [694, 9642.59]
   - - [2048, 256, 1, 2048]
-    - [750, 7485.75]
+    - [781, 7485.75]
   - - [2048, 1024, 1, 13312]
-    - [663, 9352.26]
+    - [694, 9352.26]
   - - [2048, 512, 1, 16640]
-    - [751, 8839.17]
+    - [782, 8839.17]
   - - [1024, 512, 1, 128]
-    - [755, 4280.0]
+    - [786, 4280.0]
   - - [2048, 1024, 1, 3584]
-    - [658, 9264.72]
+    - [689, 9264.72]
   - - [2048, 512, 1, 256]
-    - [766, 6990.61]
+    - [797, 6990.61]
   - - [512, 256, 1, 3200]
-    - [713, 4154.52]
+    - [744, 4154.52]
   - - [4096, 1024, 1, 1920]
-    - [658, 9535.32]
+    - [689, 9535.32]
   - - [4096, 200, 1, 2560]
-    - [763, 6754.65]
+    - [794, 6754.65]
   - - [1024, 256, 1, 16384]
-    - [653, 6289.6]
+    - [684, 6289.6]
   - - [1024, 1024, 1, 1152]
-    - [756, 8407.39]
+    - [787, 8407.39]
   - - [2048, 200, 1, 32]
-    - [699, 1412.51]
+    - [730, 1412.51]
   - - [512, 1024, 1, 2816]
-    - [750, 7843.25]
+    - [781, 7843.25]
   - - [4096, 256, 1, 14336]
-    - [762, 8844.77]
+    - [793, 8844.77]
   - - [1024, 200, 1, 4608]
-    - [761, 4931.74]
+    - [792, 4931.74]
   - - [1024, 200, 1, 16384]
-    - [656, 5135.15]
+    - [687, 5135.15]
   - - [64, 256, 1, 1024]
-    - [734, 461.013]
+    - [765, 461.013]
   - - [1, 200, 1, 1024]
-    - [716, 7.49884]
+    - [747, 7.49884]
   - - [2048, 200, 1, 2080]
-    - [761, 6033.87]
+    - [792, 6033.87]
   - - [512, 256, 1, 1792]
-    - [671, 3153.71]
+    - [702, 3153.71]
   - - [2048, 200, 1, 1024]
-    - [761, 5711.3]
+    - [792, 5711.3]
   - - [4096, 1024, 1, 12288]
-    - [658, 9658.23]
+    - [689, 9658.23]
   - - [4096, 200, 1, 4096]
-    - [752, 6834.55]
+    - [783, 6834.55]
   - - [1024, 512, 1, 11264]
-    - [719, 7686.46]
+    - [750, 7686.46]
   - - [128, 512, 1, 1024]
-    - [689, 1458.99]
+    - [720, 1458.99]
   - - [32, 256, 1, 2048]
-    - [707, 384.899]
+    - [738, 384.899]
   - - [1024, 200, 1, 1792]
-    - [761, 4638.64]
+    - [792, 4638.64]
   - - [1024, 1024, 1, 1792]
-    - [756, 8550.56]
+    - [787, 8550.56]
   - - [32, 256, 1, 512]
-    - [740, 161.419]
+    - [771, 161.419]
   - - [512, 200, 1, 2816]
-    - [666, 3353.1]
+    - [697, 3353.1]
   - - [512, 200, 1, 3072]
-    - [651, 3298.89]
+    - [682, 3298.89]
   - - [1024, 1024, 1, 8192]
-    - [697, 8369.1]
+    - [728, 8369.1]
   - - [1024, 256, 1, 12288]
-    - [654, 6475.71]
+    - [685, 6475.71]
   - - [4096, 200, 1, 768]
-    - [756, 6367.97]
+    - [787, 6367.97]
   - - [1024, 512, 1, 16384]
-    - [772, 7367.12]
+    - [803, 7367.12]
   - - [4096, 256, 1, 1024]
-    - [752, 8214.16]
+    - [783, 8214.16]
   - - [1024, 512, 1, 256]
-    - [755, 5537.13]
+    - [786, 5537.13]
   - - [4096, 1024, 1, 8320]
-    - [658, 9674.26]
+    - [689, 9674.26]
   - - [4096, 256, 1, 9216]
-    - [760, 8791.02]
+    - [791, 8791.02]
   - - [1024, 512, 1, 1408]
-    - [750, 7459.65]
+    - [781, 7459.65]
   - - [1024, 512, 1, 5632]
-    - [761, 7997.91]
+    - [792, 7997.91]
   - - [4096, 200, 1, 256]
-    - [766, 5371.9]
+    - [797, 5371.9]
   - - [1024, 200, 1, 128]
-    - [744, 1998.15]
+    - [775, 1998.15]
   - - [256, 200, 1, 1024]
-    - [713, 1196.01]
+    - [744, 1196.01]
   - - [1024, 200, 1, 5120]
-    - [761, 4957.44]
+    - [792, 4957.44]
   - - [512, 1024, 1, 3072]
-    - [774, 7104.07]
+    - [805, 7104.07]
   - - [4096, 1024, 1, 15360]
-    - [658, 9669.04]
+    - [689, 9669.04]
   - - [1, 256, 1, 2048]
-    - [700, 13.9262]
+    - [731, 13.9262]
   - - [1024, 1024, 1, 4160]
-    - [752, 8759.3]
+    - [783, 8759.3]
   - - [1024, 256, 1, 256]
-    - [759, 3728.37]
+    - [790, 3728.37]
   - - [2048, 256, 1, 384]
-    - [761, 6123.17]
+    - [792, 6123.17]
   - - [512, 256, 1, 2560]
-    - [715, 3809.64]
+    - [746, 3809.64]
   - - [4096, 512, 1, 3072]
-    - [663, 9215.19]
+    - [694, 9215.19]
   - - [1024, 256, 1, 4160]
-    - [750, 6293.49]
+    - [781, 6293.49]
   - - [4096, 512, 1, 13312]
-    - [660, 9367.32]
+    - [691, 9367.32]
   - - [4096, 1024, 1, 3840]
-    - [658, 9631.57]
+    - [689, 9631.57]
   - - [4096, 200, 1, 640]
-    - [756, 6206.16]
+    - [787, 6206.16]
   - - [32, 200, 1, 2048]
-    - [694, 303.507]
+    - [725, 303.507]
   - - [1024, 200, 1, 512]
-    - [750, 3713.19]
+    - [781, 3713.19]
   - - [1024, 1024, 1, 7168]
-    - [753, 8475.74]
+    - [784, 8475.74]
   - - [2048, 1024, 1, 3200]
-    - [658, 9271.34]
+    - [689, 9271.34]
   - - [512, 512, 1, 1536]
-    - [761, 5832.27]
+    - [792, 5832.27]
   - - [4096, 256, 1, 768]
-    - [766, 8066.07]
+    - [797, 8066.07]
   - - [2048, 256, 1, 6656]
-    - [750, 8034.87]
+    - [781, 8034.87]
   - - [1024, 256, 1, 896]
-    - [750, 5467.54]
+    - [781, 5467.54]
   - - [2048, 256, 1, 512]
-    - [761, 6465.31]
+    - [792, 6465.31]
   - - [2048, 200, 1, 3072]
-    - [761, 6165.78]
+    - [792, 6165.78]
   - - [128, 200, 1, 1024]
-    - [718, 692.87]
+    - [749, 692.87]
   - - [4096, 512, 1, 3840]
-    - [663, 9272.7]
+    - [694, 9272.7]
   - - [1024, 200, 1, 3200]
-    - [761, 4838.85]
+    - [792, 4838.85]
   - - [4096, 512, 1, 5632]
-    - [658, 9335.52]
+    - [689, 9335.52]
   - - [4096, 512, 1, 64]
-    - [693, 5275.95]
+    - [724, 5275.95]
   - - [1024, 512, 1, 2816]
-    - [750, 7816.68]
+    - [781, 7816.68]
   - - [4096, 256, 1, 7680]
-    - [756, 8795.5]
+    - [787, 8795.5]
   - - [4096, 200, 1, 1024]
-    - [766, 6448.91]
+    - [797, 6448.91]
   - - [1024, 512, 1, 12288]
-    - [720, 7624.67]
+    - [751, 7624.67]
   - - [2048, 1024, 1, 512]
-    - [663, 8436.16]
+    - [694, 8436.16]
   - - [128, 256, 1, 2048]
-    - [737, 1342.28]
+    - [768, 1342.28]
   - - [2048, 200, 1, 1792]
-    - [761, 6020.47]
+    - [792, 6020.47]
   - - [1024, 1024, 1, 2816]
-    - [752, 8670.5]
+    - [783, 8670.5]
   - - [2048, 512, 1, 1536]
-    - [763, 8466.32]
+    - [794, 8466.32]
   - - [4096, 256, 1, 3072]
-    - [760, 8631.47]
+    - [791, 8631.47]
   - - [1024, 200, 1, 1536]
-    - [742, 4577.7]
+    - [773, 4577.7]
   - - [1024, 256, 1, 1024]
-    - [750, 5491.82]
+    - [781, 5491.82]
   - - [4096, 512, 1, 8192]
-    - [663, 9325.64]
+    - [694, 9325.64]
   - - [128, 1024, 1, 512]
-    - [761, 2534.42]
+    - [792, 2534.42]
   - - [4096, 512, 1, 2304]
-    - [658, 9193.09]
+    - [689, 9193.09]
   - - [2048, 256, 1, 5632]
-    - [761, 7999.64]
+    - [792, 7999.64]
   - - [1024, 256, 1, 5120]
-    - [761, 6307.32]
+    - [792, 6307.32]
   - - [1024, 512, 1, 6656]
-    - [761, 8028.95]
+    - [792, 8028.95]
   - - [4096, 512, 1, 2816]
-    - [658, 9234.5]
+    - [689, 9234.5]
   - - [4096, 200, 1, 2080]
-    - [745, 6697.96]
+    - [776, 6697.96]
   - - [1024, 200, 1, 2304]
-    - [761, 4752.91]
+    - [792, 4752.91]
   - - [2048, 200, 1, 13312]
-    - [750, 6346.23]
+    - [781, 6346.23]
   - - [64, 1024, 1, 1024]
-    - [734, 1359.68]
+    - [765, 1359.68]
   - - [4096, 256, 1, 3584]
-    - [756, 8668.9]
+    - [787, 8668.9]
   - - [2048, 1024, 1, 7680]
-    - [658, 9365.88]
+    - [689, 9365.88]
   - - [1024, 256, 1, 1664]
-    - [750, 5907.57]
+    - [781, 5907.57]
   - - [1, 512, 1, 2048]
-    - [677, 23.5057]
+    - [708, 23.5057]
   - - [512, 512, 1, 1024]
-    - [750, 5360.23]
+    - [781, 5360.23]
   - - [2048, 256, 1, 8192]
-    - [722, 7665.31]
+    - [753, 7665.31]
   - - [2048, 512, 1, 512]
-    - [752, 7767.33]
+    - [783, 7767.33]
   - - [4096, 512, 1, 1920]
-    - [658, 9133.04]
+    - [689, 9133.04]
   - - [4096, 200, 1, 12288]
-    - [766, 6910.75]
+    - [797, 6910.75]
   - - [1024, 512, 1, 3072]
-    - [696, 7310.43]
+    - [727, 7310.43]
   - - [2048, 512, 1, 1152]
-    - [756, 8342.36]
+    - [787, 8342.36]
   - - [1024, 256, 1, 2080]
-    - [750, 6010.46]
+    - [781, 6010.46]
   - - [4096, 1024, 1, 32]
-    - [746, 4793.59]
+    - [777, 4793.59]
   - - [4096, 512, 1, 16640]
-    - [658, 9365.41]
+    - [689, 9365.41]
   - - [2048, 200, 1, 9216]
-    - [750, 6315.98]
+    - [781, 6315.98]
   - - [2048, 200, 1, 2560]
-    - [750, 6119.24]
+    - [781, 6119.24]
   - - [2048, 1024, 1, 1024]
-    - [658, 8628.69]
+    - [689, 8628.69]
   - - [2048, 256, 1, 4608]
-    - [750, 7951.39]
+    - [781, 7951.39]
   - - [512, 200, 1, 768]
-    - [702, 2132.51]
+    - [733, 2132.51]
   - - [128, 256, 1, 512]
-    - [702, 670.117]
+    - [733, 670.117]
   - - [4096, 512, 1, 1792]
-    - [663, 9127.01]
+    - [694, 9127.01]
   - - [4096, 1024, 1, 8192]
-    - [658, 9591.37]
+    - [689, 9591.37]
   - - [1024, 256, 1, 2816]
-    - [761, 6119.11]
+    - [792, 6119.11]
   - - [1024, 1024, 1, 13312]
-    - [753, 8529.37]
+    - [784, 8529.37]
   - - [2048, 1024, 1, 4160]
-    - [658, 9305.67]
+    - [689, 9305.67]
   - - [2048, 256, 1, 3584]
-    - [750, 7903.23]
+    - [781, 7903.23]
   - - [128, 200, 1, 2048]
-    - [718, 1135.91]
+    - [749, 1135.91]
   - - [4096, 512, 1, 10240]
-    - [660, 9339.59]
+    - [691, 9339.59]
   - - [4096, 512, 1, 512]
-    - [658, 8446.78]
+    - [689, 8446.78]
   - - [2048, 1024, 1, 6656]
-    - [658, 9331.75]
+    - [689, 9331.75]
   - - [1024, 512, 1, 640]
-    - [750, 6776.04]
+    - [781, 6776.04]
   - - [2048, 512, 1, 768]
-    - [752, 8085.51]
+    - [783, 8085.51]
   - - [2048, 200, 1, 1408]
-    - [750, 5880.17]
+    - [781, 5880.17]
   - - [4096, 200, 1, 2048]
-    - [766, 6691.71]
+    - [797, 6691.71]
   - - [1024, 1024, 1, 5632]
-    - [752, 8749.63]
+    - [783, 8749.63]
   - - [2048, 512, 1, 3584]
-    - [756, 8704.23]
+    - [787, 8704.23]
   - - [64, 512, 1, 512]
-    - [692, 667.983]
+    - [723, 667.983]
   - - [64, 200, 1, 512]
-    - [702, 251.388]
+    - [733, 251.388]
   - - [1024, 200, 1, 64]
-    - [657, 1310.82]
+    - [688, 1310.82]
   - - [512, 512, 1, 2304]
-    - [750, 6078.8]
+    - [781, 6078.8]
   - - [2048, 1024, 1, 14336]
-    - [658, 9321.94]
+    - [689, 9321.94]
   - - [4096, 512, 1, 11264]
-    - [660, 9339.95]
+    - [691, 9339.95]
   - - [4096, 512, 1, 128]
-    - [745, 6566.53]
+    - [776, 6566.53]
   - - [1024, 512, 1, 64]
-    - [765, 2953.84]
+    - [796, 2953.84]
   - - [4096, 512, 1, 768]
-    - [658, 8738.23]
+    - [689, 8738.23]
   - - [4096, 1024, 1, 11264]
-    - [658, 9637.78]
+    - [689, 9637.78]
   - - [1, 256, 1, 1024]
-    - [748, 8.93234]
+    - [779, 8.93234]
   - - [4096, 200, 1, 7680]
-    - [745, 6889.57]
+    - [776, 6889.57]
   - - [1024, 200, 1, 12288]
-    - [717, 5237.74]
+    - [748, 5237.74]
   - - [1024, 1024, 1, 1280]
-    - [752, 8418.17]
+    - [783, 8418.17]
   - - [4096, 1024, 1, 16640]
-    - [658, 9675.01]
+    - [689, 9675.01]
   - - [2048, 1024, 1, 5632]
-    - [658, 9327.85]
+    - [689, 9327.85]
   - - [1024, 200, 1, 15360]
-    - [717, 5386.63]
+    - [748, 5386.63]
   - - [1, 1024, 1, 1024]
-    - [767, 27.3499]
+    - [798, 27.3499]
   - - [2048, 256, 1, 16384]
-    - [728, 7652.75]
+    - [759, 7652.75]
   - - [4096, 512, 1, 12288]
-    - [660, 9359.51]
+    - [691, 9359.51]
   - - [2048, 200, 1, 896]
-    - [761, 5628.96]
+    - [792, 5628.96]
   - - [4096, 1024, 1, 5632]
-    - [658, 9626.78]
+    - [689, 9626.78]
   - - [2048, 256, 1, 32]
-    - [754, 1889.43]
+    - [785, 1889.43]
   - - [2048, 256, 1, 1280]
-    - [750, 7390.94]
+    - [781, 7390.94]
   - - [4096, 256, 1, 4096]
-    - [752, 8694.37]
+    - [783, 8694.37]
   - - [2048, 256, 1, 11264]
-    - [750, 8113.95]
+    - [781, 8113.95]
   - - [4096, 200, 1, 9216]
-    - [752, 6891.08]
+    - [783, 6891.08]
   - - [1024, 512, 1, 4096]
-    - [698, 7348.46]
+    - [729, 7348.46]
   - - [2048, 1024, 1, 10240]
-    - [660, 9095.91]
+    - [691, 9095.91]
   - - [4096, 1024, 1, 640]
-    - [658, 9115.68]
+    - [689, 9115.68]
   - - [128, 1024, 1, 2048]
-    - [651, 3270.51]
+    - [682, 3270.51]
   - - [4096, 200, 1, 3840]
-    - [745, 6836.26]
+    - [776, 6836.26]
   - - [1024, 1024, 1, 1920]
-    - [756, 8562.82]
+    - [787, 8562.82]
   - - [2048, 200, 1, 7168]
-    - [761, 6296.23]
+    - [792, 6296.23]
   - - [2048, 512, 1, 16384]
-    - [652, 8632.51]
+    - [683, 8632.51]
   - - [2048, 1024, 1, 12288]
-    - [658, 9158.08]
+    - [689, 9158.08]
   - - [4096, 1024, 1, 10240]
-    - [658, 9658.84]
+    - [689, 9658.84]
   - - [1024, 1024, 1, 8320]
-    - [760, 8799.58]
+    - [791, 8799.58]
   - - [1024, 256, 1, 9216]
-    - [750, 6375.23]
+    - [781, 6375.23]
   - - [4096, 256, 1, 1152]
-    - [745, 8301.09]
+    - [776, 8301.09]
   - - [512, 200, 1, 2560]
-    - [711, 3088.51]
+    - [742, 3088.51]
   - - [2048, 256, 1, 1920]
-    - [750, 7714.94]
+    - [781, 7714.94]
   - - [2048, 1024, 1, 4608]
-    - [658, 9305.7]
+    - [689, 9305.7]
   - - [512, 256, 1, 1024]
-    - [758, 2887.74]
+    - [789, 2887.74]
   - - [1024, 256, 1, 1920]
-    - [742, 5913.12]
+    - [773, 5913.12]
   - - [4096, 512, 1, 3584]
-    - [658, 9275.69]
+    - [689, 9275.69]
   - - [2048, 512, 1, 4160]
-    - [763, 8734.03]
+    - [794, 8734.03]
   - - [2048, 512, 1, 5632]
-    - [766, 8758.98]
+    - [797, 8758.98]
   - - [4096, 1024, 1, 4608]
-    - [658, 9657.22]
+    - [689, 9657.22]
   - - [4096, 1024, 1, 3328]
-    - [658, 9621.45]
+    - [689, 9621.45]
   - - [4096, 256, 1, 7168]
-    - [752, 8770.05]
+    - [783, 8770.05]
   - - [4096, 200, 1, 128]
-    - [766, 4458.33]
+    - [797, 4458.33]
   - - [2048, 200, 1, 5120]
-    - [750, 6176.91]
+    - [781, 6176.91]
   - - [1024, 1024, 1, 6656]
-    - [752, 8780.45]
+    - [783, 8780.45]
   - - [512, 1024, 1, 3200]
-    - [761, 7887.09]
+    - [792, 7887.09]
   - - [512, 200, 1, 2304]
-    - [651, 2991.09]
+    - [682, 2991.09]
   - - [2048, 1024, 1, 9216]
-    - [663, 9325.46]
+    - [694, 9325.46]
   - - [2048, 256, 1, 1536]
-    - [761, 7551.73]
+    - [792, 7551.73]
   - - [4096, 256, 1, 256]
-    - [766, 6932.83]
+    - [797, 6932.83]
   - - [2048, 512, 1, 1408]
-    - [763, 8430.86]
+    - [794, 8430.86]
   - - [1024, 256, 1, 384]
-    - [755, 4462.13]
+    - [786, 4462.13]
   - - [2048, 1024, 1, 2304]
-    - [658, 9174.94]
+    - [689, 9174.94]
   - - [4096, 512, 1, 6144]
-    - [660, 9284.25]
+    - [691, 9284.25]
   - - [1024, 200, 1, 14336]
-    - [649, 5268.57]
+    - [680, 5268.57]
   - - [1024, 512, 1, 2080]
-    - [761, 7736.47]
+    - [792, 7736.47]
   - - [2048, 512, 1, 2304]
-    - [763, 8616.07]
+    - [794, 8616.07]
   - - [4096, 512, 1, 15360]
-    - [663, 9362.17]
+    - [694, 9362.17]
   - - [1024, 256, 1, 32]
-    - [683, 1028.12]
+    - [714, 1028.12]
   - - [1024, 200, 1, 2816]
-    - [761, 4780.58]
+    - [792, 4780.58]
   - - [4096, 200, 1, 512]
-    - [752, 6054.23]
+    - [783, 6054.23]
   - - [4096, 1024, 1, 7168]
-    - [663, 9468.49]
+    - [694, 9468.49]
   - - [2048, 256, 1, 14336]
-    - [724, 7865.52]
+    - [755, 7865.52]
   - - [1024, 200, 1, 3072]
-    - [761, 4804.2]
+    - [792, 4804.2]
   - - [2048, 200, 1, 1280]
-    - [761, 5846.31]
+    - [792, 5846.31]
   - - [1024, 1024, 1, 2304]
-    - [752, 8633.32]
+    - [783, 8633.32]
   - - [4096, 1024, 1, 9216]
-    - [658, 9641.03]
+    - [689, 9641.03]
   - - [2048, 512, 1, 4608]
-    - [763, 8743.3]
+    - [794, 8743.3]
   - - [4096, 1024, 1, 7680]
-    - [658, 9684.86]
+    - [689, 9684.86]
   - - [4096, 256, 1, 6144]
-    - [763, 8757.24]
+    - [794, 8757.24]
   - - [4096, 256, 1, 896]
-    - [756, 8258.93]
+    - [787, 8258.93]
   - - [512, 256, 1, 1536]
-    - [740, 3065.36]
+    - [771, 3065.36]
   - - [1024, 256, 1, 512]
-    - [750, 4752.85]
+    - [781, 4752.85]
   - - [2048, 256, 1, 640]
-    - [750, 6776.04]
+    - [781, 6776.04]
   - - [256, 256, 1, 2048]
-    - [687, 2249.06]
+    - [718, 2249.06]
   - - [2048, 1024, 1, 8192]
-    - [658, 9178.17]
+    - [689, 9178.17]
   - - [4096, 200, 1, 16640]
-    - [650, 7009.59]
+    - [681, 7009.59]
   - - [256, 512, 1, 512]
-    - [662, 2511.66]
+    - [693, 2511.66]
   - - [2048, 512, 1, 384]
-    - [763, 7467.7]
+    - [794, 7467.7]
   - - [2048, 200, 1, 16384]
-    - [731, 6327.31]
+    - [762, 6327.31]
   - - [4096, 200, 1, 10240]
-    - [756, 6892.74]
+    - [787, 6892.74]
   - - [1024, 512, 1, 9216]
-    - [705, 7530.09]
+    - [736, 7530.09]
   - - [4096, 1024, 1, 64]
-    - [680, 6260.26]
+    - [711, 6260.26]
   - - [4096, 200, 1, 1920]
-    - [766, 6710.27]
+    - [797, 6710.27]
   - - [2048, 1024, 1, 1280]
-    - [658, 8998.34]
+    - [689, 8998.34]
   - - [1024, 200, 1, 3840]
-    - [750, 4873.87]
+    - [781, 4873.87]
   - - [256, 1024, 1, 512]
-    - [761, 4766.35]
+    - [792, 4766.35]
   - - [2048, 1024, 1, 3328]
-    - [658, 9275.2]
+    - [689, 9275.2]
   - - [1024, 256, 1, 16640]
-    - [715, 6837.22]
+    - [746, 6837.22]
   - - [4096, 512, 1, 14336]
-    - [663, 9354.42]
+    - [694, 9354.42]
   - - [1024, 1024, 1, 16640]
-    - [760, 8832.37]
+    - [791, 8832.37]
   - - [1024, 256, 1, 1152]
-    - [761, 5642.66]
+    - [792, 5642.66]
   - - [512, 512, 1, 512]
-    - [750, 4779.93]
+    - [781, 4779.93]
   - - [4096, 512, 1, 8320]
-    - [663, 9327.96]
+    - [694, 9327.96]
   - - [2048, 512, 1, 7680]
-    - [766, 8793.96]
+    - [797, 8793.96]
   - - [4096, 1024, 1, 6656]
-    - [658, 9667.03]
+    - [689, 9667.03]
   - - [1024, 512, 1, 3584]
-    - [761, 7900.57]
+    - [792, 7900.57]
   - - [1024, 1024, 1, 32]
-    - [746, 2974.78]
+    - [777, 2974.78]
   - - [512, 512, 1, 2816]
-    - [742, 6155.85]
+    - [773, 6155.85]
   - - [2048, 512, 1, 1664]
-    - [766, 8496.55]
+    - [797, 8496.55]
   - - [1024, 1024, 1, 14336]
-    - [652, 8624.74]
+    - [683, 8624.74]
   - - [2048, 200, 1, 2048]
-    - [761, 6029.86]
+    - [792, 6029.86]
   - - [1024, 1024, 1, 3584]
-    - [752, 8702.62]
+    - [783, 8702.62]
   - - [512, 200, 1, 1280]
-    - [666, 2350.75]
+    - [697, 2350.75]
   - - [4096, 256, 1, 6656]
-    - [766, 8788.41]
+    - [797, 8788.41]
   - - [4096, 256, 1, 4160]
-    - [743, 8728.44]
+    - [774, 8728.44]
   - - [128, 256, 1, 1024]
-    - [725, 859.589]
+    - [756, 859.589]
   - - [512, 200, 1, 3200]
-    - [666, 3376.85]
+    - [697, 3376.85]
   - - [2048, 512, 1, 9216]
-    - [749, 8806.4]
+    - [780, 8806.4]
   - - [2048, 1024, 1, 256]
-    - [745, 7713.76]
+    - [776, 7713.76]
   - - [1024, 256, 1, 2304]
-    - [761, 6015.83]
+    - [792, 6015.83]
   - - [1024, 200, 1, 8192]
-    - [761, 5022.02]
+    - [792, 5022.02]
   - - [2048, 256, 1, 3072]
-    - [678, 7515.09]
+    - [709, 7515.09]
   - - [2048, 256, 1, 8320]
-    - [750, 8063.68]
+    - [781, 8063.68]
   - - [4096, 512, 1, 1024]
-    - [660, 8824.41]
+    - [691, 8824.41]
   - - [1024, 512, 1, 3200]
-    - [750, 7866.39]
+    - [781, 7866.39]
   - - [1024, 512, 1, 896]
-    - [742, 7161.11]
+    - [773, 7161.11]
   - - [2048, 512, 1, 1280]
-    - [756, 8384.52]
+    - [787, 8384.52]
   - - [4096, 200, 1, 64]
-    - [665, 3260.6]
+    - [696, 3260.6]
   - - [1024, 256, 1, 6144]
-    - [771, 6143.72]
+    - [802, 6143.72]
   - - [1024, 200, 1, 2560]
-    - [750, 4762.89]
+    - [781, 4762.89]
   - - [1024, 1024, 1, 5120]
-    - [679, 8454.23]
+    - [710, 8454.23]
   - - [2048, 512, 1, 6656]
-    - [756, 8799.05]
+    - [787, 8799.05]
   - - [4096, 1024, 1, 1536]
-    - [658, 9503.37]
+    - [689, 9503.37]
   - - [1024, 1024, 1, 128]
-    - [681, 5825.52]
+    - [712, 5825.52]
   - - [512, 1024, 1, 1792]
-    - [750, 7701.12]
+    - [781, 7701.12]
   - - [2048, 1024, 1, 32]
-    - [661, 3938.41]
+    - [692, 3938.41]
   - - [4096, 256, 1, 2816]
-    - [745, 8652.2]
+    - [776, 8652.2]
   - - [1024, 1024, 1, 15360]
-    - [652, 8719.7]
+    - [683, 8719.7]
   - - [1024, 256, 1, 5632]
-    - [750, 6344.18]
+    - [781, 6344.18]
   - - [1024, 1024, 1, 4096]
-    - [753, 8187.86]
+    - [784, 8187.86]
   - - [2048, 200, 1, 4160]
-    - [761, 6222.48]
+    - [792, 6222.48]
   - - [512, 256, 1, 768]
-    - [692, 2771.67]
+    - [723, 2771.67]
   - - [4096, 512, 1, 640]
-    - [663, 8590.58]
+    - [694, 8590.58]
   - - [2048, 512, 1, 8192]
-    - [705, 8494.9]
+    - [736, 8494.9]
   - - [1024, 512, 1, 768]
-    - [750, 7049.35]
+    - [781, 7049.35]
   - - [4096, 200, 1, 8320]
-    - [745, 6908.7]
+    - [776, 6908.7]
   - - [2048, 512, 1, 896]
-    - [752, 8224.23]
+    - [783, 8224.23]
   - - [4096, 200, 1, 7168]
-    - [763, 6878.59]
+    - [794, 6878.59]
   - - [2048, 512, 1, 13312]
-    - [751, 8803.04]
+    - [782, 8803.04]
   - - [64, 512, 1, 1024]
-    - [655, 844.024]
+    - [686, 844.024]
   - - [2048, 200, 1, 3840]
-    - [750, 6192.48]
+    - [781, 6192.48]
   - - [1024, 1024, 1, 768]
-    - [743, 8098.51]
+    - [774, 8098.51]
   - - [4096, 512, 1, 16384]
-    - [663, 9345.73]
+    - [694, 9345.73]
   - - [4096, 256, 1, 2304]
-    - [743, 8596.45]
+    - [774, 8596.45]
   - - [1, 256, 1, 4096]
-    - [748, 19.9293]
+    - [779, 19.9293]
   - - [1024, 1024, 1, 11264]
-    - [753, 8491.48]
+    - [784, 8491.48]
   - - [2048, 200, 1, 16640]
-    - [747, 6510.64]
+    - [778, 6510.64]
   - - [1024, 256, 1, 3072]
-    - [761, 6179.55]
+    - [792, 6179.55]
   - - [4096, 1024, 1, 512]
-    - [658, 9032.25]
+    - [689, 9032.25]
   - - [2048, 256, 1, 2816]
-    - [750, 7793.57]
+    - [781, 7793.57]
   - - [32, 512, 1, 512]
-    - [662, 318.816]
+    - [693, 318.816]
   - - [256, 512, 1, 2048]
-    - [713, 3369.02]
+    - [744, 3369.02]
   - - [1024, 512, 1, 384]
-    - [761, 6198.58]
+    - [792, 6198.58]
   - - [2048, 200, 1, 7680]
-    - [750, 6307.7]
+    - [781, 6307.7]
   - - [1024, 512, 1, 4608]
-    - [761, 7953.48]
+    - [792, 7953.48]
   - - [4096, 200, 1, 32]
-    - [710, 2199.29]
+    - [741, 2199.29]
   - - [4096, 200, 1, 3328]
-    - [745, 6813.12]
+    - [776, 6813.12]
   - - [1024, 200, 1, 1152]
-    - [750, 4375.65]
+    - [781, 4375.65]
   - - [1024, 1024, 1, 1408]
-    - [752, 8457.91]
+    - [783, 8457.91]
   - - [2048, 200, 1, 15360]
-    - [726, 6333.1]
+    - [757, 6333.1]
   - - [512, 1024, 1, 2048]
-    - [736, 6280.76]
+    - [767, 6280.76]
   - - [1024, 512, 1, 1024]
-    - [761, 7064.19]
+    - [792, 7064.19]
   - - [1024, 200, 1, 10240]
-    - [750, 5030.69]
+    - [781, 5030.69]
   - - [4096, 256, 1, 5632]
-    - [763, 8765.22]
+    - [794, 8765.22]
   - - [512, 512, 1, 3072]
-    - [773, 5942.44]
+    - [804, 5942.44]
   - - [2048, 256, 1, 1408]
-    - [750, 7545.05]
+    - [781, 7545.05]
   - - [2048, 256, 1, 6144]
-    - [761, 7963.97]
+    - [792, 7963.97]
   - - [4096, 256, 1, 3328]
-    - [756, 8682.58]
+    - [787, 8682.58]
   - - [1024, 200, 1, 1664]
-    - [750, 4595.4]
+    - [781, 4595.4]
   - - [2048, 1024, 1, 1152]
-    - [658, 8942.65]
+    - [689, 8942.65]
   - - [2048, 512, 1, 6144]
-    - [751, 8729.71]
+    - [782, 8729.71]
   - - [2048, 512, 1, 3200]
-    - [752, 8696.56]
+    - [783, 8696.56]
   - - [4096, 1024, 1, 2080]
-    - [691, 9538.45]
+    - [722, 9538.45]
   - - [4096, 1024, 1, 768]
-    - [658, 9260.75]
+    - [689, 9260.75]
   - - [4096, 1024, 1, 2560]
-    - [658, 9567.27]
+    - [689, 9567.27]
   - - [64, 200, 1, 2048]
-    - [690, 583.161]
+    - [721, 583.161]
   - - [2048, 200, 1, 4608]
-    - [761, 6243.28]
+    - [792, 6243.28]
   - - [1024, 1024, 1, 6144]
-    - [753, 8320.25]
+    - [784, 8320.25]
   - - [4096, 256, 1, 1664]
-    - [756, 8503.17]
+    - [787, 8503.17]
   - - [2048, 200, 1, 384]
-    - [761, 4940.0]
+    - [792, 4940.0]
   - - [1, 200, 1, 2048]
-    - [707, 11.3281]
+    - [738, 11.3281]
   - - [4096, 256, 1, 1792]
-    - [766, 8504.12]
+    - [797, 8504.12]
   - - [2048, 1024, 1, 64]
-    - [680, 5309.35]
+    - [711, 5309.35]
   - - [4096, 1024, 1, 16384]
-    - [647, 9428.61]
+    - [678, 9428.61]
   - - [1024, 512, 1, 16640]
-    - [761, 8122.55]
+    - [792, 8122.55]
   - - [2048, 512, 1, 10240]
-    - [751, 8766.21]
+    - [782, 8766.21]
   - - [4096, 512, 1, 6656]
-    - [658, 9351.75]
+    - [689, 9351.75]
   - - [2048, 256, 1, 16640]
-    - [750, 8135.27]
+    - [781, 8135.27]
   - - [2048, 512, 1, 2816]
-    - [752, 8660.32]
+    - [783, 8660.32]
   - - [1024, 200, 1, 32]
-    - [670, 780.291]
+    - [701, 780.291]
   - - [1, 512, 1, 4096]
-    - [695, 34.8671]
+    - [726, 34.8671]
   - - [256, 256, 1, 1024]
-    - [702, 1490.08]
+    - [733, 1490.08]
   - - [2048, 1024, 1, 128]
-    - [675, 6605.3]
+    - [706, 6605.3]
   - - [2048, 1024, 1, 2080]
-    - [658, 9159.51]
+    - [689, 9159.51]
   - - [2048, 1024, 1, 16640]
-    - [658, 9371.65]
+    - [689, 9371.65]
   - - [1024, 200, 1, 384]
-    - [761, 3378.24]
+    - [792, 3378.24]
   - - [4096, 256, 1, 384]
-    - [706, 7369.3]
+    - [737, 7369.3]
   - - [4096, 256, 1, 13312]
-    - [760, 8776.48]
+    - [791, 8776.48]
   - - [2048, 256, 1, 128]
-    - [755, 4280.0]
+    - [786, 4280.0]
   - - [512, 256, 1, 2304]
-    - [667, 3584.98]
+    - [698, 3584.98]
   - - [2048, 1024, 1, 3072]
-    - [660, 9156.52]
+    - [691, 9156.52]
   - - [1024, 1024, 1, 640]
-    - [756, 7928.84]
+    - [787, 7928.84]
   - - [256, 512, 1, 1024]
-    - [761, 2843.7]
+    - [792, 2843.7]
   - - [4096, 1024, 1, 1408]
-    - [658, 9437.56]
+    - [689, 9437.56]
   - - [4096, 200, 1, 5632]
-    - [763, 6873.96]
+    - [794, 6873.96]
   - - [4096, 1024, 1, 2048]
-    - [658, 9437.1]
+    - [689, 9437.1]
   - - [2048, 1024, 1, 2560]
-    - [663, 9195.62]
+    - [694, 9195.62]
   - - [4096, 1024, 1, 128]
-    - [745, 7407.26]
+    - [776, 7407.26]
   - - [1024, 200, 1, 3328]
-    - [761, 4857.39]
+    - [792, 4857.39]
   - - [2048, 200, 1, 1152]
-    - [750, 5760.1]
+    - [781, 5760.1]
   - - [1024, 200, 1, 9216]
-    - [649, 5053.21]
+    - [680, 5053.21]
   - - [4096, 256, 1, 512]
-    - [743, 7617.45]
+    - [774, 7617.45]
   - - [4096, 1024, 1, 14336]
-    - [658, 9665.12]
+    - [689, 9665.12]
   - - [1024, 1024, 1, 384]
-    - [681, 7478.8]
+    - [712, 7478.8]
   - - [2048, 200, 1, 512]
-    - [750, 5150.28]
+    - [781, 5150.28]
   - - [2048, 256, 1, 9216]
-    - [729, 7717.71]
+    - [760, 7717.71]
   - - [2048, 256, 1, 1792]
-    - [750, 7655.94]
+    - [781, 7655.94]
   - - [4096, 512, 1, 9216]
-    - [660, 9331.22]
+    - [691, 9331.22]
   - - [4096, 200, 1, 15360]
-    - [650, 6958.14]
+    - [681, 6958.14]
   - - [1024, 512, 1, 2048]
-    - [749, 7067.91]
+    - [780, 7067.91]
   - - [64, 256, 1, 2048]
-    - [674, 723.256]
+    - [705, 723.256]
   - - [4096, 200, 1, 1792]
-    - [752, 6699.65]
+    - [783, 6699.65]
   - - [1, 200, 1, 4096]
-    - [684, 15.6387]
+    - [715, 15.6387]
   - - [2048, 1024, 1, 2048]
-    - [663, 9071.93]
+    - [694, 9071.93]
   - - [1024, 200, 1, 2080]
-    - [742, 4679.19]
+    - [773, 4679.19]
   - - [2048, 200, 1, 1536]
-    - [761, 5939.92]
+    - [792, 5939.92]
   - - [1024, 1024, 1, 3072]
-    - [723, 8333.15]
+    - [754, 8333.15]
   - - [512, 200, 1, 1792]
-    - [648, 2679.73]
+    - [679, 2679.73]
   - - [1024, 256, 1, 11264]
-    - [651, 6470.98]
+    - [682, 6470.98]
   - - [2048, 512, 1, 12288]
-    - [698, 8729.24]
+    - [729, 8729.24]
   - - [1024, 256, 1, 1792]
-    - [761, 5931.44]
+    - [792, 5931.44]
   - - [1024, 200, 1, 7168]
-    - [761, 4970.33]
+    - [792, 4970.33]
   - - [32, 256, 1, 1024]
-    - [672, 237.334]
+    - [703, 237.334]
   - - [512, 256, 1, 3072]
-    - [715, 3813.1]
+    - [746, 3813.1]
   - - [1024, 1024, 1, 2080]
-    - [752, 8600.41]
+    - [783, 8600.41]
   - - [2048, 200, 1, 2304]
-    - [761, 6093.32]
+    - [792, 6093.32]
   - - [4096, 512, 1, 1536]
-    - [658, 9075.0]
+    - [689, 9075.0]
   - - [2048, 256, 1, 7168]
-    - [761, 7895.26]
+    - [792, 7895.26]
   - - [2048, 512, 1, 1792]
-    - [763, 8531.92]
+    - [794, 8531.92]
   - - [1024, 200, 1, 2048]
-    - [750, 4685.43]
+    - [781, 4685.43]
   - - [1024, 1024, 1, 4608]
-    - [756, 8735.71]
+    - [787, 8735.71]
   - - [4096, 256, 1, 8192]
-    - [752, 8782.55]
+    - [783, 8782.55]
   - - [512, 1024, 1, 1280]
-    - [742, 7483.25]
+    - [773, 7483.25]
   - - [2048, 1024, 1, 16384]
-    - [652, 8878.96]
+    - [683, 8878.96]
   - - [512, 512, 1, 1280]
-    - [750, 5745.72]
+    - [781, 5745.72]
   - - [1024, 200, 1, 1280]
-    - [742, 4446.23]
+    - [773, 4446.23]
   - - [2048, 256, 1, 3200]
-    - [750, 7842.85]
+    - [781, 7842.85]
   - - [2048, 512, 1, 15360]
-    - [698, 8757.24]
+    - [729, 8757.24]
   - - [1024, 512, 1, 3328]
-    - [750, 7854.04]
+    - [781, 7854.04]
   - - [1024, 512, 1, 4160]
-    - [750, 7934.61]
+    - [781, 7934.61]
   - - [4096, 200, 1, 6656]
-    - [752, 6883.3]
+    - [783, 6883.3]
   - - [4096, 1024, 1, 1024]
-    - [658, 9229.44]
+    - [689, 9229.44]
   - - [2048, 200, 1, 3328]
-    - [761, 6182.74]
+    - [792, 6182.74]
   - - [1024, 1024, 1, 256]
-    - [681, 6932.83]
+    - [712, 6932.83]
   - - [512, 200, 1, 512]
-    - [702, 1910.77]
+    - [733, 1910.77]
   - - [2048, 256, 1, 64]
-    - [673, 2912.81]
+    - [704, 2912.81]
   - - [1024, 256, 1, 2560]
-    - [750, 6123.17]
+    - [781, 6123.17]
   - - [2048, 512, 1, 11264]
-    - [762, 8728.94]
+    - [793, 8728.94]
   - - [32, 200, 1, 1024]
-    - [757, 187.56]
+    - [788, 187.56]
   - - [32, 512, 1, 2048]
-    - [701, 694.521]
+    - [732, 694.521]
   - - [2048, 256, 1, 2304]
-    - [750, 7759.35]
+    - [781, 7759.35]
   - - [2048, 256, 1, 12288]
-    - [729, 7726.35]
+    - [760, 7726.35]
   - - [4096, 200, 1, 8192]
-    - [752, 6870.94]
+    - [783, 6870.94]
   - - [1024, 512, 1, 7168]
-    - [698, 7479.2]
+    - [729, 7479.2]
   - - [1024, 512, 1, 1792]
-    - [750, 7626.11]
+    - [781, 7626.11]
   - - [4096, 1024, 1, 1664]
-    - [658, 9503.54]
+    - [689, 9503.54]
   - - [4096, 200, 1, 2816]
-    - [745, 6775.44]
+    - [776, 6775.44]
   - - [1024, 1024, 1, 896]
-    - [752, 8229.99]
+    - [783, 8229.99]
   - - [1024, 200, 1, 8320]
-    - [713, 5173.58]
+    - [744, 5173.58]
   - - [1024, 1024, 1, 12288]
-    - [753, 8463.21]
+    - [784, 8463.21]
   - - [1024, 256, 1, 8320]
-    - [742, 6404.37]
+    - [773, 6404.37]
   - - [1024, 200, 1, 1024]
-    - [750, 4297.54]
+    - [781, 4297.54]
   - - [1024, 200, 1, 16640]
-    - [712, 5499.51]
+    - [743, 5499.51]
   - - [4096, 256, 1, 5120]
-    - [766, 8729.15]
+    - [797, 8729.15]
   - - [1024, 256, 1, 3200]
-    - [761, 6124.96]
+    - [792, 6124.96]
   - - [512, 512, 1, 2560]
-    - [761, 6109.79]
+    - [792, 6109.79]
   - - [4096, 256, 1, 2048]
-    - [766, 8511.05]
+    - [797, 8511.05]
   - - [1024, 256, 1, 640]
-    - [750, 5102.66]
+    - [781, 5102.66]
   - - [2048, 256, 1, 5120]
-    - [678, 7667.93]
+    - [709, 7667.93]
   - - [2048, 256, 1, 7680]
-    - [761, 8054.45]
+    - [792, 8054.45]
   - - [4096, 512, 1, 384]
-    - [756, 8190.77]
+    - [787, 8190.77]
   - - [2048, 200, 1, 3584]
-    - [750, 6166.12]
+    - [781, 6166.12]
   - - [1024, 512, 1, 1536]
-    - [750, 7517.9]
+    - [781, 7517.9]
   - - [4096, 512, 1, 3328]
-    - [658, 9259.45]
+    - [689, 9259.45]
   - - [4096, 1024, 1, 256]
-    - [658, 8341.79]
+    - [689, 8341.79]
   - - [2048, 200, 1, 64]
-    - [721, 2307.71]
+    - [752, 2307.71]
   - - [2048, 200, 1, 4096]
-    - [761, 6212.04]
+    - [792, 6212.04]
   - - [1024, 1024, 1, 1536]
-    - [752, 8484.15]
+    - [783, 8484.15]
   - - [2048, 1024, 1, 7168]
-    - [660, 9315.24]
+    - [691, 9315.24]
   - - [1024, 256, 1, 3584]
-    - [750, 6207.32]
+    - [781, 6207.32]
   - - [4096, 256, 1, 32]
-    - [754, 2892.72]
+    - [785, 2892.72]
   - - [4096, 256, 1, 1280]
-    - [763, 8392.9]
+    - [794, 8392.9]
   - - [512, 512, 1, 3200]
-    - [761, 6219.41]
+    - [792, 6219.41]
   - - [2048, 1024, 1, 1536]
-    - [660, 9052.55]
+    - [691, 9052.55]
   - - [2048, 256, 1, 1024]
-    - [750, 7192.9]
+    - [781, 7192.9]
   - - [128, 200, 1, 512]
-    - [740, 502.677]
+    - [771, 502.677]
   - - [4096, 512, 1, 7168]
-    - [663, 9329.11]
+    - [694, 9329.11]
   - - [1024, 512, 1, 1152]
-    - [750, 7358.53]
+    - [781, 7358.53]
   - - [64, 1024, 1, 2048]
-    - [668, 2102.51]
+    - [699, 2102.51]
   - - [2048, 512, 1, 3328]
-    - [752, 8694.69]
+    - [783, 8694.69]
   - - [4096, 1024, 1, 896]
-    - [658, 9343.02]
+    - [689, 9343.02]
   - - [1, 1024, 1, 2048]
-    - [708, 40.9324]
+    - [739, 40.9324]
   - - [4096, 200, 1, 3584]
-    - [756, 6810.3]
+    - [787, 6810.3]
   - - [4096, 1024, 1, 4096]
-    - [658, 9347.56]
+    - [689, 9347.56]
   - - [1024, 256, 1, 14336]
-    - [651, 6625.8]
+    - [682, 6625.8]
   - - [2048, 200, 1, 256]
-    - [750, 4413.3]
+    - [781, 4413.3]
   - - [4096, 256, 1, 16384]
-    - [652, 8752.13]
+    - [683, 8752.13]
   - - [4096, 256, 1, 1920]
-    - [743, 8533.78]
+    - [774, 8533.78]
   - - [32, 1024, 1, 512]
-    - [741, 647.369]
+    - [772, 647.369]
   - - [1024, 256, 1, 7680]
-    - [761, 6387.36]
+    - [792, 6387.36]
   - - [2048, 256, 1, 1664]
-    - [761, 7631.44]
+    - [792, 7631.44]
   - - [512, 200, 1, 1536]
-    - [666, 2576.88]
+    - [697, 2576.88]
   - - [2048, 1024, 1, 6144]
-    - [647, 9033.77]
+    - [678, 9033.77]
   - - [512, 256, 1, 2816]
-    - [713, 3977.46]
+    - [744, 3977.46]
   - - [4096, 512, 1, 4160]
-    - [660, 9289.02]
+    - [691, 9289.02]
   - - [4096, 512, 1, 2080]
-    - [739, 9150.28]
+    - [770, 9150.28]
   - - [2048, 256, 1, 15360]
-    - [724, 7963.97]
+    - [755, 7963.97]
   - - [4096, 200, 1, 5120]
-    - [763, 6861.62]
+    - [794, 6861.62]
   - - [1024, 512, 1, 8192]
-    - [749, 7473.25]
+    - [780, 7473.25]
   - - [4096, 200, 1, 896]
-    - [766, 6443.25]
+    - [797, 6443.25]
   - - [2048, 512, 1, 8320]
-    - [756, 8810.24]
+    - [787, 8810.24]
   - - [1024, 1024, 1, 10240]
-    - [764, 8436.7]
+    - [795, 8436.7]
   - - [1024, 200, 1, 768]
-    - [750, 4087.58]
+    - [781, 4087.58]
   - - [2048, 200, 1, 640]
-    - [761, 5416.3]
+    - [792, 5416.3]
   - - [512, 200, 1, 2048]
-    - [715, 2702.62]
+    - [746, 2702.62]
   - - [1024, 1024, 1, 9216]
-    - [753, 8499.08]
+    - [784, 8499.08]
   - - [4096, 200, 1, 1408]
-    - [763, 6613.82]
+    - [794, 6613.82]
   - - [1024, 256, 1, 13312]
-    - [651, 6643.54]
+    - [682, 6643.54]
   - - [1024, 256, 1, 128]
-    - [682, 2706.1]
+    - [713, 2706.1]
   - - [2048, 200, 1, 5632]
-    - [761, 6270.12]
+    - [792, 6270.12]
   - - [64, 1024, 1, 512]
-    - [740, 1310.82]
+    - [771, 1310.82]
   - - [1024, 512, 1, 2560]
-    - [761, 7731.54]
+    - [792, 7731.54]
   - - [4096, 200, 1, 1280]
-    - [743, 6566.83]
+    - [774, 6566.83]
   - - [1024, 200, 1, 4096]
-    - [761, 4911.46]
+    - [792, 4911.46]
   - - [1024, 1024, 1, 2560]
-    - [752, 8630.35]
+    - [783, 8630.35]
   - - [2048, 512, 1, 64]
-    - [756, 4152.88]
+    - [787, 4152.88]
   - - [2048, 200, 1, 8192]
-    - [750, 6234.21]
+    - [781, 6234.21]
   - - [2048, 512, 1, 3072]
-    - [760, 8614.85]
+    - [791, 8614.85]
   - - [4096, 1024, 1, 5120]
-    - [658, 9573.75]
+    - [689, 9573.75]
   - - [4096, 256, 1, 640]
-    - [745, 7913.88]
+    - [776, 7913.88]
   - - [1024, 256, 1, 1280]
-    - [750, 5706.64]
+    - [781, 5706.64]
   - - [2048, 1024, 1, 1920]
-    - [660, 9141.34]
+    - [691, 9141.34]
   - - [2048, 256, 1, 4096]
-    - [750, 7937.28]
+    - [781, 7937.28]
   - - [2048, 1024, 1, 15360]
-    - [663, 9351.96]
+    - [694, 9351.96]
   - - [4096, 200, 1, 16384]
-    - [652, 6975.21]
+    - [683, 6975.21]
   - - [1, 1024, 1, 4096]
-    - [770, 60.7815]
+    - [801, 60.7815]
   - - [4096, 1024, 1, 2816]
-    - [658, 9583.98]
+    - [689, 9583.98]
   - - [4096, 200, 1, 1664]
-    - [745, 6658.7]
+    - [776, 6658.7]
   - - [4096, 512, 1, 256]
-    - [676, 7731.54]
+    - [707, 7731.54]
   - - [1024, 200, 1, 896]
-    - [750, 4193.45]
+    - [781, 4193.45]
   - - [2048, 200, 1, 6656]
-    - [761, 6291.17]
+    - [792, 6291.17]
   - - [2048, 1024, 1, 5120]
-    - [660, 9270.57]
+    - [691, 9270.57]
   - - [512, 1024, 1, 768]
-    - [750, 7099.06]
+    - [781, 7099.06]
   - - [2048, 512, 1, 14336]
-    - [730, 8559.13]
+    - [761, 8559.13]
   - - [2048, 200, 1, 8320]
-    - [750, 6314.72]
+    - [781, 6314.72]
   - - [4096, 256, 1, 3840]
-    - [766, 8718.56]
+    - [797, 8718.56]
   - - [2048, 1024, 1, 4096]
-    - [647, 8973.38]
+    - [678, 8973.38]
   - - [1024, 1024, 1, 3200]
-    - [756, 8701.98]
+    - [787, 8701.98]
   - - [1024, 256, 1, 4608]
-    - [750, 6268.05]
+    - [781, 6268.05]
   - - [4096, 512, 1, 4608]
-    - [658, 9316.47]
+    - [689, 9316.47]
   - - [2048, 512, 1, 2048]
-    - [749, 8462.76]
+    - [780, 8462.76]
   - - [4096, 512, 1, 1664]
-    - [658, 9074.53]
+    - [689, 9074.53]
   - - [4096, 256, 1, 4608]
-    - [745, 8718.05]
+    - [776, 8718.05]
   - - [1024, 512, 1, 32]
-    - [738, 1807.99]
+    - [769, 1807.99]
   - - [1024, 512, 1, 3840]
-    - [750, 7936.34]
+    - [781, 7936.34]
   - - [2048, 512, 1, 1920]
-    - [766, 8548.27]
+    - [797, 8548.27]
   - - [2048, 1024, 1, 896]
-    - [658, 8843.51]
+    - [689, 8843.51]
   - - [4096, 200, 1, 6144]
-    - [766, 6864.76]
+    - [797, 6864.76]
   - - [1024, 512, 1, 13312]
-    - [719, 7763.19]
+    - [750, 7763.19]
   - - [4096, 1024, 1, 4160]
-    - [658, 9650.72]
+    - [689, 9650.72]
   - - [2048, 200, 1, 2816]
-    - [750, 6119.76]
+    - [781, 6119.76]
   - - [1024, 1024, 1, 3840]
-    - [745, 8709.5]
+    - [776, 8709.5]
   - - [128, 1024, 1, 1024]
-    - [768, 2577.25]
+    - [799, 2577.25]
   - - [2048, 1024, 1, 11264]
-    - [663, 9339.06]
+    - [694, 9339.06]
   - - [2048, 1024, 1, 384]
-    - [752, 8210.81]
+    - [783, 8210.81]
   - - [1024, 256, 1, 2048]
-    - [773, 5755.58]
+    - [804, 5755.58]
   - - [2048, 1024, 1, 3840]
-    - [660, 9288.96]
+    - [691, 9288.96]
   - - [4096, 256, 1, 8320]
-    - [766, 8812.38]
+    - [797, 8812.38]
   - - [2048, 256, 1, 3840]
-    - [742, 7857.05]
+    - [773, 7857.05]
   - - [64, 256, 1, 512]
-    - [740, 336.182]
+    - [771, 336.182]
   - - [4096, 512, 1, 1280]
-    - [660, 8993.52]
+    - [691, 8993.52]
   - - [512, 256, 1, 1280]
-    - [692, 2996.03]
+    - [723, 2996.03]
   - - [1024, 512, 1, 7680]
-    - [750, 8041.59]
+    - [781, 8041.59]
   - - [4096, 1024, 1, 1152]
-    - [658, 9368.48]
+    - [689, 9368.48]
   - - [256, 200, 1, 512]
-    - [692, 993.07]
+    - [723, 993.07]
   - - [256, 1024, 1, 2048]
-    - [769, 4759.59]
+    - [800, 4759.59]
   - - [2048, 200, 1, 10240]
-    - [761, 6329.03]
+    - [792, 6329.03]
   - - [2048, 512, 1, 5120]
-    - [762, 8732.56]
+    - [793, 8732.56]
   - - [2048, 1024, 1, 1408]
-    - [660, 9006.9]
+    - [691, 9006.9]
   - - [512, 1024, 1, 512]
-    - [750, 6528.2]
+    - [781, 6528.2]
   - - [1024, 200, 1, 11264]
-    - [717, 5194.82]
+    - [748, 5194.82]
   - - [512, 1024, 1, 1024]
-    - [703, 6337.1]
+    - [734, 6337.1]
   - - [2048, 512, 1, 32]
-    - [669, 2777.78]
+    - [700, 2777.78]
   - - [4096, 256, 1, 2560]
-    - [752, 8621.49]
+    - [783, 8621.49]
   - - [4096, 256, 1, 64]
-    - [686, 4194.4]
+    - [717, 4194.4]
   - - [32, 1024, 1, 1024]
-    - [687, 778.264]
+    - [718, 778.264]
   - - [2048, 200, 1, 768]
-    - [761, 5507.33]
+    - [792, 5507.33]
   - - [512, 512, 1, 2048]
-    - [709, 5338.91]
+    - [740, 5338.91]
   - - [2048, 512, 1, 2560]
-    - [763, 8643.69]
+    - [794, 8643.69]
   - - [512, 256, 1, 512]
-    - [742, 2542.1]
+    - [773, 2542.1]
   - - [1024, 200, 1, 7680]
-    - [717, 5047.8]
+    - [748, 5047.8]
   - - [4096, 512, 1, 896]
-    - [658, 8856.85]
+    - [689, 8856.85]
   - - [4096, 1024, 1, 3072]
-    - [658, 9492.17]
+    - [689, 9492.17]
   - - [4096, 200, 1, 13312]
-    - [650, 6900.73]
+    - [681, 6900.73]
   - - [2048, 512, 1, 7168]
-    - [751, 8788.1]
+    - [782, 8788.1]
   - - [2048, 1024, 1, 2816]
-    - [663, 9229.88]
+    - [694, 9229.88]
   - - [2048, 512, 1, 128]
-    - [681, 5630.04]
+    - [712, 5630.04]
   - - [1024, 256, 1, 8192]
-    - [773, 6203.83]
+    - [804, 6203.83]
   - - [4096, 1024, 1, 1792]
-    - [658, 9510.42]
+    - [689, 9510.42]
   - - [1024, 200, 1, 6656]
-    - [742, 5002.85]
+    - [773, 5002.85]
   - - [1024, 1024, 1, 1024]
-    - [679, 8095.26]
+    - [710, 8095.26]
   - - [4096, 200, 1, 2304]
-    - [763, 6754.45]
+    - [794, 6754.45]
   - - [4096, 512, 1, 1152]
-    - [658, 8974.54]
+    - [689, 8974.54]
   - - [512, 200, 1, 1024]
-    - [740, 2233.01]
+    - [771, 2233.01]
   - - [1024, 256, 1, 3840]
-    - [761, 6244.72]
+    - [792, 6244.72]
   - - [512, 512, 1, 768]
-    - [750, 5331.84]
+    - [781, 5331.84]
   - - [2048, 512, 1, 4096]
-    - [760, 8621.76]
+    - [791, 8621.76]
   - - [2048, 256, 1, 2560]
-    - [750, 7770.93]
+    - [781, 7770.93]
   - - [2048, 256, 1, 4160]
-    - [761, 7923.08]
+    - [792, 7923.08]
   - - [1024, 256, 1, 64]
-    - [657, 1705.1]
+    - [688, 1705.1]
   - - [4096, 512, 1, 7680]
-    - [658, 9364.57]
+    - [689, 9364.57]
   - - [1024, 512, 1, 1664]
-    - [761, 7594.24]
+    - [792, 7594.24]
   - - [2048, 512, 1, 2080]
-    - [752, 8570.67]
+    - [783, 8570.67]
   - - [2048, 512, 1, 3840]
-    - [763, 8729.14]
+    - [794, 8729.14]
   - - [4096, 1024, 1, 384]
-    - [658, 8764.86]
+    - [689, 8764.86]
   - - [4096, 200, 1, 3072]
-    - [752, 6772.39]
+    - [783, 6772.39]
   - - [1024, 512, 1, 14336]
-    - [720, 7680.97]
+    - [751, 7680.97]
   - - [1024, 200, 1, 1920]
-    - [742, 4637.08]
+    - [773, 4637.08]
   - - [1024, 1024, 1, 1664]
-    - [756, 8506.49]
+    - [787, 8506.49]
   - - [512, 1024, 1, 2304]
-    - [750, 7775.33]
+    - [781, 7775.33]
   - - [2048, 1024, 1, 1792]
-    - [658, 9123.46]
+    - [689, 9123.46]
   - - [32, 200, 1, 512]
-    - [758, 125.744]
+    - [789, 125.744]
   - - [4096, 256, 1, 11264]
-    - [763, 8822.31]
+    - [794, 8822.31]
   - - [4096, 256, 1, 1408]
-    - [763, 8419.32]
+    - [794, 8419.32]
   - - [1024, 256, 1, 7168]
-    - [750, 6377.54]
+    - [781, 6377.54]
   - - [2048, 256, 1, 1152]
-    - [761, 7401.81]
+    - [792, 7401.81]
   - - [256, 256, 1, 512]
-    - [740, 1314.93]
+    - [771, 1314.93]
   - - [1024, 512, 1, 1280]
-    - [750, 7410.53]
+    - [781, 7410.53]
   - - [512, 512, 1, 1792]
-    - [742, 5931.44]
+    - [773, 5931.44]
   - - [2048, 200, 1, 12288]
-    - [724, 6242.25]
+    - [755, 6242.25]
   - - [2048, 200, 1, 1664]
-    - [761, 5953.75]
+    - [792, 5953.75]
   - - [4096, 200, 1, 4608]
-    - [756, 6853.54]
+    - [787, 6853.54]
   - - [512, 1024, 1, 2560]
-    - [750, 7778.13]
+    - [781, 7778.13]
   - - [4096, 200, 1, 384]
-    - [743, 5765.73]
+    - [774, 5765.73]
   - - [128, 512, 1, 512]
-    - [740, 1302.68]
+    - [771, 1302.68]
   - - [1024, 200, 1, 256]
-    - [744, 2861.93]
+    - [775, 2861.93]
   - - [256, 1024, 1, 1024]
-    - [685, 4522.26]
+    - [716, 4522.26]
   - - [2048, 200, 1, 128]
-    - [750, 3310.0]
+    - [781, 3310.0]
   - - [2048, 200, 1, 11264]
-    - [731, 6168.2]
+    - [762, 6168.2]
   - - [1024, 512, 1, 1920]
-    - [761, 7649.29]
+    - [792, 7649.29]
   - - [4096, 256, 1, 1536]
-    - [756, 8427.33]
+    - [787, 8427.33]
   - - [4096, 1024, 1, 3584]
-    - [658, 9618.0]
+    - [689, 9618.0]
   - - [2048, 256, 1, 256]
-    - [750, 5464.99]
+    - [781, 5464.99]
   - - [2048, 1024, 1, 768]
-    - [658, 8726.87]
+    - [689, 8726.87]
   - - [4096, 256, 1, 10240]
-    - [752, 8790.89]
+    - [783, 8790.89]
   - - [2048, 256, 1, 10240]
-    - [732, 7665.31]
+    - [763, 7665.31]
   - - [4096, 200, 1, 14336]
-    - [766, 6916.18]
+    - [797, 6916.18]
   - - [1024, 512, 1, 5120]
-    - [704, 7420.36]
+    - [735, 7420.36]
   - - [1024, 512, 1, 8320]
-    - [761, 8061.31]
+    - [792, 8061.31]
   - - [256, 200, 1, 2048]
-    - [716, 1916.36]
+    - [747, 1916.36]
   - - [1024, 200, 1, 640]
-    - [744, 3873.39]
+    - [775, 3873.39]
   - - [1024, 512, 1, 10240]
-    - [749, 7526.9]
+    - [780, 7526.9]
   - - [1024, 200, 1, 4160]
-    - [761, 4928.19]
+    - [792, 4928.19]
   - - [1024, 200, 1, 5632]
-    - [742, 4978.66]
+    - [773, 4978.66]
   - - [1024, 1024, 1, 2048]
-    - [697, 7937.28]
+    - [728, 7937.28]
   - - [1024, 256, 1, 6656]
-    - [761, 6373.68]
+    - [792, 6373.68]
   - - [2048, 1024, 1, 8320]
-    - [658, 9333.15]
+    - [689, 9333.15]
   - - [1024, 256, 1, 10240]
-    - [750, 6407.29]
+    - [781, 6407.29]
   - - [2048, 256, 1, 2080]
-    - [750, 7714.58]
+    - [781, 7714.58]
   - - [4096, 256, 1, 128]
-    - [664, 5765.47]
+    - [695, 5765.47]
   - - [1024, 256, 1, 768]
-    - [755, 5210.42]
+    - [786, 5210.42]
   - - [2048, 256, 1, 896]
-    - [761, 7267.46]
+    - [792, 7267.46]
   - - [64, 512, 1, 2048]
-    - [727, 1296.64]
+    - [758, 1296.64]
   - - [4096, 512, 1, 2048]
-    - [660, 9121.25]
+    - [691, 9121.25]
   - - [512, 256, 1, 2048]
-    - [713, 3283.31]
+    - [744, 3283.31]
   - - [4096, 256, 1, 16640]
-    - [745, 8839.88]
+    - [776, 8839.88]
   - - [4096, 512, 1, 2560]
-    - [663, 9222.15]
+    - [694, 9222.15]
   - - [1024, 512, 1, 15360]
-    - [714, 7865.66]
+    - [745, 7865.66]
   - - [4096, 1024, 1, 2304]
-    - [658, 9558.26]
+    - [689, 9558.26]
   - - [4096, 200, 1, 1152]
-    - [763, 6531.93]
+    - [794, 6531.93]
   - - [2048, 200, 1, 6144]
-    - [761, 6277.75]
+    - [792, 6277.75]
   - - [1024, 1024, 1, 7680]
-    - [756, 8799.34]
+    - [787, 8799.34]
   - - [2048, 200, 1, 1920]
-    - [761, 6031.02]
+    - [792, 6031.02]
   - - [32, 1024, 1, 2048]
-    - [735, 1174.98]
+    - [766, 1174.98]
   - - [1024, 200, 1, 3584]
-    - [742, 4880.44]
+    - [773, 4880.44]
   - - [4096, 256, 1, 2080]
-    - [749, 8557.22]
+    - [780, 8557.22]
   - - [1024, 1024, 1, 16384]
-    - [650, 8618.65]
+    - [681, 8618.65]
   - - [1024, 256, 1, 1408]
-    - [761, 5803.54]
+    - [792, 5803.54]
   - - [1024, 256, 1, 4096]
-    - [771, 6037.78]
+    - [802, 6037.78]
   - - [2048, 200, 1, 14336]
-    - [761, 6364.48]
+    - [792, 6364.48]
   - - [4096, 512, 1, 5120]
-    - [660, 9302.05]
+    - [691, 9302.05]
   - - [1024, 512, 1, 6144]
-    - [696, 7469.09]
+    - [727, 7469.09]
   - - [1024, 512, 1, 2304]
-    - [761, 7759.35]
+    - [792, 7759.35]
   - - [4096, 200, 1, 4160]
-    - [745, 6843.22]
+    - [776, 6843.22]
   - - [4096, 200, 1, 1536]
-    - [756, 6628.27]
+    - [787, 6628.27]
   - - [4096, 1024, 1, 6144]
-    - [658, 9593.08]
+    - [689, 9593.08]
   - - [256, 64, 1, 1225]
-    - [790, 1194.77]
+    - [821, 1194.77]
   - - [2048, 320, 1, 64]
-    - [792, 3449.36]
+    - [823, 3449.36]
   - - [1024, 128, 1, 289]
-    - [796, 2869.78]
+    - [827, 2869.78]
   - - [384, 64, 1, 1225]
-    - [781, 1511.43]
+    - [812, 1511.43]
   - - [2048, 384, 1, 64]
-    - [794, 3836.35]
+    - [825, 3836.35]
   - - [64, 80, 1, 5329]
-    - [793, 888.267]
+    - [824, 888.267]
   - - [1024, 384, 1, 289]
-    - [787, 4291.62]
+    - [818, 4291.62]
   - - [2048, 448, 1, 64]
-    - [786, 3783.62]
+    - [817, 3783.62]
   - - [768, 192, 1, 289]
-    - [791, 2690.43]
+    - [822, 2690.43]
   - - [288, 64, 1, 1225]
-    - [780, 1142.77]
+    - [811, 1142.77]
   - - [384, 96, 1, 1225]
-    - [798, 1844.81]
+    - [829, 1844.81]
   - - [1024, 3392, 1, 4096]
-    - [824, 8503.02]
+    - [855, 8503.02]
   - - [1024, 3301, 1, 4096]
-    - [826, 8414.1]
+    - [857, 8414.1]
   - - [1024, 3443, 1, 4096]
-    - [813, 8536.59]
+    - [844, 8536.59]
   - - [132, 134, 480, 64]
-    - [851, 4149.27]
+    - [882, 4149.27]
   - - [162, 162, 400, 64]
-    - [839, 5539.73]
+    - [870, 5539.73]
   - - [4096, 3548, 1, 1024]
-    - [805, 9773.01]
+    - [836, 9773.01]
   - - [4096, 2977, 1, 1024]
-    - [806, 9574.43]
+    - [837, 9574.43]
   - - [132, 135, 480, 64]
-    - [851, 4167.51]
+    - [882, 4167.51]
   - - [1024, 2985, 1, 4096]
-    - [809, 9133.99]
+    - [840, 9133.99]
   - - [33708, 3681, 1, 1024]
-    - [806, 10033.8]
+    - [837, 10033.8]
   - - [4096, 3443, 1, 1024]
-    - [806, 9513.78]
+    - [837, 9513.78]
   - - [11, 11, 5456, 64]
-    - [848, 627.346]
+    - [879, 627.346]
   - - [1024, 3400, 1, 4096]
-    - [827, 8420.02]
+    - [858, 8420.02]
   - - [4096, 3995, 1, 1024]
-    - [805, 9693.87]
+    - [836, 9693.87]
   - - [4096, 3190, 1, 1024]
-    - [805, 9474.84]
+    - [836, 9474.84]
   - - [4096, 3594, 1, 1024]
-    - [806, 9315.83]
+    - [837, 9315.83]
   - - [159, 162, 400, 64]
-    - [838, 5429.98]
+    - [869, 5429.98]
   - - [1024, 3565, 1, 4096]
-    - [821, 8532.8]
+    - [852, 8532.8]
   - - [4096, 3422, 1, 1024]
-    - [806, 9459.24]
+    - [837, 9459.24]
   - - [1024, 3214, 1, 4096]
-    - [826, 8064.92]
+    - [857, 8064.92]
   - - [33708, 3584, 1, 1024]
-    - [807, 10129.0]
+    - [838, 10129.0]
   - - [33708, 3640, 1, 1024]
-    - [804, 9919.22]
+    - [835, 9919.22]
   - - [4096, 3263, 1, 1024]
-    - [804, 9699.35]
+    - [835, 9699.35]
   - - [4096, 3296, 1, 1024]
-    - [804, 9780.8]
+    - [835, 9780.8]
   - - [1024, 3557, 1, 4096]
-    - [825, 8526.89]
+    - [856, 8526.89]
   - - [4096, 3463, 1, 1024]
-    - [804, 9578.13]
+    - [835, 9578.13]
   - - [4096, 3528, 1, 1024]
-    - [804, 9739.92]
+    - [835, 9739.92]
   - - [14, 14, 4368, 64]
-    - [836, 991.276]
+    - [867, 991.276]
   - - [4096, 3226, 1, 1024]
-    - [804, 9587.19]
+    - [835, 9587.19]
   - - [4096, 3439, 1, 1024]
-    - [807, 9499.72]
+    - [838, 9499.72]
   - - [1024, 3523, 1, 4096]
-    - [827, 8393.58]
+    - [858, 8393.58]
   - - [1024, 3098, 1, 4096]
-    - [833, 7882.87]
+    - [864, 7882.87]
   - - [4096, 3121, 1, 1024]
-    - [804, 9296.23]
+    - [835, 9296.23]
   - - [33708, 3894, 1, 1024]
-    - [805, 9952.27]
+    - [836, 9952.27]
   - - [1024, 3548, 1, 4096]
-    - [811, 8432.45]
+    - [842, 8432.45]
   - - [1024, 3451, 1, 4096]
-    - [824, 8456.44]
+    - [855, 8456.44]
   - - [4096, 3353, 1, 1024]
-    - [806, 9289.08]
+    - [837, 9289.08]
   - - [4096, 3402, 1, 1024]
-    - [806, 9406.44]
+    - [837, 9406.44]
   - - [4096, 3939, 1, 1024]
-    - [804, 9549.59]
+    - [835, 9549.59]
   - - [133, 133, 480, 64]
-    - [851, 4124.31]
+    - [882, 4124.31]
   - - [1024, 3559, 1, 4096]
-    - [826, 8587.04]
+    - [857, 8587.04]
   - - [1024, 2977, 1, 4096]
-    - [809, 9084.59]
+    - [840, 9084.59]
   - - [1024, 3478, 1, 4096]
-    - [820, 8342.85]
+    - [851, 8342.85]
   - - [134, 134, 480, 64]
-    - [853, 4204.43]
+    - [884, 4204.43]
   - - [1024, 3368, 1, 4096]
-    - [826, 8277.43]
+    - [857, 8277.43]
   - - [4096, 4012, 1, 1024]
-    - [806, 9726.57]
+    - [837, 9726.57]
   - - [4096, 3486, 1, 1024]
-    - [804, 9639.71]
+    - [835, 9639.71]
   - - [1024, 3479, 1, 4096]
-    - [814, 8420.37]
+    - [845, 8420.37]
   - - [1024, 3505, 1, 4096]
-    - [826, 8310.66]
+    - [857, 8310.66]
   - - [4096, 3381, 1, 1024]
-    - [807, 9357.75]
+    - [838, 9357.75]
   - - [4096, 3430, 1, 1024]
-    - [804, 9482.36]
+    - [835, 9482.36]
   - - [1024, 3554, 1, 4096]
-    - [826, 8592.38]
+    - [857, 8592.38]
   - - [4096, 3271, 1, 1024]
-    - [804, 9715.41]
+    - [835, 9715.41]
   - - [1024, 3063, 1, 4096]
-    - [808, 9388.56]
+    - [839, 9388.56]
   - - [1024, 3209, 1, 4096]
-    - [826, 8212.74]
+    - [857, 8212.74]
   - - [4096, 3503, 1, 1024]
-    - [806, 9680.59]
+    - [837, 9680.59]
   - - [4096, 3344, 1, 1024]
-    - [804, 9268.55]
+    - [835, 9268.55]
   - - [1024, 3147, 1, 4096]
-    - [827, 8037.2]
+    - [858, 8037.2]
   - - [1024, 3322, 1, 4096]
-    - [825, 8356.32]
+    - [856, 8356.32]
   - - [1024, 3341, 1, 4096]
-    - [826, 8316.33]
+    - [857, 8316.33]
   - - [1024, 3516, 1, 4096]
-    - [808, 8397.12]
+    - [839, 8397.12]
   - - [102, 101, 624, 64]
-    - [839, 4709.59]
+    - [870, 4709.59]
   - - [1024, 3454, 1, 4096]
-    - [825, 8425.6]
+    - [856, 8425.6]
   - - [4096, 3969, 1, 1024]
-    - [806, 9640.15]
+    - [837, 9640.15]
   - - [4096, 3466, 1, 1024]
-    - [806, 9576.83]
+    - [837, 9576.83]
   - - [1024, 3999, 1, 1024]
-    - [809, 9207.15]
+    - [840, 9207.15]
   - - [1024, 4032, 1, 1024]
-    - [810, 9294.56]
+    - [841, 9294.56]
   - - [1024, 3403, 1, 4096]
-    - [824, 8357.97]
+    - [855, 8357.97]
   - - [4096, 3361, 1, 1024]
-    - [806, 9308.78]
+    - [837, 9308.78]
   - - [1024, 3527, 1, 4096]
-    - [825, 8512.19]
+    - [856, 8512.19]
   - - [1024, 3822, 1, 4096]
-    - [809, 8991.13]
+    - [840, 8991.13]
   - - [4096, 3315, 1, 1024]
-    - [804, 9834.96]
+    - [835, 9834.96]
   - - [232, 232, 272, 64]
-    - [838, 6481.62]
+    - [869, 6481.62]
   - - [1024, 3336, 1, 4096]
-    - [827, 8295.61]
+    - [858, 8295.61]
   - - [228, 232, 272, 64]
-    - [839, 6327.85]
+    - [870, 6327.85]
   - - [4096, 3547, 1, 1024]
-    - [804, 9781.56]
+    - [835, 9781.56]
   - - [4096, 3340, 1, 1024]
-    - [806, 9269.72]
+    - [837, 9269.72]
   - - [1024, 3906, 1, 1024]
-    - [810, 9018.38]
+    - [841, 9018.38]
   - - [1024, 3295, 1, 4096]
-    - [824, 8194.83]
+    - [855, 8194.83]
   - - [4096, 3294, 1, 1024]
-    - [807, 9762.16]
+    - [838, 9762.16]
   - - [33708, 3968, 1, 1024]
-    - [807, 10147.8]
+    - [838, 10147.8]
   - - [1024, 3473, 1, 4096]
-    - [813, 8318.68]
+    - [844, 8318.68]
   - - [1024, 3072, 1, 4096]
-    - [810, 9370.13]
+    - [841, 9370.13]
   - - [4096, 3189, 1, 1024]
-    - [804, 9470.26]
+    - [835, 9470.26]
   - - [4096, 3494, 1, 1024]
-    - [804, 9661.32]
+    - [835, 9661.32]
   - - [1024, 3522, 1, 4096]
-    - [827, 8459.23]
+    - [858, 8459.23]
   - - [33708, 3944, 1, 1024]
-    - [807, 10060.2]
+    - [838, 10060.2]
   - - [135, 135, 480, 64]
-    - [852, 4257.03]
+    - [883, 4257.03]
   - - [4096, 3421, 1, 1024]
-    - [804, 9456.98]
+    - [835, 9456.98]
   - - [32, 32, 1984, 64]
-    - [849, 3436.24]
+    - [880, 3436.24]
   - - [4096, 3311, 1, 1024]
-    - [804, 9810.88]
+    - [835, 9810.88]
   - - [1024, 3990, 1, 1024]
-    - [811, 9197.74]
+    - [842, 9197.74]
   - - [1024, 3290, 1, 4096]
-    - [824, 8229.63]
+    - [855, 8229.63]
   - - [4096, 3565, 1, 1024]
-    - [805, 9824.48]
+    - [836, 9824.48]
   - - [1024, 3484, 1, 4096]
-    - [814, 8575.38]
+    - [845, 8575.38]
   - - [4096, 3384, 1, 1024]
-    - [804, 9366.54]
+    - [835, 9366.54]
   - - [1024, 3422, 1, 4096]
-    - [824, 8484.12]
+    - [855, 8484.12]
   - - [4096, 3681, 1, 1024]
-    - [805, 9520.16]
+    - [836, 9520.16]
   - - [1024, 3584, 1, 1024]
-    - [831, 8583.37]
+    - [862, 8583.37]
   - - [4096, 4050, 1, 1024]
-    - [806, 9807.35]
+    - [837, 9807.35]
   - - [1024, 3996, 1, 4096]
-    - [807, 9181.7]
+    - [838, 9181.7]
   - - [4096, 3169, 1, 1024]
-    - [805, 9411.4]
+    - [836, 9411.4]
   - - [4096, 3538, 1, 1024]
-    - [805, 9765.99]
+    - [836, 9765.99]
   - - [1024, 3495, 1, 4096]
-    - [811, 8295.95]
+    - [842, 8295.95]
   - - [4096, 3401, 1, 1024]
-    - [804, 9402.68]
+    - [835, 9402.68]
   - - [1024, 3560, 1, 4096]
-    - [825, 8513.45]
+    - [856, 8513.45]
   - - [133, 135, 480, 64]
-    - [852, 4199.08]
+    - [883, 4199.08]
   - - [1024, 3263, 1, 4096]
-    - [826, 8172.23]
+    - [857, 8172.23]
   - - [1024, 3870, 1, 4096]
-    - [806, 8996.27]
+    - [837, 8996.27]
   - - [4096, 3555, 1, 1024]
-    - [807, 9811.88]
+    - [838, 9811.88]
   - - [4096, 3412, 1, 1024]
-    - [804, 9432.09]
+    - [835, 9432.09]
   - - [101, 101, 624, 64]
-    - [838, 4667.69]
+    - [869, 4667.69]
   - - [1024, 3296, 1, 4096]
-    - [825, 8350.61]
+    - [856, 8350.61]
   - - [1024, 3379, 1, 4096]
-    - [827, 8432.94]
+    - [858, 8432.94]
   - - [4096, 3302, 1, 1024]
-    - [804, 9796.39]
+    - [835, 9796.39]
   - - [1024, 3490, 1, 4096]
-    - [824, 8538.44]
+    - [855, 8538.44]
   - - [1024, 3428, 1, 4096]
-    - [825, 8531.67]
+    - [856, 8531.67]
   - - [1024, 3976, 1, 4096]
-    - [806, 9327.87]
+    - [837, 9327.87]
   - - [4096, 3485, 1, 1024]
-    - [804, 9628.82]
+    - [835, 9628.82]
   - - [4096, 3534, 1, 1024]
-    - [804, 9755.97]
+    - [835, 9755.97]
   - - [1024, 3064, 1, 4096]
-    - [810, 9196.98]
+    - [841, 9196.98]
   - - [4096, 3216, 1, 1024]
-    - [806, 9563.44]
+    - [837, 9563.44]
   - - [1024, 3450, 1, 4096]
-    - [834, 8519.29]
+    - [865, 8519.29]
   - - [1024, 3533, 1, 4096]
-    - [825, 8495.77]
+    - [856, 8495.77]
   - - [1024, 4030, 1, 1024]
-    - [810, 9304.68]
+    - [841, 9304.68]
   - - [1024, 3311, 1, 4096]
-    - [825, 8278.6]
+    - [856, 8278.6]
   - - [1024, 3468, 1, 4096]
-    - [816, 8564.55]
+    - [847, 8564.55]
   - - [23, 23, 2720, 64]
-    - [840, 2311.55]
+    - [871, 2311.55]
   - - [4096, 3359, 1, 1024]
-    - [806, 9309.15]
+    - [837, 9309.15]
   - - [4096, 3392, 1, 1024]
-    - [806, 9388.19]
+    - [837, 9388.19]
   - - [1024, 3925, 1, 1024]
-    - [808, 9006.72]
+    - [839, 9006.72]
   - - [4096, 3233, 1, 1024]
-    - [804, 9603.64]
+    - [835, 9603.64]
   - - [4096, 3956, 1, 1024]
-    - [805, 9581.94]
+    - [836, 9581.94]
   - - [1024, 3463, 1, 4096]
-    - [826, 8293.97]
+    - [857, 8293.97]
   - - [1024, 3126, 1, 4096]
-    - [825, 7978.13]
+    - [856, 7978.13]
   - - [1024, 3363, 1, 4096]
-    - [818, 8267.47]
+    - [849, 8267.47]
   - - [4096, 3465, 1, 1024]
-    - [804, 9590.74]
+    - [835, 9590.74]
   - - [33708, 3996, 1, 1024]
-    - [805, 9899.99]
+    - [836, 9899.99]
   - - [1024, 3231, 1, 4096]
-    - [826, 8231.68]
+    - [857, 8231.68]
   - - [33708, 3978, 1, 1024]
-    - [805, 9853.64]
+    - [836, 9853.64]
   - - [4096, 3476, 1, 1024]
-    - [804, 9616.62]
+    - [835, 9616.62]
   - - [85, 85, 752, 64]
-    - [836, 4240.65]
+    - [867, 4240.65]
   - - [4096, 3339, 1, 1024]
-    - [806, 9249.81]
+    - [837, 9249.81]
   - - [4096, 3452, 1, 1024]
-    - [804, 9534.13]
+    - [835, 9534.13]
   - - [1024, 3396, 1, 4096]
-    - [825, 8451.23]
+    - [856, 8451.23]
   - - [4096, 3293, 1, 1024]
-    - [806, 9775.22]
+    - [837, 9775.22]
   - - [54, 54, 1184, 64]
-    - [838, 4153.54]
+    - [869, 4153.54]
   - - [1024, 3432, 1, 4096]
-    - [819, 8345.53]
+    - [850, 8345.53]
   - - [4096, 3493, 1, 1024]
-    - [807, 9649.9]
+    - [838, 9649.9]
   - - [4096, 3350, 1, 1024]
-    - [806, 9273.91]
+    - [837, 9273.91]
   - - [1024, 3079, 1, 4096]
-    - [834, 7775.66]
+    - [865, 7775.66]
   - - [1024, 3101, 1, 4096]
-    - [834, 7847.85]
+    - [865, 7847.85]
   - - [33708, 3939, 1, 1024]
-    - [807, 10054.4]
+    - [838, 10054.4]
   - - [4096, 3256, 1, 1024]
-    - [806, 9681.83]
+    - [837, 9681.83]
   - - [1024, 3439, 1, 4096]
-    - [825, 8531.11]
+    - [856, 8531.11]
   - - [1024, 3510, 1, 4096]
-    - [824, 8422.31]
+    - [855, 8422.31]
   - - [4096, 3900, 1, 1024]
-    - [805, 9468.61]
+    - [836, 9468.61]
   - - [1024, 3470, 1, 4096]
-    - [826, 8507.77]
+    - [857, 8507.77]
   - - [4096, 3456, 1, 1024]
-    - [806, 9577.46]
+    - [837, 9577.46]
   - - [4096, 3014, 1, 1024]
-    - [805, 9666.15]
+    - [836, 9666.15]
   - - [4096, 3367, 1, 1024]
-    - [807, 9328.36]
+    - [838, 9328.36]
   - - [4096, 3432, 1, 1024]
-    - [804, 9480.88]
+    - [835, 9480.88]
   - - [33708, 4026, 1, 1024]
-    - [807, 9972.83]
+    - [838, 9972.83]
   - - [4096, 3273, 1, 1024]
-    - [804, 9716.95]
+    - [835, 9716.95]
   - - [4096, 3130, 1, 1024]
-    - [804, 9311.4]
+    - [835, 9311.4]
   - - [1024, 3496, 1, 4096]
-    - [815, 8434.65]
+    - [846, 8434.65]
   - - [1024, 3995, 1, 4096]
-    - [800, 9157.73]
+    - [831, 9157.73]
   - - [1024, 3939, 1, 4096]
-    - [808, 9059.86]
+    - [839, 9059.86]
   - - [1024, 3121, 1, 4096]
-    - [832, 7963.43]
+    - [863, 7963.43]
   - - [1024, 3232, 1, 4096]
-    - [826, 8061.09]
+    - [857, 8061.09]
   - - [4096, 3147, 1, 1024]
-    - [806, 9364.63]
+    - [837, 9364.63]
   - - [4096, 3516, 1, 1024]
-    - [804, 9708.84]
+    - [835, 9708.84]
   - - [1024, 3969, 1, 1024]
-    - [810, 9168.68]
+    - [841, 9168.68]
   - - [1024, 3364, 1, 4096]
-    - [814, 8363.65]
+    - [845, 8363.65]
   - - [4096, 3411, 1, 1024]
-    - [807, 9442.77]
+    - [838, 9442.77]
   - - [147, 147, 432, 64]
-    - [851, 4843.21]
+    - [882, 4843.21]
   - - [4096, 3301, 1, 1024]
-    - [806, 9783.46]
+    - [837, 9783.46]
   - - [112, 111, 576, 64]
-    - [838, 5627.47]
+    - [869, 5627.47]
   - - [1024, 3513, 1, 4096]
-    - [825, 8725.41]
+    - [856, 8725.41]
   - - [1024, 3469, 1, 4096]
-    - [805, 8183.11]
+    - [836, 8183.11]
   - - [1024, 3095, 1, 4096]
-    - [826, 7887.87]
+    - [857, 7887.87]
   - - [4096, 3533, 1, 1024]
-    - [805, 9755.27]
+    - [836, 9755.27]
   - - [4096, 3390, 1, 1024]
-    - [804, 9377.21]
+    - [835, 9377.21]
   - - [4096, 3582, 1, 1024]
-    - [804, 9874.96]
+    - [835, 9874.96]
   - - [1024, 3956, 1, 1024]
-    - [810, 9058.82]
+    - [841, 9058.82]
   - - [4096, 3585, 1, 1024]
-    - [806, 9289.75]
+    - [837, 9289.75]
   - - [4096, 3231, 1, 1024]
-    - [805, 9597.15]
+    - [836, 9597.15]
   - - [1024, 3205, 1, 4096]
-    - [824, 8073.25]
+    - [855, 8073.25]
   - - [4096, 3496, 1, 1024]
-    - [805, 9668.38]
+    - [836, 9668.38]
   - - [1024, 3143, 1, 4096]
-    - [824, 8031.68]
+    - [855, 8031.68]
   - - [1024, 3318, 1, 4096]
-    - [821, 8261.43]
+    - [852, 8261.43]
   - - [1024, 3353, 1, 4096]
-    - [825, 8414.92]
+    - [856, 8414.92]
   - - [1024, 3464, 1, 4096]
-    - [824, 8310.03]
+    - [855, 8310.03]
   - - [4096, 2736, 1, 1024]
-    - [806, 9563.12]
+    - [837, 9563.12]
   - - [1024, 3402, 1, 4096]
-    - [821, 8413.84]
+    - [852, 8413.84]
   - - [4096, 3138, 1, 1024]
-    - [806, 9342.09]
+    - [837, 9342.09]
   - - [1024, 3860, 1, 4096]
-    - [809, 9008.57]
+    - [840, 9008.57]
   - - [148, 148, 432, 64]
-    - [851, 4915.7]
+    - [882, 4915.7]
   - - [1024, 3539, 1, 4096]
-    - [821, 8449.36]
+    - [852, 8449.36]
   - - [4096, 3211, 1, 1024]
-    - [806, 9551.28]
+    - [837, 9551.28]
   - - [1024, 3332, 1, 4096]
-    - [814, 8295.11]
+    - [845, 8295.11]
   - - [1024, 3466, 1, 4096]
-    - [825, 8339.25]
+    - [856, 8339.25]
   - - [4096, 3475, 1, 1024]
-    - [804, 9612.33]
+    - [835, 9612.33]
   - - [4096, 3524, 1, 1024]
-    - [807, 9722.74]
+    - [838, 9722.74]
   - - [4096, 2985, 1, 1024]
-    - [807, 9591.33]
+    - [838, 9591.33]
   - - [4096, 3222, 1, 1024]
-    - [804, 9577.48]
+    - [835, 9577.48]
   - - [4096, 3451, 1, 1024]
-    - [806, 9541.42]
+    - [837, 9541.42]
   - - [1024, 3181, 1, 4096]
-    - [824, 8118.89]
+    - [855, 8118.89]
   - - [1024, 3640, 1, 4096]
-    - [809, 8617.11]
+    - [840, 8617.11]
   - - [1024, 3375, 1, 4096]
-    - [813, 8419.75]
+    - [844, 8419.75]
   - - [1024, 3550, 1, 4096]
-    - [826, 8512.83]
+    - [857, 8512.83]
   - - [1024, 4020, 1, 1024]
-    - [810, 9266.9]
+    - [841, 9266.9]
   - - [1024, 3840, 1, 4096]
-    - [809, 8983.49]
+    - [840, 8983.49]
   - - [4096, 3349, 1, 1024]
-    - [804, 9279.96]
+    - [835, 9279.96]
   - - [4096, 3398, 1, 1024]
-    - [805, 9402.32]
+    - [836, 9402.32]
   - - [33708, 3976, 1, 1024]
-    - [806, 9849.54]
+    - [837, 9849.54]
   - - [1024, 2917, 1, 4096]
-    - [811, 8936.87]
+    - [842, 8936.87]
   - - [33708, 3910, 1, 1024]
-    - [804, 9983.35]
+    - [835, 9983.35]
   - - [4096, 3860, 1, 1024]
-    - [805, 9377.58]
+    - [836, 9377.58]
   - - [4096, 3304, 1, 1024]
-    - [807, 9798.44]
+    - [838, 9798.44]
   - - [1024, 3286, 1, 4096]
-    - [812, 8167.41]
+    - [843, 8167.41]
   - - [1024, 3460, 1, 4096]
-    - [822, 8539.56]
+    - [853, 8539.56]
   - - [1024, 4026, 1, 4096]
-    - [808, 9305.68]
+    - [839, 9305.68]
   - - [4096, 3471, 1, 1024]
-    - [806, 9596.71]
+    - [837, 9596.71]
   - - [193, 193, 320, 64]
-    - [854, 4758.46]
+    - [885, 4758.46]
   - - [1024, 3894, 1, 1024]
-    - [808, 8979.6]
+    - [839, 8979.6]
   - - [65, 65, 992, 64]
-    - [850, 2565.49]
+    - [881, 2565.49]
   - - [1024, 3506, 1, 4096]
-    - [822, 8593.22]
+    - [853, 8593.22]
   - - [35, 35, 1808, 64]
-    - [844, 2129.72]
+    - [875, 2129.72]
   - - [1024, 4000, 1, 1024]
-    - [808, 9204.6]
+    - [839, 9204.6]
   - - [1024, 3900, 1, 4096]
-    - [804, 9050.36]
+    - [835, 9050.36]
   - - [1024, 3445, 1, 4096]
-    - [827, 8551.65]
+    - [858, 8551.65]
   - - [4096, 3442, 1, 1024]
-    - [805, 9505.0]
+    - [836, 9505.0]
   - - [1024, 3358, 1, 4096]
-    - [826, 8437.16]
+    - [857, 8437.16]
   - - [13, 13, 4672, 64]
-    - [837, 860.665]
+    - [868, 860.665]
   - - [1024, 3211, 1, 4096]
-    - [830, 8085.25]
+    - [861, 8085.25]
   - - [4096, 3515, 1, 1024]
-    - [806, 9715.29]
+    - [837, 9715.29]
   - - [1024, 3564, 1, 4096]
-    - [812, 8760.37]
+    - [843, 8760.37]
   - - [4096, 3057, 1, 1024]
-    - [806, 9804.05]
+    - [837, 9804.05]
   - - [1024, 3343, 1, 4096]
-    - [824, 8363.8]
+    - [855, 8363.8]
   - - [4096, 3262, 1, 1024]
-    - [805, 9686.49]
+    - [836, 9686.49]
   - - [1024, 3518, 1, 4096]
-    - [824, 8455.05]
+    - [855, 8455.05]
   - - [77, 77, 816, 64]
-    - [843, 3505.94]
+    - [874, 3505.94]
   - - [33708, 3876, 1, 1024]
-    - [805, 9895.95]
+    - [836, 9895.95]
   - - [4096, 3462, 1, 1024]
-    - [806, 9570.31]
+    - [837, 9570.31]
   - - [1024, 3265, 1, 4096]
-    - [824, 8322.75]
+    - [855, 8322.75]
   - - [4096, 3389, 1, 1024]
-    - [805, 9382.86]
+    - [836, 9382.86]
   - - [4096, 3438, 1, 1024]
-    - [806, 9503.47]
+    - [837, 9503.47]
   - - [1024, 3955, 1, 1024]
-    - [808, 9064.45]
+    - [839, 9064.45]
   - - [1024, 3545, 1, 4096]
-    - [827, 8652.41]
+    - [858, 8652.41]
   - - [1024, 3144, 1, 4096]
-    - [827, 8060.55]
+    - [858, 8060.55]
   - - [1024, 3417, 1, 4096]
-    - [825, 8505.91]
+    - [856, 8505.91]
   - - [4096, 3543, 1, 1024]
-    - [804, 9775.67]
+    - [835, 9775.67]
   - - [4096, 3352, 1, 1024]
-    - [806, 9282.87]
+    - [837, 9282.87]
   - - [33708, 3975, 1, 1024]
-    - [807, 9849.49]
+    - [838, 9849.49]
   - - [148, 147, 432, 64]
-    - [851, 4876.15]
+    - [882, 4876.15]
   - - [4096, 3137, 1, 1024]
-    - [804, 9330.63]
+    - [835, 9330.63]
   - - [4096, 3506, 1, 1024]
-    - [807, 9682.76]
+    - [838, 9682.76]
   - - [1024, 3975, 1, 1024]
-    - [810, 9164.77]
+    - [841, 9164.77]
   - - [1024, 3859, 1, 4096]
-    - [808, 8983.84]
+    - [839, 8983.84]
   - - [4096, 3369, 1, 1024]
-    - [806, 9330.45]
+    - [837, 9330.45]
   - - [1024, 3434, 1, 4096]
-    - [824, 8486.98]
+    - [855, 8486.98]
   - - [1024, 3292, 1, 4096]
-    - [824, 8478.96]
+    - [855, 8478.96]
   - - [4096, 3523, 1, 1024]
-    - [804, 9734.83]
+    - [835, 9734.83]
   - - [4096, 3380, 1, 1024]
-    - [806, 9354.49]
+    - [837, 9354.49]
   - - [1024, 3408, 1, 4096]
-    - [827, 8441.03]
+    - [858, 8441.03]
   - - [4096, 3221, 1, 1024]
-    - [806, 9575.59]
+    - [837, 9575.59]
   - - [4096, 3270, 1, 1024]
-    - [806, 9717.95]
+    - [837, 9717.95]
   - - [143, 143, 432, 64]
-    - [852, 4643.45]
+    - [883, 4643.45]
   - - [111, 111, 576, 64]
-    - [844, 5475.04]
+    - [875, 5475.04]
   - - [1024, 3303, 1, 4096]
-    - [826, 8413.07]
+    - [857, 8413.07]
   - - [4096, 3502, 1, 1024]
-    - [806, 9679.87]
+    - [837, 9679.87]
   - - [1024, 3222, 1, 4096]
-    - [826, 8141.88]
+    - [857, 8141.88]
   - - [4096, 2505, 1, 1024]
-    - [804, 9594.95]
+    - [835, 9594.95]
   - - [4096, 3397, 1, 1024]
-    - [804, 9392.61]
+    - [835, 9392.61]
   - - [4096, 3562, 1, 1024]
-    - [804, 9827.58]
+    - [835, 9827.58]
   - - [4096, 3095, 1, 1024]
-    - [806, 9222.45]
+    - [837, 9222.45]
   - - [1024, 3226, 1, 4096]
-    - [822, 8027.03]
+    - [853, 8027.03]
   - - [177, 177, 352, 64]
-    - [839, 6406.96]
+    - [870, 6406.96]
   - - [4096, 3360, 1, 1024]
-    - [805, 9298.15]
+    - [836, 9298.15]
   - - [1024, 3942, 1, 1024]
-    - [810, 9061.59]
+    - [841, 9061.59]
   - - [1024, 3298, 1, 4096]
-    - [827, 8254.36]
+    - [858, 8254.36]
   - - [1024, 3381, 1, 4096]
-    - [826, 8508.81]
+    - [857, 8508.81]
   - - [4096, 3314, 1, 1024]
-    - [806, 9837.56]
+    - [837, 9837.56]
   - - [1024, 3492, 1, 4096]
-    - [814, 8583.39]
+    - [845, 8583.39]
   - - [1024, 3430, 1, 4096]
-    - [814, 8492.71]
+    - [845, 8492.71]
   - - [4096, 3977, 1, 1024]
-    - [806, 9656.45]
+    - [837, 9656.45]
   - - [4096, 3546, 1, 1024]
-    - [804, 9780.35]
+    - [835, 9780.35]
   - - [4096, 3640, 1, 1024]
-    - [804, 9415.51]
+    - [835, 9415.51]
   - - [4096, 3441, 1, 1024]
-    - [805, 9499.24]
+    - [836, 9499.24]
   - - [33708, 4059, 1, 1024]
-    - [807, 10051.9]
+    - [838, 10051.9]
   - - [1024, 3978, 1, 1024]
-    - [808, 9158.8]
+    - [839, 9158.8]
   - - [1024, 3376, 1, 4096]
-    - [826, 8415.44]
+    - [857, 8415.44]
   - - [1024, 3482, 1, 4096]
-    - [827, 8396.62]
+    - [858, 8396.62]
   - - [1024, 3563, 1, 4096]
-    - [810, 8424.18]
+    - [841, 8424.18]
   - - [4096, 4020, 1, 1024]
-    - [807, 9745.96]
+    - [838, 9745.96]
   - - [1024, 3271, 1, 4096]
-    - [825, 8289.68]
+    - [856, 8289.68]
   - - [1024, 3291, 1, 4096]
-    - [825, 8222.71]
+    - [856, 8222.71]
   - - [1024, 3431, 1, 4096]
-    - [820, 8464.4]
+    - [851, 8464.4]
   - - [1024, 3481, 1, 4096]
-    - [826, 8386.5]
+    - [857, 8386.5]
   - - [84, 85, 752, 64]
-    - [841, 4194.85]
+    - [872, 4194.85]
   - - [4096, 3461, 1, 1024]
-    - [804, 9579.67]
+    - [835, 9579.67]
   - - [1024, 3574, 1, 4096]
-    - [827, 8579.8]
+    - [858, 8579.8]
   - - [1024, 4059, 1, 1024]
-    - [808, 9330.54]
+    - [839, 9330.54]
   - - [84, 84, 752, 64]
-    - [848, 4141.46]
+    - [879, 4141.46]
   - - [1024, 3421, 1, 4096]
-    - [827, 8528.42]
+    - [858, 8528.42]
   - - [4096, 3224, 1, 1024]
-    - [806, 9589.95]
+    - [837, 9589.95]
   - - [4096, 3437, 1, 1024]
-    - [806, 9498.2]
+    - [837, 9498.2]
   - - [45, 45, 1424, 64]
-    - [838, 3314.58]
+    - [869, 3314.58]
   - - [4096, 3840, 1, 1024]
-    - [804, 9931.37]
+    - [835, 9931.37]
   - - [4096, 3168, 1, 1024]
-    - [806, 9412.16]
+    - [837, 9412.16]
   - - [33708, 3990, 1, 1024]
-    - [804, 9884.39]
+    - [835, 9884.39]
   - - [1024, 3349, 1, 4096]
-    - [826, 8421.4]
+    - [857, 8421.4]
   - - [4096, 3335, 1, 1024]
-    - [804, 9241.65]
+    - [835, 9241.65]
   - - [4096, 3400, 1, 1024]
-    - [806, 9407.35]
+    - [837, 9407.35]
   - - [160, 159, 400, 64]
-    - [853, 5708.94]
+    - [884, 5708.94]
   - - [1024, 3398, 1, 4096]
-    - [826, 8624.03]
+    - [857, 8624.03]
   - - [1024, 3780, 1, 4096]
-    - [806, 8756.78]
+    - [837, 8756.78]
   - - [29, 29, 2176, 64]
-    - [849, 2963.69]
+    - [880, 2963.69]
   - - [4096, 3098, 1, 1024]
-    - [804, 9229.82]
+    - [835, 9229.82]
   - - [1024, 4012, 1, 4096]
-    - [810, 9422.03]
+    - [841, 9422.03]
   - - [4096, 3505, 1, 1024]
-    - [806, 9687.65]
+    - [837, 9687.65]
   - - [4096, 3554, 1, 1024]
-    - [806, 9812.22]
+    - [837, 9812.22]
   - - [4096, 3063, 1, 1024]
-    - [806, 9825.1]
+    - [837, 9825.1]
   - - [1024, 3503, 1, 4096]
-    - [824, 8404.74]
+    - [855, 8404.74]
   - - [1024, 3166, 1, 4096]
-    - [827, 8084.93]
+    - [858, 8084.93]
   - - [1024, 3425, 1, 4096]
-    - [827, 8537.58]
+    - [858, 8537.58]
   - - [1024, 3344, 1, 4096]
-    - [818, 8351.16]
+    - [849, 8351.16]
   - - [4096, 3484, 1, 1024]
-    - [806, 9635.7]
+    - [837, 9635.7]
   - - [1024, 3681, 1, 1024]
-    - [809, 8457.18]
+    - [840, 8457.18]
   - - [1024, 4050, 1, 1024]
-    - [810, 9326.21]
+    - [841, 9326.21]
   - - [4096, 3379, 1, 1024]
-    - [804, 9356.16]
+    - [835, 9356.16]
   - - [4096, 3428, 1, 1024]
-    - [805, 9472.33]
+    - [836, 9472.33]
   - - [12, 12, 5040, 64]
-    - [843, 741.617]
+    - [874, 741.617]
   - - [27, 27, 2336, 64]
-    - [849, 2757.9]
+    - [880, 2757.9]
   - - [1024, 3304, 1, 4096]
-    - [827, 8317.82]
+    - [858, 8317.82]
   - - [1024, 3387, 1, 4096]
-    - [825, 8460.15]
+    - [856, 8460.15]
   - - [4096, 3126, 1, 1024]
-    - [807, 9308.48]
+    - [838, 9308.48]
   - - [1024, 3498, 1, 4096]
-    - [824, 8485.55]
+    - [855, 8485.55]
   - - [1024, 3436, 1, 4096]
-    - [826, 8397.71]
+    - [857, 8397.71]
   - - [4096, 3501, 1, 1024]
-    - [804, 9681.19]
+    - [835, 9681.19]
   - - [4096, 3358, 1, 1024]
-    - [806, 9304.9]
+    - [837, 9304.9]
   - - [4096, 3232, 1, 1024]
-    - [804, 9607.2]
+    - [835, 9607.2]
   - - [1024, 3585, 1, 4096]
-    - [808, 8510.74]
+    - [839, 8510.74]
   - - [4096, 3143, 1, 1024]
-    - [807, 9355.91]
+    - [838, 9355.91]
   - - [4096, 3464, 1, 1024]
-    - [806, 9585.95]
+    - [837, 9585.95]
   - - [1024, 3366, 1, 4096]
-    - [814, 8275.23]
+    - [845, 8275.23]
   - - [4096, 3375, 1, 1024]
-    - [804, 9342.13]
+    - [835, 9342.13]
   - - [4096, 2917, 1, 1024]
-    - [804, 9372.84]
+    - [835, 9372.84]
   - - [4096, 4026, 1, 1024]
-    - [806, 9759.15]
+    - [837, 9759.15]
   - - [49, 49, 1296, 64]
-    - [845, 3710.02]
+    - [876, 3710.02]
   - - [1024, 3277, 1, 4096]
-    - [825, 8217.1]
+    - [856, 8217.1]
   - - [1024, 3103, 1, 4096]
-    - [826, 7872.67]
+    - [857, 7872.67]
   - - [33708, 3995, 1, 1024]
-    - [806, 9893.08]
+    - [837, 9893.08]
   - - [1024, 3297, 1, 4096]
-    - [825, 8185.82]
+    - [856, 8185.82]
   - - [4096, 3545, 1, 1024]
-    - [806, 9789.43]
+    - [837, 9789.43]
   - - [1024, 3399, 1, 4096]
-    - [825, 8377.18]
+    - [856, 8377.18]
   - - [33708, 3796, 1, 1024]
-    - [805, 10008.0]
+    - [836, 10008.0]
   - - [4096, 3292, 1, 1024]
-    - [806, 9767.28]
+    - [837, 9767.28]
   - - [71, 71, 896, 64]
-    - [840, 3006.25]
+    - [871, 3006.25]
   - - [33708, 3859, 1, 1024]
-    - [807, 9860.37]
+    - [838, 9860.37]
   - - [4096, 3566, 1, 1024]
-    - [806, 9834.47]
+    - [837, 9834.47]
   - - [4096, 3894, 1, 1024]
-    - [804, 9456.67]
+    - [835, 9456.67]
   - - [4096, 3492, 1, 1024]
-    - [804, 9653.24]
+    - [835, 9653.24]
   - - [1024, 3977, 1, 1024]
-    - [810, 9161.33]
+    - [841, 9161.33]
   - - [1024, 3272, 1, 4096]
-    - [827, 8257.09]
+    - [858, 8257.09]
   - - [135, 134, 480, 64]
-    - [851, 4238.39]
+    - [882, 4238.39]
   - - [1024, 3355, 1, 4096]
-    - [825, 8374.64]
+    - [856, 8374.64]
   - - [4096, 3419, 1, 1024]
-    - [807, 9455.44]
+    - [838, 9455.44]
   - - [1024, 3404, 1, 4096]
-    - [826, 8580.28]
+    - [857, 8580.28]
   - - [4096, 3999, 1, 1024]
-    - [806, 9701.78]
+    - [837, 9701.78]
   - - [4096, 3166, 1, 1024]
-    - [804, 9410.48]
+    - [835, 9410.48]
   - - [33708, 3840, 1, 1024]
-    - [807, 10132.9]
+    - [838, 10132.9]
   - - [4096, 4032, 1, 1024]
-    - [807, 9762.86]
+    - [838, 9762.86]
   - - [1024, 3573, 1, 4096]
-    - [825, 8603.4]
+    - [856, 8603.4]
   - - [4096, 3366, 1, 1024]
-    - [807, 9322.63]
+    - [838, 9322.63]
   - - [1024, 3541, 1, 4096]
-    - [827, 8405.9]
+    - [858, 8405.9]
   - - [4096, 3207, 1, 1024]
-    - [804, 9544.25]
+    - [835, 9544.25]
   - - [4096, 3272, 1, 1024]
-    - [806, 9716.73]
+    - [837, 9716.73]
   - - [1024, 3334, 1, 4096]
-    - [824, 8241.39]
+    - [855, 8241.39]
   - - [228, 228, 272, 64]
-    - [839, 6232.45]
+    - [870, 6232.45]
   - - [4096, 3183, 1, 1024]
-    - [806, 9452.44]
+    - [837, 9452.44]
   - - [4096, 3536, 1, 1024]
-    - [805, 9759.44]
+    - [836, 9759.44]
   - - [1024, 4005, 1, 1024]
-    - [809, 9225.83]
+    - [840, 9225.83]
   - - [1024, 3245, 1, 4096]
-    - [826, 8074.31]
+    - [857, 8074.31]
   - - [4096, 3447, 1, 1024]
-    - [805, 9525.84]
+    - [836, 9525.84]
   - - [1024, 3183, 1, 4096]
-    - [825, 8121.62]
+    - [856, 8121.62]
   - - [1024, 3361, 1, 4096]
-    - [827, 8285.86]
+    - [858, 8285.86]
   - - [33708, 3870, 1, 1024]
-    - [805, 9879.35]
+    - [836, 9879.35]
   - - [1024, 3321, 1, 4096]
-    - [826, 8408.67]
+    - [857, 8408.67]
   - - [1024, 3968, 1, 1024]
-    - [808, 9202.05]
+    - [839, 9202.05]
   - - [1024, 3486, 1, 4096]
-    - [822, 8258.89]
+    - [853, 8258.89]
   - - [4096, 4005, 1, 1024]
-    - [806, 9723.98]
+    - [837, 9723.98]
   - - [4096, 3410, 1, 1024]
-    - [807, 9440.5]
+    - [838, 9440.5]
   - - [1024, 3944, 1, 1024]
-    - [810, 9040.82]
+    - [841, 9040.82]
   - - [4096, 3300, 1, 1024]
-    - [805, 9789.9]
+    - [836, 9789.9]
   - - [4096, 3579, 1, 1024]
-    - [807, 9859.44]
+    - [838, 9859.44]
   - - [4096, 3483, 1, 1024]
-    - [807, 9624.31]
+    - [838, 9624.31]
   - - [4096, 3532, 1, 1024]
-    - [806, 9742.76]
+    - [837, 9742.76]
   - - [1024, 3140, 1, 4096]
-    - [826, 7899.65]
+    - [857, 7899.65]
   - - [1024, 3372, 1, 4096]
-    - [824, 8237.07]
+    - [855, 8237.07]
   - - [1024, 3224, 1, 4096]
-    - [827, 8159.13]
+    - [858, 8159.13]
   - - [4096, 3230, 1, 1024]
-    - [806, 9601.25]
+    - [837, 9601.25]
   - - [4096, 3427, 1, 1024]
-    - [806, 9466.57]
+    - [837, 9466.57]
   - - [1024, 3796, 1, 1024]
-    - [810, 8739.78]
+    - [841, 8739.78]
   - - [143, 148, 432, 64]
-    - [851, 4762.0]
+    - [882, 4762.0]
   - - [1024, 3616, 1, 4096]
-    - [809, 8445.89]
+    - [840, 8445.89]
   - - [1024, 3315, 1, 4096]
-    - [826, 8403.21]
+    - [857, 8403.21]
   - - [1024, 3476, 1, 4096]
-    - [824, 8523.68]
+    - [855, 8523.68]
   - - [1024, 3509, 1, 4096]
-    - [824, 8345.05]
+    - [855, 8345.05]
   - - [4096, 3357, 1, 1024]
-    - [806, 9300.16]
+    - [837, 9300.16]
   - - [4096, 3406, 1, 1024]
-    - [806, 9427.44]
+    - [837, 9427.44]
   - - [1024, 3558, 1, 4096]
-    - [825, 8525.78]
+    - [856, 8525.78]
   - - [4096, 3593, 1, 1024]
-    - [806, 9302.2]
+    - [837, 9302.2]
   - - [4096, 3247, 1, 1024]
-    - [806, 9648.5]
+    - [837, 9648.5]
   - - [4096, 3088, 1, 1024]
-    - [806, 9204.21]
+    - [837, 9204.21]
   - - [1024, 3213, 1, 4096]
-    - [824, 8054.31]
+    - [855, 8054.31]
   - - [4096, 3511, 1, 1024]
-    - [804, 9702.7]
+    - [835, 9702.7]
   - - [122, 122, 528, 64]
-    - [845, 6293.39]
+    - [876, 6293.39]
   - - [1024, 3365, 1, 4096]
-    - [821, 8413.62]
+    - [852, 8413.62]
   - - [1024, 3504, 1, 4096]
-    - [823, 8414.46]
+    - [854, 8414.46]
   - - [1024, 3442, 1, 4096]
-    - [826, 8684.0]
+    - [857, 8684.0]
   - - [4096, 3474, 1, 1024]
-    - [804, 9611.6]
+    - [835, 9611.6]
   - - [4096, 2984, 1, 1024]
-    - [805, 9592.82]
+    - [836, 9592.82]
   - - [1024, 3876, 1, 4096]
-    - [808, 9085.95]
+    - [839, 9085.95]
   - - [4096, 3337, 1, 1024]
-    - [806, 9246.22]
+    - [837, 9246.22]
   - - [4096, 3450, 1, 1024]
-    - [806, 9534.63]
+    - [837, 9534.63]
   - - [1024, 3547, 1, 4096]
-    - [826, 8386.73]
+    - [857, 8386.73]
   - - [4096, 3291, 1, 1024]
-    - [805, 9759.34]
+    - [836, 9759.34]
   - - [1024, 3340, 1, 4096]
-    - [825, 8237.97]
+    - [856, 8237.97]
   - - [4096, 3491, 1, 1024]
-    - [806, 9656.59]
+    - [837, 9656.59]
   - - [4096, 3348, 1, 1024]
-    - [806, 9279.15]
+    - [837, 9279.15]
   - - [78, 78, 816, 64]
-    - [846, 3591.09]
+    - [877, 3591.09]
   - - [4096, 3968, 1, 1024]
-    - [807, 9642.19]
+    - [838, 9642.19]
   - - [4096, 3906, 1, 1024]
-    - [807, 9485.37]
+    - [838, 9485.37]
   - - [1024, 3477, 1, 4096]
-    - [814, 8389.2]
+    - [845, 8389.2]
   - - [1024, 3397, 1, 4096]
-    - [824, 8556.88]
+    - [855, 8556.88]
   - - [4096, 3165, 1, 1024]
-    - [805, 9415.52]
+    - [836, 9415.52]
   - - [4096, 3470, 1, 1024]
-    - [804, 9598.5]
+    - [835, 9598.5]
   - - [1024, 3526, 1, 4096]
-    - [824, 8442.15]
+    - [855, 8442.15]
   - - [112, 112, 576, 64]
-    - [839, 5672.6]
+    - [870, 5672.6]
   - - [4096, 3365, 1, 1024]
-    - [804, 9321.83]
+    - [835, 9321.83]
   - - [4096, 3319, 1, 1024]
-    - [804, 9838.48]
+    - [835, 9838.48]
   - - [1024, 3401, 1, 4096]
-    - [826, 8460.86]
+    - [857, 8460.86]
   - - [1024, 3294, 1, 4096]
-    - [825, 8324.63]
+    - [856, 8324.63]
   - - [159, 159, 400, 64]
-    - [841, 5488.51]
+    - [872, 5488.51]
   - - [1024, 3472, 1, 4096]
-    - [819, 8289.77]
+    - [850, 8289.77]
   - - [4096, 3328, 1, 1024]
-    - [805, 9904.35]
+    - [836, 9904.35]
   - - [1024, 3861, 1, 1024]
-    - [810, 8917.63]
+    - [841, 8917.63]
   - - [1024, 3910, 1, 1024]
-    - [808, 9010.16]
+    - [839, 9010.16]
   - - [1024, 3410, 1, 4096]
-    - [826, 8519.63]
+    - [857, 8519.63]
   - - [1024, 3395, 1, 4096]
-    - [824, 8424.35]
+    - [855, 8424.35]
   - - [4096, 3282, 1, 1024]
-    - [804, 9743.67]
+    - [835, 9743.67]
   - - [1024, 3751, 1, 1024]
-    - [811, 8680.39]
+    - [842, 8680.39]
   - - [4096, 3145, 1, 1024]
-    - [806, 9353.37]
+    - [837, 9353.37]
   - - [4096, 3514, 1, 1024]
-    - [806, 9713.04]
+    - [837, 9713.04]
   - - [4096, 3944, 1, 1024]
-    - [806, 9563.92]
+    - [837, 9563.92]
   - - [1024, 3515, 1, 4096]
-    - [825, 8428.13]
+    - [856, 8428.13]
   - - [4096, 3409, 1, 1024]
-    - [805, 9428.77]
+    - [836, 9428.77]
   - - [4096, 3564, 1, 1024]
-    - [804, 9823.79]
+    - [835, 9823.79]
   - - [4096, 3299, 1, 1024]
-    - [806, 9793.03]
+    - [837, 9793.03]
   - - [1024, 3057, 1, 4096]
-    - [802, 9237.85]
+    - [833, 9237.85]
   - - [4096, 3531, 1, 1024]
-    - [804, 9745.64]
+    - [835, 9745.64]
   - - [4096, 3388, 1, 1024]
-    - [806, 9374.65]
+    - [837, 9374.65]
   - - [1024, 3189, 1, 4096]
-    - [826, 8084.6]
+    - [857, 8084.6]
   - - [1024, 3300, 1, 4096]
-    - [826, 8185.13]
+    - [857, 8185.13]
   - - [1024, 3720, 1, 4096]
-    - [805, 8755.11]
+    - [836, 8755.11]
   - - [1024, 3383, 1, 4096]
-    - [819, 8463.47]
+    - [850, 8463.47]
   - - [1024, 3494, 1, 4096]
-    - [826, 8676.57]
+    - [857, 8676.57]
   - - [77, 78, 816, 64]
-    - [842, 3548.26]
+    - [873, 3548.26]
   - - [1024, 3448, 1, 4096]
-    - [824, 8665.78]
+    - [855, 8665.78]
   - - [4096, 3542, 1, 1024]
-    - [804, 9771.88]
+    - [835, 9771.88]
   - - [1024, 3488, 1, 4096]
-    - [824, 8488.39]
+    - [855, 8488.39]
   - - [4096, 3405, 1, 1024]
-    - [806, 9426.16]
+    - [837, 9426.16]
   - - [1024, 3262, 1, 4096]
-    - [826, 8206.97]
+    - [857, 8206.97]
   - - [33708, 4005, 1, 1024]
-    - [807, 9928.16]
+    - [838, 9928.16]
   - - [1024, 3594, 1, 4096]
-    - [811, 8458.57]
+    - [842, 8458.57]
   - - [4096, 3103, 1, 1024]
-    - [807, 9243.14]
+    - [838, 9243.14]
   - - [4096, 3136, 1, 1024]
-    - [806, 9340.9]
+    - [837, 9340.9]
   - - [1024, 3378, 1, 4096]
-    - [827, 8432.45]
+    - [858, 8432.45]
   - - [10, 10, 5952, 64]
-    - [847, 523.353]
+    - [878, 523.353]
   - - [7, 7, 8192, 64]
-    - [847, 260.543]
+    - [878, 260.543]
   - - [4096, 3559, 1, 1024]
-    - [806, 9813.1]
+    - [837, 9813.1]
   - - [4096, 3368, 1, 1024]
-    - [807, 9328.66]
+    - [838, 9328.66]
   - - [4096, 3209, 1, 1024]
-    - [804, 9538.83]
+    - [835, 9538.83]
   - - [4096, 3322, 1, 1024]
-    - [806, 9839.58]
+    - [837, 9839.58]
   - - [1024, 3483, 1, 4096]
-    - [812, 8348.35]
+    - [843, 8348.35]
   - - [4096, 3473, 1, 1024]
-    - [805, 9605.79]
+    - [836, 9605.79]
   - - [4096, 3522, 1, 1024]
-    - [807, 9730.02]
+    - [838, 9730.02]
   - - [1024, 3532, 1, 4096]
-    - [825, 8474.32]
+    - [856, 8474.32]
   - - [4096, 3449, 1, 1024]
-    - [806, 9528.35]
+    - [837, 9528.35]
   - - [1024, 3351, 1, 4096]
-    - [827, 8311.23]
+    - [858, 8311.23]
   - - [1024, 3462, 1, 4096]
-    - [824, 8297.64]
+    - [855, 8297.64]
   - - [4096, 3396, 1, 1024]
-    - [806, 9400.25]
+    - [837, 9400.25]
   - - [132, 132, 480, 64]
-    - [852, 4089.84]
+    - [883, 4089.84]
   - - [111, 112, 576, 64]
-    - [838, 5529.7]
+    - [869, 5529.7]
   - - [1024, 3416, 1, 4096]
-    - [825, 8556.64]
+    - [856, 8556.64]
   - - [4096, 3469, 1, 1024]
-    - [807, 9598.77]
+    - [838, 9598.77]
   - - [1024, 3582, 1, 4096]
-    - [808, 8461.47]
+    - [839, 8461.47]
   - - [1024, 3230, 1, 4096]
-    - [825, 8188.94]
+    - [856, 8188.94]
   - - [1024, 3489, 1, 4096]
-    - [826, 8457.85]
+    - [857, 8457.85]
   - - [1024, 3427, 1, 4096]
-    - [826, 8566.59]
+    - [857, 8566.59]
   - - [1024, 3346, 1, 4096]
-    - [825, 8352.17]
+    - [856, 8352.17]
   - - [33708, 3977, 1, 1024]
-    - [807, 9868.5]
+    - [838, 9868.5]
   - - [4096, 3796, 1, 1024]
-    - [806, 9797.76]
+    - [837, 9797.76]
   - - [4096, 3176, 1, 1024]
-    - [806, 9435.39]
+    - [837, 9435.39]
   - - [4096, 3990, 1, 1024]
-    - [804, 9672.33]
+    - [835, 9672.33]
   - - [1024, 3257, 1, 4096]
-    - [827, 8225.17]
+    - [858, 8225.17]
   - - [4096, 3343, 1, 1024]
-    - [828, 9273.62]
+    - [859, 9273.62]
   - - [4096, 3440, 1, 1024]
-    - [804, 9501.48]
+    - [835, 9501.48]
   - - [33708, 4030, 1, 1024]
-    - [805, 9983.36]
+    - [836, 9983.36]
   - - [1024, 3190, 1, 4096]
-    - [826, 8192.11]
+    - [857, 8192.11]
   - - [1024, 3389, 1, 4096]
-    - [827, 8439.42]
+    - [858, 8439.42]
   - - [1024, 3500, 1, 4096]
-    - [825, 8556.12]
+    - [856, 8556.12]
   - - [1024, 3471, 1, 4096]
-    - [814, 8491.17]
+    - [845, 8491.17]
   - - [1024, 3438, 1, 4096]
-    - [827, 8567.95]
+    - [858, 8567.95]
   - - [4096, 3513, 1, 1024]
-    - [804, 9710.27]
+    - [835, 9710.27]
   - - [1024, 3562, 1, 4096]
-    - [819, 8608.94]
+    - [850, 8608.94]
   - - [4096, 3616, 1, 1024]
-    - [806, 9357.59]
+    - [837, 9357.59]
   - - [4096, 3955, 1, 1024]
-    - [805, 9589.71]
+    - [836, 9589.71]
   - - [1024, 3441, 1, 4096]
-    - [815, 8359.27]
+    - [846, 8359.27]
   - - [1024, 3236, 1, 4096]
-    - [829, 8022.6]
+    - [860, 8022.6]
   - - [1024, 3524, 1, 4096]
-    - [824, 8477.24]
+    - [855, 8477.24]
   - - [4096, 3460, 1, 1024]
-    - [804, 9581.96]
+    - [835, 9581.96]
   - - [16, 16, 3840, 64]
-    - [836, 1270.59]
+    - [867, 1270.59]
   - - [92, 93, 688, 64]
-    - [840, 4962.4]
+    - [871, 4962.4]
   - - [1024, 3384, 1, 4096]
-    - [815, 8409.39]
+    - [846, 8409.39]
   - - [4096, 3387, 1, 1024]
-    - [806, 9379.8]
+    - [837, 9379.8]
   - - [4096, 3436, 1, 1024]
-    - [804, 9491.93]
+    - [835, 9491.93]
   - - [4096, 3277, 1, 1024]
-    - [804, 9717.27]
+    - [835, 9717.27]
   - - [1024, 3457, 1, 4096]
-    - [824, 8279.22]
+    - [855, 8279.22]
   - - [1024, 3999, 1, 4096]
-    - [799, 9231.47]
+    - [830, 9231.47]
   - - [1024, 4032, 1, 4096]
-    - [808, 9443.62]
+    - [839, 9443.62]
   - - [4096, 3541, 1, 1024]
-    - [804, 9773.24]
+    - [835, 9773.24]
   - - [4096, 3334, 1, 1024]
-    - [804, 9242.79]
+    - [835, 9242.79]
   - - [1024, 3393, 1, 4096]
-    - [826, 8376.17]
+    - [857, 8376.17]
   - - [17, 17, 3632, 64]
-    - [848, 1425.77]
+    - [879, 1425.77]
   - - [1024, 3411, 1, 4096]
-    - [814, 8490.97]
+    - [845, 8490.97]
   - - [1024, 3822, 1, 1024]
-    - [811, 8773.44]
+    - [842, 8773.44]
   - - [1024, 3593, 1, 4096]
-    - [811, 8571.25]
+    - [842, 8571.25]
   - - [33708, 3822, 1, 1024]
-    - [805, 10056.8]
+    - [836, 10056.8]
   - - [4096, 3504, 1, 1024]
-    - [807, 9680.29]
+    - [838, 9680.29]
   - - [1024, 3163, 1, 4096]
-    - [826, 8014.43]
+    - [857, 8014.43]
   - - [1024, 3357, 1, 4096]
-    - [827, 8376.04]
+    - [858, 8376.04]
   - - [1024, 3906, 1, 4096]
-    - [808, 9108.22]
+    - [839, 9108.22]
   - - [4096, 3415, 1, 1024]
-    - [804, 9443.87]
+    - [835, 9443.87]
   - - [1024, 3406, 1, 4096]
-    - [827, 8451.64]
+    - [858, 8451.64]
   - - [4096, 3321, 1, 1024]
-    - [806, 9836.62]
+    - [837, 9836.62]
   - - [4096, 3584, 1, 1024]
-    - [807, 9915.93]
+    - [838, 9915.93]
   - - [1024, 2736, 1, 4096]
-    - [810, 8532.93]
+    - [841, 8532.93]
   - - [1024, 3110, 1, 4096]
-    - [827, 7889.29]
+    - [858, 7889.29]
   - - [33708, 3999, 1, 1024]
-    - [807, 9903.33]
+    - [838, 9903.33]
   - - [1024, 3093, 1, 4096]
-    - [825, 7919.35]
+    - [856, 7919.35]
   - - [4096, 3378, 1, 1024]
-    - [807, 9362.3]
+    - [838, 9362.3]
   - - [1024, 3543, 1, 4096]
-    - [821, 8438.16]
+    - [852, 8438.16]
   - - [33708, 3925, 1, 1024]
-    - [806, 10021.6]
+    - [837, 10021.6]
   - - [1024, 3352, 1, 4096]
-    - [827, 8333.82]
+    - [858, 8333.82]
   - - [4096, 3780, 1, 1024]
-    - [804, 9755.02]
+    - [835, 9755.02]
   - - [1024, 3990, 1, 4096]
-    - [801, 9251.02]
+    - [832, 9251.02]
   - - [4096, 3500, 1, 1024]
-    - [804, 9673.83]
+    - [835, 9673.83]
   - - [4096, 3996, 1, 1024]
-    - [805, 9694.5]
+    - [836, 9694.5]
   - - [1024, 3247, 1, 4096]
-    - [830, 8171.58]
+    - [861, 8171.58]
   - - [4096, 3395, 1, 1024]
-    - [806, 9392.04]
+    - [837, 9392.04]
   - - [1024, 3169, 1, 4096]
-    - [825, 7990.24]
+    - [856, 7990.24]
   - - [1024, 3088, 1, 4096]
-    - [825, 7890.36]
+    - [856, 7890.36]
   - - [1024, 3584, 1, 4096]
-    - [827, 8604.2]
+    - [858, 8604.2]
   - - [4096, 3093, 1, 1024]
-    - [806, 9224.88]
+    - [837, 9224.88]
   - - [1024, 3538, 1, 4096]
-    - [808, 8395.74]
+    - [839, 8395.74]
   - - [1024, 3996, 1, 1024]
-    - [809, 9208.33]
+    - [840, 9208.33]
   - - [1024, 3581, 1, 4096]
-    - [821, 8523.24]
+    - [852, 8523.24]
   - - [4096, 3374, 1, 1024]
-    - [806, 9342.81]
+    - [837, 9342.81]
   - - [33708, 3751, 1, 1024]
-    - [806, 9881.99]
+    - [837, 9881.99]
   - - [59, 59, 1088, 64]
-    - [844, 4515.54]
+    - [875, 4515.54]
   - - [4096, 3215, 1, 1024]
-    - [806, 9557.75]
+    - [837, 9557.75]
   - - [4096, 3312, 1, 1024]
-    - [804, 9834.4]
+    - [835, 9834.4]
   - - [4096, 3581, 1, 1024]
-    - [806, 9856.66]
+    - [837, 9856.66]
   - - [4096, 3479, 1, 1024]
-    - [806, 9620.35]
+    - [837, 9620.35]
   - - [4096, 3544, 1, 1024]
-    - [804, 9778.94]
+    - [835, 9778.94]
   - - [1024, 3870, 1, 1024]
-    - [809, 8935.26]
+    - [840, 8935.26]
   - - [1024, 3374, 1, 4096]
-    - [826, 8412.85]
+    - [857, 8412.85]
   - - [1024, 2967, 1, 4096]
-    - [809, 8982.97]
+    - [840, 8982.97]
   - - [41, 41, 1552, 64]
-    - [838, 2805.38]
+    - [869, 2805.38]
   - - [4096, 3455, 1, 1024]
-    - [804, 9538.89]
+    - [835, 9538.89]
   - - [4096, 3942, 1, 1024]
-    - [805, 9554.65]
+    - [836, 9554.65]
   - - [1024, 3528, 1, 4096]
-    - [824, 8438.47]
+    - [855, 8438.47]
   - - [4096, 3186, 1, 1024]
-    - [805, 9468.32]
+    - [836, 9468.32]
   - - [1024, 3976, 1, 1024]
-    - [809, 9167.08]
+    - [840, 9167.08]
   - - [1024, 3511, 1, 4096]
-    - [811, 8335.06]
+    - [842, 8335.06]
   - - [4096, 3573, 1, 1024]
-    - [804, 9855.33]
+    - [835, 9855.33]
   - - [4096, 3561, 1, 1024]
-    - [804, 9831.03]
+    - [835, 9831.03]
   - - [4096, 3418, 1, 1024]
-    - [805, 9450.68]
+    - [836, 9450.68]
   - - [33708, 3906, 1, 1024]
-    - [807, 9973.67]
+    - [838, 9973.67]
   - - [4096, 3259, 1, 1024]
-    - [804, 9685.26]
+    - [835, 9685.26]
   - - [4096, 3308, 1, 1024]
-    - [806, 9792.03]
+    - [837, 9792.03]
   - - [1024, 3419, 1, 4096]
-    - [826, 8514.53]
+    - [857, 8514.53]
   - - [1024, 3215, 1, 4096]
-    - [825, 8137.53]
+    - [856, 8137.53]
   - - [1024, 4030, 1, 4096]
-    - [807, 9290.76]
+    - [838, 9290.76]
   - - [4096, 3459, 1, 1024]
-    - [804, 9567.57]
+    - [835, 9567.57]
   - - [1024, 3572, 1, 4096]
-    - [824, 8501.43]
+    - [855, 8501.43]
   - - [1024, 3137, 1, 4096]
-    - [826, 7930.15]
+    - [857, 7930.15]
   - - [1024, 3312, 1, 4096]
-    - [827, 8378.6]
+    - [858, 8378.6]
   - - [1024, 3925, 1, 4096]
-    - [809, 9255.86]
+    - [840, 9255.86]
   - - [1024, 3453, 1, 4096]
-    - [826, 8630.76]
+    - [857, 8630.76]
   - - [4096, 3435, 1, 1024]
-    - [805, 9495.18]
+    - [836, 9495.18]
   - - [1024, 3176, 1, 4096]
-    - [826, 8087.23]
+    - [857, 8087.23]
   - - [1024, 3444, 1, 4096]
-    - [818, 8528.58]
+    - [849, 8528.58]
   - - [4096, 3975, 1, 1024]
-    - [807, 9645.34]
+    - [838, 9645.34]
   - - [4096, 3182, 1, 1024]
-    - [806, 9448.4]
+    - [837, 9448.4]
   - - [1024, 3475, 1, 4096]
-    - [825, 8404.87]
+    - [856, 8404.87]
   - - [9, 9, 6544, 64]
-    - [840, 425.854]
+    - [871, 425.854]
   - - [33708, 3955, 1, 1024]
-    - [807, 10088.4]
+    - [838, 10088.4]
   - - [4096, 3446, 1, 1024]
-    - [806, 9520.06]
+    - [837, 9520.06]
   - - [1024, 3138, 1, 4096]
-    - [825, 8053.44]
+    - [856, 8053.44]
   - - [1024, 3549, 1, 4096]
-    - [811, 8426.42]
+    - [842, 8426.42]
   - - [4096, 3287, 1, 1024]
-    - [807, 9751.34]
+    - [838, 9751.34]
   - - [1024, 3342, 1, 4096]
-    - [824, 8320.01]
+    - [855, 8320.01]
   - - [102, 102, 624, 64]
-    - [839, 4747.52]
+    - [870, 4747.52]
   - - [4096, 3519, 1, 1024]
-    - [806, 9716.1]
+    - [837, 9716.1]
   - - [4096, 3552, 1, 1024]
-    - [804, 9806.69]
+    - [835, 9806.69]
   - - [4096, 3859, 1, 1024]
-    - [804, 9369.94]
+    - [835, 9369.94]
   - - [33708, 3969, 1, 1024]
-    - [804, 9830.39]
+    - [835, 9830.39]
   - - [1024, 3369, 1, 4096]
-    - [825, 8379.26]
+    - [856, 8379.26]
   - - [4096, 3482, 1, 1024]
-    - [804, 9631.7]
+    - [835, 9631.7]
   - - [1024, 3306, 1, 4096]
-    - [827, 8320.06]
+    - [858, 8320.06]
   - - [1024, 3474, 1, 4096]
-    - [826, 8498.9]
+    - [857, 8498.9]
   - - [99, 99, 624, 64]
-    - [838, 4492.9]
+    - [869, 4492.9]
   - - [4096, 3377, 1, 1024]
-    - [804, 9369.92]
+    - [835, 9369.92]
   - - [4096, 3426, 1, 1024]
-    - [804, 9467.3]
+    - [835, 9467.3]
   - - [4096, 2935, 1, 1024]
-    - [805, 9423.74]
+    - [836, 9423.74]
   - - [4096, 3267, 1, 1024]
-    - [804, 9698.04]
+    - [835, 9698.04]
   - - [1024, 3299, 1, 4096]
-    - [825, 8264.76]
+    - [856, 8264.76]
   - - [1024, 3456, 1, 4096]
-    - [824, 8678.39]
+    - [855, 8678.39]
   - - [1024, 3280, 1, 4096]
-    - [825, 8220.69]
+    - [856, 8220.69]
   - - [1024, 3555, 1, 4096]
-    - [824, 8656.27]
+    - [855, 8656.27]
   - - [4096, 3499, 1, 1024]
-    - [806, 9663.93]
+    - [837, 9663.93]
   - - [4096, 3356, 1, 1024]
-    - [806, 9296.9]
+    - [837, 9296.9]
   - - [100, 102, 624, 64]
-    - [839, 4671.51]
+    - [870, 4671.51]
   - - [1024, 3412, 1, 4096]
-    - [827, 8538.05]
+    - [858, 8538.05]
   - - [1024, 2984, 1, 4096]
-    - [810, 9193.17]
+    - [841, 9193.17]
   - - [4096, 3141, 1, 1024]
-    - [806, 9349.43]
+    - [837, 9349.43]
   - - [4096, 3510, 1, 1024]
-    - [804, 9701.98]
+    - [835, 9701.98]
   - - [1024, 3995, 1, 1024]
-    - [808, 9243.4]
+    - [839, 9243.4]
   - - [1024, 3517, 1, 4096]
-    - [826, 8569.31]
+    - [857, 8569.31]
   - - [1024, 3455, 1, 4096]
-    - [826, 8560.67]
+    - [857, 8560.67]
   - - [1024, 3939, 1, 1024]
-    - [809, 9030.94]
+    - [840, 9030.94]
   - - [38, 38, 1680, 64]
-    - [838, 2459.84]
+    - [869, 2459.84]
   - - [1024, 3447, 1, 4096]
-    - [824, 8610.02]
+    - [855, 8610.02]
   - - [1024, 3969, 1, 4096]
-    - [811, 9097.33]
+    - [842, 9097.33]
   - - [4096, 3527, 1, 1024]
-    - [806, 9743.83]
+    - [837, 9743.83]
   - - [4096, 3336, 1, 1024]
-    - [806, 9248.33]
+    - [837, 9248.33]
   - - [1024, 3191, 1, 4096]
-    - [824, 8104.96]
+    - [855, 8104.96]
   - - [1024, 3302, 1, 4096]
-    - [825, 8245.09]
+    - [856, 8245.09]
   - - [1024, 3337, 1, 4096]
-    - [827, 8254.25]
+    - [858, 8254.25]
   - - [4096, 3290, 1, 1024]
-    - [806, 9759.13]
+    - [837, 9759.13]
   - - [1024, 3512, 1, 4096]
-    - [815, 8641.06]
+    - [846, 8641.06]
   - - [1024, 3433, 1, 4096]
-    - [825, 8444.7]
+    - [856, 8444.7]
   - - [4096, 3876, 1, 1024]
-    - [805, 9420.38]
+    - [836, 9420.38]
   - - [4096, 3490, 1, 1024]
-    - [806, 9641.11]
+    - [837, 9641.11]
   - - [4096, 3064, 1, 1024]
-    - [806, 9820.49]
+    - [837, 9820.49]
   - - [1024, 3508, 1, 4096]
-    - [821, 8442.24]
+    - [852, 8442.24]
   - - [1024, 3956, 1, 4096]
-    - [806, 9128.19]
+    - [837, 9128.19]
   - - [4096, 3417, 1, 1024]
-    - [806, 9448.41]
+    - [837, 9448.41]
   - - [1024, 3248, 1, 4096]
-    - [825, 8006.16]
+    - [856, 8006.16]
   - - [1024, 2499, 1, 4096]
-    - [825, 8155.19]
+    - [856, 8155.19]
   - - [1024, 3186, 1, 4096]
-    - [825, 8093.04]
+    - [856, 8093.04]
   - - [1024, 3180, 1, 4096]
-    - [827, 8097.02]
+    - [858, 8097.02]
   - - [4096, 3364, 1, 1024]
-    - [806, 9318.08]
+    - [837, 9318.08]
   - - [4096, 3976, 1, 1024]
-    - [806, 9654.47]
+    - [837, 9654.47]
   - - [4096, 3205, 1, 1024]
-    - [807, 9538.84]
+    - [838, 9538.84]
   - - [4096, 3318, 1, 1024]
-    - [804, 9838.29]
+    - [835, 9838.29]
   - - [1024, 3377, 1, 4096]
-    - [827, 8445.64]
+    - [858, 8445.64]
   - - [1024, 3485, 1, 4096]
-    - [824, 8368.83]
+    - [855, 8368.83]
   - - [4096, 3181, 1, 1024]
-    - [807, 9458.29]
+    - [838, 9458.29]
   - - [4096, 3550, 1, 1024]
-    - [804, 9783.14]
+    - [835, 9783.14]
   - - [1024, 3534, 1, 4096]
-    - [813, 8684.99]
+    - [844, 8684.99]
   - - [1024, 3860, 1, 1024]
-    - [808, 8923.18]
+    - [839, 8923.18]
   - - [160, 160, 400, 64]
-    - [851, 5797.69]
+    - [882, 5797.69]
   - - [4096, 3445, 1, 1024]
-    - [806, 9511.28]
+    - [837, 9511.28]
   - - [1024, 3391, 1, 4096]
-    - [827, 8541.77]
+    - [858, 8541.77]
   - - [1024, 3221, 1, 4096]
-    - [825, 8055.5]
+    - [856, 8055.5]
   - - [4096, 3079, 1, 1024]
-    - [804, 9181.04]
+    - [835, 9181.04]
   - - [4096, 3144, 1, 1024]
-    - [806, 9351.45]
+    - [837, 9351.45]
   - - [1024, 3270, 1, 4096]
-    - [826, 8367.63]
+    - [857, 8367.63]
   - - [1024, 3561, 1, 4096]
-    - [826, 8426.29]
+    - [857, 8426.29]
   - - [1024, 3480, 1, 4096]
-    - [813, 8465.0]
+    - [844, 8465.0]
   - - [4096, 3408, 1, 1024]
-    - [806, 9420.04]
+    - [837, 9420.04]
   - - [1024, 3418, 1, 4096]
-    - [827, 8481.02]
+    - [858, 8481.02]
   - - [4096, 3298, 1, 1024]
-    - [807, 9788.4]
+    - [838, 9788.4]
   - - [1024, 3640, 1, 1024]
-    - [810, 8435.44]
+    - [841, 8435.44]
   - - [1024, 3449, 1, 4096]
-    - [825, 8590.87]
+    - [856, 8590.87]
   - - [1024, 4020, 1, 4096]
-    - [803, 9168.13]
+    - [834, 9168.13]
   - - [4096, 3481, 1, 1024]
-    - [804, 9627.91]
+    - [835, 9627.91]
   - - [4096, 3530, 1, 1024]
-    - [806, 9734.68]
+    - [837, 9734.68]
   - - [1024, 3216, 1, 4096]
-    - [827, 8014.32]
+    - [858, 8014.32]
   - - [1024, 3840, 1, 1024]
-    - [810, 8908.37]
+    - [841, 8908.37]
   - - [1024, 3491, 1, 4096]
-    - [813, 8410.59]
+    - [844, 8410.59]
   - - [1024, 3154, 1, 4096]
-    - [826, 8095.69]
+    - [857, 8095.69]
   - - [4096, 3425, 1, 1024]
-    - [806, 9474.53]
+    - [837, 9474.53]
   - - [1024, 3348, 1, 4096]
-    - [824, 8202.9]
+    - [855, 8202.9]
   - - [1024, 3415, 1, 4096]
-    - [825, 8597.68]
+    - [856, 8597.68]
   - - [1024, 4026, 1, 1024]
-    - [808, 9279.09]
+    - [839, 9279.09]
   - - [1024, 3367, 1, 4096]
-    - [827, 8335.54]
+    - [858, 8335.54]
   - - [1024, 3259, 1, 4096]
-    - [827, 8285.3]
+    - [858, 8285.3]
   - - [1024, 3894, 1, 4096]
-    - [810, 9040.44]
+    - [841, 9040.44]
   - - [4096, 3355, 1, 1024]
-    - [805, 9291.67]
+    - [836, 9291.67]
   - - [4096, 3404, 1, 1024]
-    - [806, 9410.47]
+    - [837, 9410.47]
   - - [1024, 3308, 1, 4096]
-    - [827, 8336.3]
+    - [858, 8336.3]
   - - [4096, 3245, 1, 1024]
-    - [805, 9641.47]
+    - [836, 9641.47]
   - - [1024, 3502, 1, 4096]
-    - [826, 8375.9]
+    - [857, 8375.9]
   - - [33708, 4032, 1, 1024]
-    - [805, 9988.2]
+    - [836, 9988.2]
   - - [8, 8, 7280, 64]
-    - [842, 339.878]
+    - [873, 339.878]
   - - [1024, 3424, 1, 4096]
-    - [813, 8489.48]
+    - [844, 8489.48]
   - - [4096, 3509, 1, 1024]
-    - [805, 9702.29]
+    - [836, 9702.29]
   - - [4096, 3558, 1, 1024]
-    - [806, 9815.51]
+    - [837, 9815.51]
   - - [1024, 3900, 1, 1024]
-    - [809, 9014.05]
+    - [840, 9014.05]
   - - [1024, 2505, 1, 4096]
-    - [823, 8263.75]
+    - [854, 8263.75]
   - - [4096, 3472, 1, 1024]
-    - [804, 9609.61]
+    - [835, 9609.61]
   - - [1024, 3386, 1, 4096]
-    - [824, 8417.55]
+    - [855, 8417.55]
   - - [4096, 3383, 1, 1024]
-    - [806, 9364.77]
+    - [837, 9364.77]
   - - [4096, 3448, 1, 1024]
-    - [807, 9521.07]
+    - [838, 9521.07]
   - - [4096, 4030, 1, 1024]
-    - [807, 9771.56]
+    - [838, 9771.56]
   - - [4096, 3289, 1, 1024]
-    - [804, 9757.27]
+    - [835, 9757.27]
   - - [1024, 3459, 1, 4096]
-    - [826, 8422.12]
+    - [857, 8422.12]
   - - [1024, 2918, 1, 4096]
-    - [811, 9022.71]
+    - [842, 9022.71]
   - - [4096, 3489, 1, 1024]
-    - [804, 9641.9]
+    - [835, 9641.9]
   - - [4096, 3346, 1, 1024]
-    - [806, 9271.65]
+    - [837, 9271.65]
   - - [4096, 3572, 1, 1024]
-    - [806, 9829.82]
+    - [837, 9829.82]
   - - [1024, 3955, 1, 4096]
-    - [807, 9221.66]
+    - [838, 9221.66]
   - - [4096, 3236, 1, 1024]
-    - [804, 9620.72]
+    - [835, 9620.72]
   - - [4096, 3163, 1, 1024]
-    - [804, 9397.3]
+    - [835, 9397.3]
   - - [4096, 3468, 1, 1024]
-    - [804, 9601.58]
+    - [835, 9601.58]
   - - [1024, 3165, 1, 4096]
-    - [826, 7941.58]
+    - [857, 7941.58]
   - - [1024, 3276, 1, 4096]
-    - [826, 8244.96]
+    - [857, 8244.96]
   - - [1024, 3359, 1, 4096]
-    - [824, 8273.93]
+    - [855, 8273.93]
   - - [4096, 3363, 1, 1024]
-    - [806, 9315.8]
+    - [837, 9315.8]
   - - [1024, 3385, 1, 4096]
-    - [818, 8286.2]
+    - [849, 8286.2]
   - - [1024, 3207, 1, 4096]
-    - [827, 8144.02]
+    - [858, 8144.02]
   - - [1024, 3458, 1, 4096]
-    - [826, 8472.41]
+    - [857, 8472.41]
   - - [21, 21, 2976, 64]
-    - [842, 2083.3]
+    - [873, 2083.3]
   - - [4096, 3110, 1, 1024]
-    - [804, 9260.3]
+    - [835, 9260.3]
   - - [4096, 3925, 1, 1024]
-    - [807, 9526.66]
+    - [838, 9526.66]
   - - [1024, 3975, 1, 4096]
-    - [802, 9133.84]
+    - [833, 9133.84]
   - - [4096, 3549, 1, 1024]
-    - [806, 9793.77]
+    - [837, 9793.77]
   - - [4096, 3342, 1, 1024]
-    - [805, 9264.48]
+    - [836, 9264.48]
   - - [1024, 3859, 1, 1024]
-    - [808, 8933.47]
+    - [839, 8933.47]
   - - [1024, 3497, 1, 4096]
-    - [825, 8526.13]
+    - [856, 8526.13]
   - - [4096, 3280, 1, 1024]
-    - [806, 9733.32]
+    - [837, 9733.32]
   - - [1024, 3435, 1, 4096]
-    - [825, 8489.85]
+    - [856, 8489.85]
   - - [1024, 3354, 1, 4096]
-    - [825, 8248.83]
+    - [856, 8248.83]
   - - [4096, 3191, 1, 1024]
-    - [805, 9475.12]
+    - [836, 9475.12]
   - - [4096, 3512, 1, 1024]
-    - [804, 9701.37]
+    - [835, 9701.37]
   - - [1024, 3055, 1, 4096]
-    - [811, 9264.91]
+    - [842, 9264.91]
   - - [4096, 2499, 1, 1024]
-    - [806, 9574.06]
+    - [837, 9574.06]
   - - [1024, 3233, 1, 4096]
-    - [824, 8101.74]
+    - [855, 8101.74]
   - - [4096, 3423, 1, 1024]
-    - [807, 9463.5]
+    - [838, 9463.5]
   - - [1024, 3319, 1, 4096]
-    - [827, 8413.76]
+    - [858, 8413.76]
   - - [4096, 3297, 1, 1024]
-    - [804, 9782.66]
+    - [835, 9782.66]
   - - [4096, 3154, 1, 1024]
-    - [806, 9381.2]
+    - [837, 9381.2]
   - - [1024, 3540, 1, 4096]
-    - [827, 8507.53]
+    - [858, 8507.53]
   - - [1024, 3289, 1, 4096]
-    - [827, 8233.8]
+    - [858, 8233.8]
   - - [4096, 3529, 1, 1024]
-    - [806, 9741.15]
+    - [837, 9741.15]
   - - [4096, 3386, 1, 1024]
-    - [806, 9372.57]
+    - [837, 9372.57]
   - - [4096, 3276, 1, 1024]
-    - [804, 9713.76]
+    - [835, 9713.76]
   - - [1024, 3244, 1, 4096]
-    - [827, 8146.83]
+    - [858, 8146.83]
   - - [1024, 3182, 1, 4096]
-    - [824, 8115.12]
+    - [855, 8115.12]
   - - [4096, 3540, 1, 1024]
-    - [804, 9768.42]
+    - [835, 9768.42]
   - - [1024, 3360, 1, 4096]
-    - [826, 8353.31]
+    - [857, 8353.31]
   - - [1024, 3942, 1, 4096]
-    - [805, 9143.78]
+    - [836, 9143.78]
   - - [4096, 3403, 1, 1024]
-    - [807, 9412.18]
+    - [838, 9412.18]
   - - [4096, 3101, 1, 1024]
-    - [807, 9239.28]
+    - [838, 9239.28]
   - - [4096, 2918, 1, 1024]
-    - [806, 9373.75]
+    - [837, 9373.75]
   - - [1024, 3465, 1, 4096]
-    - [827, 8288.16]
+    - [858, 8288.16]
   - - [33708, 3780, 1, 1024]
-    - [806, 9971.91]
+    - [837, 9971.91]
   - - [4096, 3557, 1, 1024]
-    - [804, 9814.82]
+    - [835, 9814.82]
   - - [4096, 3414, 1, 1024]
-    - [804, 9436.63]
+    - [835, 9436.63]
   - - [1024, 3948, 1, 1024]
-    - [808, 9073.8]
+    - [839, 9073.8]
   - - [4096, 3320, 1, 1024]
-    - [806, 9834.77]
+    - [837, 9834.77]
   - - [4096, 2765, 1, 1024]
-    - [806, 9667.06]
+    - [837, 9667.06]
   - - [1024, 3978, 1, 4096]
-    - [801, 9109.6]
+    - [832, 9109.6]
   - - [4096, 3487, 1, 1024]
-    - [804, 9644.0]
+    - [835, 9644.0]
   - - [4096, 3520, 1, 1024]
-    - [806, 9728.08]
+    - [837, 9728.08]
   - - [1024, 3139, 1, 4096]
-    - [826, 7940.19]
+    - [857, 7940.19]
   - - [1024, 3314, 1, 4096]
-    - [824, 8294.01]
+    - [855, 8294.01]
   - - [4096, 3431, 1, 1024]
-    - [806, 9482.12]
+    - [837, 9482.12]
   - - [123, 122, 528, 64]
-    - [839, 6325.98]
+    - [870, 6325.98]
   - - [1024, 3446, 1, 4096]
-    - [820, 8468.34]
+    - [851, 8468.34]
   - - [1024, 4059, 1, 4096]
-    - [807, 9370.8]
+    - [838, 9370.8]
   - - [99, 102, 624, 64]
-    - [839, 4624.8]
+    - [870, 4624.8]
   - - [4096, 3345, 1, 1024]
-    - [804, 9271.32]
+    - [835, 9271.32]
   - - [4096, 3394, 1, 1024]
-    - [804, 9398.19]
+    - [835, 9398.19]
   - - [1024, 3927, 1, 1024]
-    - [809, 9041.38]
+    - [840, 9041.38]
   - - [4096, 3235, 1, 1024]
-    - [804, 9619.93]
+    - [835, 9619.93]
   - - [1024, 3328, 1, 4096]
-    - [825, 8406.09]
+    - [856, 8406.09]
   - - [33708, 3956, 1, 1024]
-    - [805, 10100.4]
+    - [836, 10100.4]
   - - [4096, 3467, 1, 1024]
-    - [806, 9586.66]
+    - [837, 9586.66]
   - - [1024, 3287, 1, 4096]
-    - [826, 8273.83]
+    - [857, 8273.83]
   - - [4096, 3214, 1, 1024]
-    - [807, 9557.49]
+    - [838, 9557.49]
   - - [4096, 3910, 1, 1024]
-    - [804, 9490.25]
+    - [835, 9490.25]
   - - [1024, 3780, 1, 1024]
-    - [811, 8706.0]
+    - [842, 8706.0]
   - - [1024, 3371, 1, 4096]
-    - [827, 8248.46]
+    - [858, 8248.46]
   - - [4096, 3478, 1, 1024]
-    - [807, 9619.62]
+    - [838, 9619.62]
   - - [1024, 3546, 1, 4096]
-    - [825, 8456.83]
+    - [856, 8456.83]
   - - [1024, 4012, 1, 1024]
-    - [808, 9253.34]
+    - [839, 9253.34]
   - - [4096, 3341, 1, 1024]
-    - [806, 9260.24]
+    - [837, 9260.24]
   - - [4096, 3454, 1, 1024]
-    - [804, 9533.62]
+    - [835, 9533.62]
   - - [4096, 3295, 1, 1024]
-    - [807, 9772.86]
+    - [838, 9772.86]
   - - [4096, 3072, 1, 1024]
-    - [804, 9887.23]
+    - [835, 9887.23]
   - - [1024, 3282, 1, 4096]
-    - [812, 8112.85]
+    - [843, 8112.85]
   - - [33708, 3720, 1, 1024]
-    - [807, 9818.85]
+    - [838, 9818.85]
   - - [1024, 3681, 1, 4096]
-    - [809, 8639.28]
+    - [840, 8639.28]
   - - [1024, 4050, 1, 4096]
-    - [807, 9291.93]
+    - [838, 9291.93]
   - - [4096, 3495, 1, 1024]
-    - [806, 9660.52]
+    - [837, 9660.52]
   - - [4096, 3560, 1, 1024]
-    - [805, 9813.8]
+    - [836, 9813.8]
   - - [4096, 3751, 1, 1024]
-    - [804, 9684.95]
+    - [835, 9684.95]
   - - [1024, 3414, 1, 4096]
-    - [825, 8555.72]
+    - [856, 8555.72]
   - - [33708, 3860, 1, 1024]
-    - [804, 9856.68]
+    - [835, 9856.68]
   - - [1024, 3325, 1, 4096]
-    - [814, 8261.21]
+    - [845, 8261.21]
   - - [4096, 3458, 1, 1024]
-    - [804, 9570.86]
+    - [835, 9570.86]
   - - [4096, 2967, 1, 1024]
-    - [804, 9544.61]
+    - [835, 9544.61]
   - - [1024, 3519, 1, 4096]
-    - [827, 8413.1]
+    - [858, 8413.1]
   - - [4096, 3385, 1, 1024]
-    - [806, 9367.34]
+    - [837, 9367.34]
   - - [4096, 3434, 1, 1024]
-    - [804, 9488.41]
+    - [835, 9488.41]
   - - [1024, 3552, 1, 4096]
-    - [825, 8456.13]
+    - [856, 8456.13]
   - - [4096, 3822, 1, 1024]
-    - [805, 9849.84]
+    - [836, 9849.84]
   - - [1024, 3544, 1, 4096]
-    - [824, 8494.56]
+    - [855, 8494.56]
   - - [4096, 3539, 1, 1024]
-    - [806, 9763.09]
+    - [837, 9763.09]
   - - [4096, 3332, 1, 1024]
-    - [804, 9232.36]
+    - [835, 9232.36]
   - - [1024, 3145, 1, 4096]
-    - [824, 8098.36]
+    - [855, 8098.36]
   - - [1024, 3535, 1, 4096]
-    - [812, 8592.8]
+    - [843, 8592.8]
   - - [1024, 3320, 1, 4096]
-    - [825, 8419.55]
+    - [856, 8419.55]
   - - [33708, 4012, 1, 1024]
-    - [807, 9940.2]
+    - [838, 9940.2]
   - - [4096, 3286, 1, 1024]
-    - [806, 9747.82]
+    - [837, 9747.82]
   - - [1024, 3514, 1, 4096]
-    - [825, 8653.69]
+    - [856, 8653.69]
   - - [93, 93, 688, 64]
-    - [846, 5005.79]
+    - [877, 5005.79]
   - - [1024, 2765, 1, 4096]
-    - [811, 8636.72]
+    - [842, 8636.72]
   - - [1024, 3452, 1, 4096]
-    - [824, 8445.87]
+    - [855, 8445.87]
   - - [4096, 3518, 1, 1024]
-    - [804, 9722.56]
+    - [835, 9722.56]
   - - [1024, 3529, 1, 4096]
-    - [824, 8444.32]
+    - [855, 8444.32]
   - - [4096, 3413, 1, 1024]
-    - [804, 9436.35]
+    - [835, 9436.35]
   - - [33708, 4050, 1, 1024]
-    - [806, 10026.7]
+    - [837, 10026.7]
   - - [1024, 3525, 1, 4096]
-    - [817, 8488.99]
+    - [848, 8488.99]
   - - [4096, 3303, 1, 1024]
-    - [804, 9791.05]
+    - [835, 9791.05]
   - - [1024, 3382, 1, 4096]
-    - [825, 8483.63]
+    - [856, 8483.63]
   - - [1024, 3390, 1, 4096]
-    - [824, 8552.81]
+    - [855, 8552.81]
   - - [1024, 3977, 1, 4096]
-    - [806, 9053.53]
+    - [837, 9053.53]
   - - [1024, 3184, 1, 4096]
-    - [824, 8008.81]
+    - [855, 8008.81]
   - - [4096, 3535, 1, 1024]
-    - [806, 9760.79]
+    - [837, 9760.79]
   - - [4096, 3376, 1, 1024]
-    - [807, 9341.93]
+    - [838, 9341.93]
   - - [4096, 3978, 1, 1024]
-    - [807, 9642.8]
+    - [838, 9642.8]
   - - [1024, 3136, 1, 4096]
-    - [826, 8085.12]
+    - [857, 8085.12]
   - - [1024, 3293, 1, 4096]
-    - [824, 8300.49]
+    - [855, 8300.49]
   - - [4096, 3266, 1, 1024]
-    - [805, 9691.78]
+    - [836, 9691.78]
   - - [1024, 3487, 1, 4096]
-    - [824, 8383.62]
+    - [855, 8383.62]
   - - [1024, 3409, 1, 4096]
-    - [826, 8493.25]
+    - [857, 8493.25]
   - - [4096, 3498, 1, 1024]
-    - [805, 9672.38]
+    - [836, 9672.38]
   - - [1024, 3520, 1, 4096]
-    - [827, 8488.26]
+    - [858, 8488.26]
   - - [1024, 3530, 1, 4096]
-    - [808, 8409.87]
+    - [839, 8409.87]
   - - [4096, 3393, 1, 1024]
-    - [806, 9395.43]
+    - [837, 9395.43]
   - - [4096, 3140, 1, 1024]
-    - [806, 9338.5]
+    - [837, 9338.5]
   - - [1024, 3536, 1, 4096]
-    - [827, 8642.11]
+    - [858, 8642.11]
   - - [1024, 3288, 1, 4096]
-    - [827, 8229.34]
+    - [858, 8229.34]
   - - [1024, 4005, 1, 4096]
-    - [809, 9271.04]
+    - [840, 9271.04]
   - - [1024, 3579, 1, 4096]
-    - [813, 8844.5]
+    - [844, 8844.5]
   - - [4096, 3372, 1, 1024]
-    - [804, 9339.25]
+    - [835, 9339.25]
   - - [1024, 3440, 1, 4096]
-    - [824, 8466.69]
+    - [855, 8466.69]
   - - [4096, 3213, 1, 1024]
-    - [807, 9558.85]
+    - [838, 9558.85]
   - - [123, 123, 528, 64]
-    - [839, 6333.59]
+    - [870, 6333.59]
   - - [100, 100, 624, 64]
-    - [838, 4584.12]
+    - [869, 4584.12]
   - - [1024, 3968, 1, 4096]
-    - [805, 9237.6]
+    - [836, 9237.6]
   - - [4096, 3477, 1, 1024]
-    - [805, 9618.88]
+    - [836, 9618.88]
   - - [4096, 3526, 1, 1024]
-    - [804, 9735.94]
+    - [835, 9735.94]
   - - [1024, 3493, 1, 4096]
-    - [825, 8355.13]
+    - [856, 8355.13]
   - - [1024, 3944, 1, 4096]
-    - [800, 9065.39]
+    - [831, 9065.39]
   - - [4096, 3453, 1, 1024]
-    - [805, 9533.37]
+    - [836, 9533.37]
   - - [1024, 3350, 1, 4096]
-    - [827, 8448.64]
+    - [858, 8448.64]
   - - [4096, 3184, 1, 1024]
-    - [806, 9447.38]
+    - [837, 9447.38]
   - - [1024, 3423, 1, 4096]
-    - [825, 8465.38]
+    - [856, 8465.38]
   - - [4096, 3351, 1, 1024]
-    - [804, 9282.06]
+    - [835, 9282.06]
   - - [4096, 3416, 1, 1024]
-    - [804, 9446.64]
+    - [835, 9446.64]
   - - [1024, 3796, 1, 4096]
-    - [806, 8820.34]
+    - [837, 8820.34]
   - - [4096, 3257, 1, 1024]
-    - [804, 9671.64]
+    - [835, 9671.64]
   - - [4096, 3306, 1, 1024]
-    - [806, 9795.51]
+    - [837, 9795.51]
   - - [33708, 4020, 1, 1024]
-    - [806, 9961.85]
+    - [837, 9961.85]
   - - [19, 19, 3264, 64]
-    - [836, 1736.09]
+    - [867, 1736.09]
   - - [1024, 3426, 1, 4096]
-    - [824, 8518.61]
+    - [855, 8518.61]
   - - [4096, 3457, 1, 1024]
-    - [804, 9564.56]
+    - [835, 9564.56]
   - - [1024, 2935, 1, 4096]
-    - [809, 9067.79]
+    - [840, 9067.79]
   - - [1024, 3046, 1, 4096]
-    - [809, 9242.97]
+    - [840, 9242.97]
   - - [4096, 3433, 1, 1024]
-    - [806, 9495.65]
+    - [837, 9495.65]
   - - [1024, 3256, 1, 4096]
-    - [827, 8224.23]
+    - [858, 8224.23]
   - - [1024, 3531, 1, 4096]
-    - [824, 8524.19]
+    - [855, 8524.19]
   - - [4096, 3180, 1, 1024]
-    - [804, 9443.53]
+    - [835, 9443.53]
   - - [1024, 3388, 1, 4096]
-    - [826, 8352.82]
+    - [857, 8352.82]
   - - [4096, 3444, 1, 1024]
-    - [807, 9511.03]
+    - [838, 9511.03]
   - - [1024, 3501, 1, 4096]
-    - [814, 8461.12]
+    - [845, 8461.12]
   - - [1024, 3266, 1, 4096]
-    - [812, 8147.44]
+    - [843, 8147.44]
   - - [1024, 3267, 1, 4096]
-    - [827, 8391.49]
+    - [858, 8391.49]
   - - [1024, 3461, 1, 4096]
-    - [811, 8270.29]
+    - [842, 8270.29]
   - - [4096, 3870, 1, 1024]
-    - [806, 9399.69]
+    - [837, 9399.69]
   - - [4096, 3517, 1, 1024]
-    - [804, 9725.43]
+    - [835, 9725.43]
   - - [1024, 3566, 1, 4096]
-    - [827, 8669.76]
+    - [858, 8669.76]
   - - [4096, 3574, 1, 1024]
-    - [804, 9844.63]
+    - [835, 9844.63]
   - - [1024, 3876, 1, 1024]
-    - [809, 8961.74]
+    - [840, 8961.74]
   - - [25, 25, 2512, 64]
-    - [835, 2472.54]
+    - [866, 2472.54]
   - - [4096, 3720, 1, 1024]
-    - [804, 9612.49]
+    - [835, 9612.49]
   - - [4096, 3248, 1, 1024]
-    - [806, 9644.92]
+    - [837, 9644.92]
   - - [4096, 4059, 1, 1024]
-    - [804, 9826.42]
+    - [835, 9826.42]
   - - [1024, 3380, 1, 4096]
-    - [825, 8677.91]
+    - [856, 8677.91]
   - - [4096, 3480, 1, 1024]
-    - [806, 9626.16]
+    - [837, 9626.16]
   - - [1024, 3335, 1, 4096]
-    - [826, 8302.18]
+    - [857, 8302.18]
   - - [1024, 3345, 1, 4096]
-    - [826, 8323.13]
+    - [857, 8323.13]
   - - [4096, 3391, 1, 1024]
-    - [804, 9379.48]
+    - [835, 9379.48]
   - - [4096, 3424, 1, 1024]
-    - [806, 9466.77]
+    - [837, 9466.77]
   - - [1024, 3394, 1, 4096]
-    - [812, 8373.91]
+    - [843, 8373.91]
   - - [4096, 3265, 1, 1024]
-    - [806, 9700.89]
+    - [837, 9700.89]
   - - [1024, 3014, 1, 4096]
-    - [809, 9303.09]
+    - [840, 9303.09]
   - - [4096, 3497, 1, 1024]
-    - [804, 9668.6]
+    - [835, 9668.6]
   - - [4096, 3354, 1, 1024]
-    - [806, 9294.31]
+    - [837, 9294.31]
   - - [4096, 3055, 1, 1024]
-    - [805, 9780.88]
+    - [836, 9780.88]
   - - [1024, 3499, 1, 4096]
-    - [818, 8527.04]
+    - [849, 8527.04]
   - - [1024, 3162, 1, 4096]
-    - [826, 8059.02]
+    - [857, 8059.02]
   - - [4096, 3244, 1, 1024]
-    - [806, 9636.86]
+    - [837, 9636.86]
   - - [1024, 3437, 1, 4096]
-    - [825, 8583.41]
+    - [856, 8583.41]
   - - [1024, 3356, 1, 4096]
-    - [827, 8296.95]
+    - [858, 8296.95]
   - - [4096, 3139, 1, 1024]
-    - [806, 9338.7]
+    - [837, 9338.7]
   - - [4096, 3508, 1, 1024]
-    - [806, 9700.54]
+    - [837, 9700.54]
   - - [1024, 3235, 1, 4096]
-    - [824, 8314.59]
+    - [855, 8314.59]
   - - [1024, 3910, 1, 4096]
-    - [811, 9200.21]
+    - [842, 9200.21]
   - - [4096, 3371, 1, 1024]
-    - [804, 9336.97]
+    - [835, 9336.97]
   - - [1024, 3751, 1, 4096]
-    - [811, 8827.67]
+    - [842, 8827.67]
   - - [4096, 3325, 1, 1024]
-    - [804, 9845.68]
+    - [835, 9845.68]
   - - [1024, 3413, 1, 4096]
-    - [812, 8345.78]
+    - [843, 8345.78]
   - - [1024, 3542, 1, 4096]
-    - [824, 8521.71]
+    - [855, 8521.71]
   - - [18, 18, 3440, 64]
-    - [840, 1578.24]
+    - [871, 1578.24]
   - - [101, 102, 624, 64]
-    - [838, 4705.28]
+    - [869, 4705.28]
   - - [33708, 3900, 1, 1024]
-    - [804, 9951.05]
+    - [835, 9951.05]
   - - [4096, 3525, 1, 1024]
-    - [805, 9744.47]
+    - [836, 9744.47]
   - - [4096, 3382, 1, 1024]
-    - [805, 9359.03]
+    - [836, 9359.03]
   - - [102, 100, 624, 64]
-    - [839, 4671.51]
+    - [870, 4671.51]
   - - [15, 15, 4096, 64]
-    - [843, 1129.17]
+    - [874, 1129.17]
   - - [1024, 3339, 1, 4096]
-    - [813, 8326.37]
+    - [844, 8326.37]
   - - [4096, 3288, 1, 1024]
-    - [806, 9761.48]
+    - [837, 9761.48]
   - - [92, 92, 688, 64]
-    - [846, 4903.87]
+    - [877, 4903.87]
   - - [1024, 3141, 1, 4096]
-    - [824, 7975.64]
+    - [855, 7975.64]
   - - [1024, 3168, 1, 4096]
-    - [824, 8083.74]
+    - [855, 8083.74]
   - - [4096, 3488, 1, 1024]
-    - [806, 9646.77]
+    - [837, 9646.77]
   - - [4096, 3046, 1, 1024]
-    - [805, 9767.58]
+    - [836, 9767.58]
   - - [1024, 3362, 1, 4096]
-    - [827, 8458.15]
+    - [858, 8458.15]
   - - [33708, 3942, 1, 1024]
-    - [805, 10060.4]
+    - [836, 10060.4]
   - - [4096, 3399, 1, 1024]
-    - [806, 9406.57]
+    - [837, 9406.57]
   - - [1024, 3720, 1, 1024]
-    - [808, 8639.16]
+    - [839, 8639.16]
   - - [4096, 3563, 1, 1024]
-    - [804, 9836.55]
+    - [835, 9836.55]
   - - [1024, 3273, 1, 4096]
-    - [827, 8221.62]
+    - [858, 8221.62]
   - - [4096, 3162, 1, 1024]
-    - [806, 9400.19]
+    - [837, 9400.19]
   - - [1024, 3467, 1, 4096]
-    - [825, 8342.42]
+    - [856, 8342.42]
   - - [1024, 3130, 1, 4096]
-    - [826, 7933.88]
+    - [857, 7933.88]
   - - [1024, 3405, 1, 4096]
-    - [833, 8406.59]
+    - [864, 8406.59]
   - - [4096, 3362, 1, 1024]
-    - [804, 9312.04]
+    - [835, 9312.04]
   - - [1024, 3960, 1, 1024]
-    - [808, 9082.26]
+    - [839, 9082.26]
   - - [2048, 128, 1, 4096]
-    - [858, 5986.62]
+    - [889, 5986.62]
   - - [1024, 3712, 1, 36548]
-    - [856, 9456.25]
+    - [887, 9456.25]
   - - [1024, 128, 1, 1024]
-    - [859, 3631.53]
+    - [890, 3631.53]
   - - [3072, 128, 1, 4096]
-    - [855, 6145.6]
+    - [886, 6145.6]
   - - [1024, 3712, 1, 1024]
-    - [857, 8933.98]
+    - [888, 8933.98]
   - - [256, 256, 192, 64]
-    - [862, 8264.74]
+    - [893, 8264.74]
   - - [768, 4096, 1, 768]
-    - [875, 9642.18]
+    - [906, 9642.18]
   - - [768, 64, 1, 768]
-    - [872, 1850.53]
+    - [903, 1850.53]
   - - [768, 1280, 1, 768]
-    - [875, 8738.23]
+    - [906, 8738.23]
   - - [30522, 320, 1, 768]
-    - [876, 9733.69]
+    - [907, 9733.69]
   - - [128, 128, 96, 64]
-    - [865, 5470.93]
+    - [896, 5470.93]
   - - [2, 16, 1, 768]
-    - [868, 2.57742]
+    - [899, 2.57742]
   - - [30522, 1280, 1, 768]
-    - [874, 10128.0]
+    - [905, 10128.0]
   - - [30522, 640, 1, 768]
-    - [875, 9987.71]
+    - [906, 9987.71]
   - - [2, 8, 1, 768]
-    - [867, 1.06]
+    - [898, 1.06]
   - - [768, 4096, 1, 3072]
-    - [877, 9479.51]
+    - [908, 9479.51]
   - - [768, 32, 1, 768]
-    - [871, 880.434]
+    - [902, 880.434]
   - - [2, 64, 1, 768]
-    - [868, 10.09024]
+    - [899, 10.09024]
   - - [256, 256, 96, 64]
-    - [862, 7614.57]
+    - [893, 7614.57]
   - - [64, 64, 768, 64]
-    - [864, 5354.53]
+    - [895, 5354.53]
   - - [30522, 160, 1, 768]
-    - [873, 7740.21]
+    - [904, 7740.21]
   - - [768, 320, 1, 768]
-    - [866, 5423.77]
+    - [897, 5423.77]
   - - [128, 128, 384, 64]
-    - [863, 7180.08]
+    - [894, 7180.08]
   - - [768, 16, 1, 768]
-    - [869, 706.476]
+    - [900, 706.476]
   - - [3072, 4096, 1, 768]
-    - [878, 9961.84]
+    - [909, 9961.84]
   - - [2048, 512, 1, 100]
-    - [880, 5180.81]
+    - [911, 5180.81]
   - - [1024, 200, 1, 560]
-    - [881, 4061.29]
+    - [912, 4061.29]
   - - [256, 1280, 1, 1024]
-    - [888, 4337.54]
+    - [919, 4337.54]
   - - [256, 44505, 1, 1024]
-    - [924, 8597.79]
+    - [955, 8597.79]
   - - [10240, 8976, 1, 256]
-    - [927, 9471.53]
+    - [958, 9471.53]
   - - [256, 7168, 1, 1024]
-    - [918, 6718.66]
+    - [949, 6718.66]
   - - [8448, 8976, 1, 256]
-    - [910, 9601.41]
+    - [941, 9601.41]
   - - [18944, 8976, 1, 256]
-    - [919, 9666.36]
+    - [950, 9666.36]
   - - [256, 19200, 1, 1024]
-    - [895, 7489.04]
+    - [926, 7489.04]
   - - [5632, 8976, 1, 256]
-    - [907, 9358.49]
+    - [938, 9358.49]
   - - [256, 23552, 1, 1024]
-    - [922, 7980.99]
+    - [953, 7980.99]
   - - [256, 6656, 1, 1024]
-    - [922, 6287.32]
+    - [953, 6287.32]
   - - [256, 14336, 1, 1024]
-    - [917, 7049.36]
+    - [948, 7049.36]
   - - [256, 12544, 1, 1024]
-    - [895, 6728.57]
+    - [926, 6728.57]
   - - [2048, 684, 1, 768]
-    - [912, 8479.28]
+    - [943, 8479.28]
   - - [5376, 8976, 1, 256]
-    - [907, 9519.61]
+    - [938, 9519.61]
   - - [256, 5888, 1, 1024]
-    - [927, 6012.5]
+    - [958, 6012.5]
   - - [19968, 8976, 1, 256]
-    - [919, 9684.77]
+    - [950, 9684.77]
   - - [3840, 8976, 1, 256]
-    - [904, 9461.99]
+    - [935, 9461.99]
   - - [4608, 8976, 1, 256]
-    - [904, 9305.92]
+    - [935, 9305.92]
   - - [256, 684, 1, 1024]
-    - [930, 3513.16]
+    - [961, 3513.16]
   - - [256, 22016, 1, 1024]
-    - [895, 7643.89]
+    - [926, 7643.89]
   - - [256, 23296, 1, 1024]
-    - [924, 8048.22]
+    - [955, 8048.22]
   - - [4864, 8976, 1, 256]
-    - [902, 9545.72]
+    - [933, 9545.72]
   - - [256, 7424, 1, 1024]
-    - [920, 6770.75]
+    - [951, 6770.75]
   - - [18176, 8976, 1, 256]
-    - [927, 9729.57]
+    - [958, 9729.57]
   - - [256, 15104, 1, 1024]
-    - [916, 7289.18]
+    - [947, 7289.18]
   - - [8192, 8976, 1, 256]
-    - [919, 9395.59]
+    - [950, 9395.59]
   - - [256, 16128, 1, 1024]
-    - [919, 7461.38]
+    - [950, 7461.38]
   - - [13312, 8976, 1, 256]
-    - [927, 9551.07]
+    - [958, 9551.07]
   - - [256, 21504, 1, 1024]
-    - [924, 7636.03]
+    - [955, 7636.03]
   - - [6400, 8976, 1, 256]
-    - [911, 9561.06]
+    - [942, 9561.06]
   - - [256, 8960, 1, 1024]
-    - [886, 6292.46]
+    - [917, 6292.46]
   - - [1792, 8976, 1, 256]
-    - [901, 9372.28]
+    - [932, 9372.28]
   - - [13824, 8976, 1, 256]
-    - [919, 9585.37]
+    - [950, 9585.37]
   - - [11776, 8976, 1, 256]
-    - [919, 9560.44]
+    - [950, 9560.44]
   - - [256, 20992, 1, 1024]
-    - [917, 7490.75]
+    - [948, 7490.75]
   - - [20480, 8976, 1, 256]
-    - [927, 9610.8]
+    - [958, 9610.8]
   - - [5888, 8976, 1, 256]
-    - [898, 9565.3]
+    - [929, 9565.3]
   - - [256, 10496, 1, 1024]
-    - [889, 6632.06]
+    - [920, 6632.06]
   - - [21248, 8976, 1, 256]
-    - [919, 9755.87]
+    - [950, 9755.87]
   - - [5120, 8976, 1, 256]
-    - [927, 9244.69]
+    - [958, 9244.69]
   - - [7168, 8976, 1, 256]
-    - [919, 9388.52]
+    - [950, 9388.52]
   - - [2048, 1536, 1, 768]
-    - [908, 9446.14]
+    - [939, 9446.14]
   - - [256, 8192, 1, 1024]
-    - [913, 6948.99]
+    - [944, 6948.99]
   - - [4096, 8976, 1, 256]
-    - [918, 9116.04]
+    - [949, 9116.04]
   - - [3328, 8976, 1, 256]
-    - [911, 9434.65]
+    - [942, 9434.65]
   - - [1280, 8976, 1, 256]
-    - [909, 9129.9]
+    - [940, 9129.9]
   - - [2560, 8976, 1, 256]
-    - [906, 9199.58]
+    - [937, 9199.58]
   - - [3072, 8976, 1, 256]
-    - [921, 8963.7]
+    - [952, 8963.7]
   - - [256, 11776, 1, 1024]
-    - [899, 6869.9]
+    - [930, 6869.9]
   - - [18688, 8976, 1, 256]
-    - [927, 9726.31]
+    - [958, 9726.31]
   - - [15104, 8976, 1, 256]
-    - [927, 9715.81]
+    - [958, 9715.81]
   - - [23552, 8976, 1, 256]
-    - [919, 9648.52]
+    - [950, 9648.52]
   - - [6144, 8976, 1, 256]
-    - [927, 9339.9]
+    - [958, 9339.9]
   - - [12544, 8976, 1, 256]
-    - [927, 9654.55]
+    - [958, 9654.55]
   - - [256, 11264, 1, 1024]
-    - [900, 6815.08]
+    - [931, 6815.08]
   - - [2048, 114, 1, 512]
-    - [931, 4583.6]
+    - [962, 4583.6]
   - - [4352, 8976, 1, 256]
-    - [911, 9471.5]
+    - [942, 9471.5]
   - - [15360, 8976, 1, 256]
-    - [927, 9583.87]
+    - [958, 9583.87]
   - - [256, 31488, 1, 1024]
-    - [926, 8438.11]
+    - [957, 8438.11]
   - - [28672, 8976, 1, 256]
-    - [919, 9688.95]
+    - [950, 9688.95]
   - - [256, 18176, 1, 1024]
-    - [895, 7405.19]
+    - [926, 7405.19]
   - - [9728, 8976, 1, 256]
-    - [927, 9524.25]
+    - [958, 9524.25]
   - - [256, 2816, 1, 1024]
-    - [891, 5405.76]
+    - [922, 5405.76]
   - - [256, 18944, 1, 1024]
-    - [895, 7503.51]
+    - [926, 7503.51]
   - - [256, 3584, 1, 1024]
-    - [894, 6107.25]
+    - [925, 6107.25]
   - - [7936, 8976, 1, 256]
-    - [907, 9608.41]
+    - [938, 9608.41]
   - - [19712, 8976, 1, 256]
-    - [927, 9736.35]
+    - [958, 9736.35]
   - - [256, 14848, 1, 1024]
-    - [900, 7163.52]
+    - [931, 7163.52]
   - - [256, 8448, 1, 1024]
-    - [900, 6372.66]
+    - [931, 6372.66]
   - - [256, 6400, 1, 1024]
-    - [914, 6395.81]
+    - [945, 6395.81]
   - - [256, 6144, 1, 1024]
-    - [925, 6490.32]
+    - [956, 6490.32]
   - - [9472, 8976, 1, 256]
-    - [904, 9610.02]
+    - [935, 9610.02]
   - - [256, 9984, 1, 1024]
-    - [887, 6484.85]
+    - [918, 6484.85]
   - - [684, 8976, 1, 256]
-    - [896, 8128.63]
+    - [927, 8128.63]
   - - [20992, 8976, 1, 256]
-    - [919, 9689.75]
+    - [950, 9689.75]
   - - [2048, 684, 1, 512]
-    - [903, 7241.88]
+    - [934, 7241.88]
   - - [2048, 114, 1, 768]
-    - [929, 4872.56]
+    - [960, 4872.56]
   - - [8960, 8976, 1, 256]
-    - [902, 9603.45]
+    - [933, 9603.45]
   - - [2048, 1536, 1, 512]
-    - [905, 8830.21]
+    - [936, 8830.21]
   - - [256, 3328, 1, 1024]
-    - [893, 5612.65]
+    - [924, 5612.65]
   - - [33536, 8976, 1, 256]
-    - [919, 9797.81]
+    - [950, 9797.81]
   - - [2048, 8976, 1, 256]
-    - [919, 8975.56]
+    - [950, 8975.56]
   - - [10496, 8976, 1, 256]
-    - [910, 9654.53]
+    - [941, 9654.53]
   - - [256, 5376, 1, 1024]
-    - [928, 5626.44]
+    - [959, 5626.44]
   - - [256, 21248, 1, 1024]
-    - [897, 7525.55]
+    - [928, 7525.55]
   - - [256, 13312, 1, 1024]
-    - [895, 6767.21]
+    - [926, 6767.21]
   - - [16128, 8976, 1, 256]
-    - [919, 9715.67]
+    - [950, 9715.67]
   - - [2304, 8976, 1, 256]
-    - [892, 9433.93]
+    - [923, 9433.93]
   - - [256, 4864, 1, 1024]
-    - [882, 5743.65]
+    - [913, 5743.65]
   - - [17152, 8976, 1, 256]
-    - [927, 9709.04]
+    - [958, 9709.04]
   - - [15872, 8976, 1, 256]
-    - [927, 9657.67]
+    - [958, 9657.67]
   - - [9984, 8976, 1, 256]
-    - [904, 9639.84]
+    - [935, 9639.84]
   - - [256, 14592, 1, 1024]
-    - [916, 7224.02]
+    - [947, 7224.02]
   - - [256, 33536, 1, 1024]
-    - [923, 8147.41]
+    - [954, 8147.41]
   - - [11264, 8976, 1, 256]
-    - [919, 9510.06]
+    - [950, 9510.06]
   - - [31488, 8976, 1, 256]
-    - [927, 9799.41]
+    - [958, 9799.41]
   - - [256, 20480, 1, 1024]
-    - [900, 7498.3]
+    - [931, 7498.3]
   - - [44505, 8976, 1, 256]
-    - [911, 9804.88]
+    - [942, 9804.88]
   - - [13568, 8976, 1, 256]
-    - [919, 9680.34]
+    - [950, 9680.34]
   - - [256, 11520, 1, 1024]
-    - [899, 6805.36]
+    - [930, 6805.36]
   - - [256, 7936, 1, 1024]
-    - [915, 6971.87]
+    - [946, 6971.87]
   - - [2048, 256, 1, 768]
-    - [885, 7129.23]
+    - [916, 7129.23]
   - - [256, 4608, 1, 1024]
-    - [883, 5463.01]
+    - [914, 5463.01]
   - - [256, 2304, 1, 1024]
-    - [890, 4842.79]
+    - [921, 4842.79]
   - - [256, 2560, 1, 1024]
-    - [891, 5309.35]
+    - [922, 5309.35]
   - - [2816, 8976, 1, 256]
-    - [902, 9409.66]
+    - [933, 9409.66]
   - - [1728, 320, 1, 64]
-    - [938, 3205.67]
+    - [969, 3205.67]
   - - [1152, 128, 1, 784]
-    - [985, 3499.06]
+    - [1016, 3499.06]
   - - [576, 96, 1, 5329]
-    - [971, 3948.02]
+    - [1002, 3948.02]
   - - [864, 96, 1, 1225]
-    - [992, 3009.77]
+    - [1023, 3009.77]
   - - [256, 128, 1, 784]
-    - [982, 1536.59]
+    - [1013, 1536.59]
   - - [1440, 320, 1, 196]
-    - [935, 4824.72]
+    - [966, 4824.72]
   - - [192, 48, 1, 1225]
-    - [1013, 820.565]
+    - [1044, 820.565]
   - - [2592, 384, 1, 289]
-    - [953, 7353.11]
+    - [984, 7353.11]
   - - [192, 80, 36, 10368]
-    - [1003, 5360.14]
+    - [1034, 5360.14]
   - - [896, 192, 1, 289]
-    - [970, 3076.66]
+    - [1001, 3076.66]
   - - [768, 128, 1, 289]
-    - [995, 2351.91]
+    - [1026, 2351.91]
   - - [64, 256, 1, 3136]
-    - [1021, 1809.26]
+    - [1052, 1809.26]
   - - [1280, 384, 1, 64]
-    - [935, 3171.2]
+    - [966, 3171.2]
   - - [512, 144, 1, 196]
-    - [993, 1445.17]
+    - [1024, 1445.17]
   - - [1344, 192, 1, 289]
-    - [976, 4376.62]
+    - [1007, 4376.62]
   - - [288, 64, 1, 21609]
-    - [987, 3396.22]
+    - [1018, 3396.22]
   - - [400, 32, 1, 784]
-    - [1014, 922.453]
+    - [1045, 922.453]
   - - [288, 32, 1, 21609]
-    - [1025, 2816.11]
+    - [1056, 2816.11]
   - - [1280, 448, 1, 64]
-    - [938, 3253.66]
+    - [969, 3253.66]
   - - [3456, 256, 1, 169]
-    - [950, 5822.54]
+    - [981, 5822.54]
   - - [2304, 256, 1, 196]
-    - [948, 4932.08]
+    - [979, 4932.08]
   - - [384, 192, 1, 1225]
-    - [996, 2720.49]
+    - [1027, 2720.49]
   - - [832, 48, 1, 49]
-    - [991, 344.618]
+    - [1022, 344.618]
   - - [832, 192, 1, 49]
-    - [973, 1099.46]
+    - [1004, 1099.46]
   - - [1280, 192, 1, 64]
-    - [974, 2069.66]
+    - [1005, 2069.66]
   - - [192, 32, 1, 784]
-    - [1013, 459.727]
+    - [1044, 459.727]
   - - [288, 48, 1, 1225]
-    - [1020, 1176.1]
+    - [1051, 1176.1]
   - - [512, 112, 1, 196]
-    - [988, 1277.31]
+    - [1019, 1277.31]
   - - [224, 192, 36, 2592]
-    - [1005, 7369.66]
+    - [1036, 7369.66]
   - - [528, 32, 1, 196]
-    - [979, 440.474]
+    - [1010, 440.474]
   - - [192, 128, 36, 1568]
-    - [1004, 8245.86]
+    - [1035, 8245.86]
   - - [4032, 384, 1, 64]
-    - [949, 5898.34]
+    - [980, 5898.34]
   - - [576, 64, 1, 3136]
-    - [994, 2671.21]
+    - [1025, 2671.21]
   - - [2048, 32, 1, 1001]
-    - [996, 2323.1]
+    - [1027, 2323.1]
   - - [480, 64, 1, 196]
-    - [981, 752.74]
+    - [1012, 752.74]
   - - [512, 256, 1, 196]
-    - [983, 2528.65]
+    - [1014, 2528.65]
   - - [864, 96, 1, 289]
-    - [993, 1958.5]
+    - [1024, 1958.5]
   - - [896, 128, 1, 289]
-    - [996, 2725.83]
+    - [1027, 2725.83]
   - - [192, 64, 1, 784]
-    - [1011, 898.775]
+    - [1042, 898.775]
   - - [1200, 64, 1, 1225]
-    - [995, 2780.24]
+    - [1026, 2780.24]
   - - [1296, 288, 1, 196]
-    - [934, 3826.28]
+    - [965, 3826.28]
   - - [576, 96, 1, 5041]
-    - [975, 3795.68]
+    - [1006, 3795.68]
   - - [1024, 256, 1, 289]
-    - [964, 4488.23]
+    - [995, 4488.23]
   - - [1024, 2048, 1, 49]
-    - [954, 5077.2]
+    - [985, 5077.2]
   - - [192, 64, 36, 6272]
-    - [998, 7515.08]
+    - [1029, 7515.08]
   - - [4096, 512, 1, 4096]
-    - [960, 10276.1]
+    - [991, 10276.1]
   - - [192, 32, 1, 1225]
-    - [1014, 556.786]
+    - [1045, 556.786]
   - - [1024, 256, 1, 196]
-    - [974, 3892.54]
+    - [1005, 3892.54]
   - - [1120, 192, 1, 289]
-    - [963, 3752.91]
+    - [994, 3752.91]
   - - [400, 48, 1, 196]
-    - [988, 480.1]
+    - [1019, 480.1]
   - - [1728, 224, 1, 1225]
-    - [941, 5575.87]
+    - [972, 5575.87]
   - - [800, 96, 1, 784]
-    - [995, 2669.04]
+    - [1026, 2669.04]
   - - [1152, 384, 1, 64]
-    - [945, 3077.44]
+    - [976, 3077.44]
   - - [4608, 512, 1, 49]
-    - [952, 4676.7]
+    - [983, 4676.7]
   - - [1792, 256, 1, 289]
-    - [945, 5346.04]
+    - [976, 5346.04]
   - - [864, 128, 1, 784]
-    - [995, 3816.3]
+    - [1026, 3816.3]
   - - [1728, 384, 1, 169]
-    - [947, 5191.78]
+    - [978, 5191.78]
   - - [480, 16, 1, 196]
-    - [1016, 241.331]
+    - [1047, 241.331]
   - - [1568, 256, 1, 289]
-    - [935, 4723.51]
+    - [966, 4723.51]
   - - [1152, 448, 1, 64]
-    - [941, 3356.82]
+    - [972, 3356.82]
   - - [512, 64, 1, 196]
-    - [980, 802.916]
+    - [1011, 802.916]
   - - [1344, 224, 1, 289]
-    - [935, 3519.73]
+    - [966, 3519.73]
   - - [9216, 512, 1, 4096]
-    - [958, 9146.12]
+    - [989, 9146.12]
   - - [27, 32, 1, 22201]
-    - [1026, 264.456]
+    - [1057, 264.456]
   - - [1152, 192, 1, 784]
-    - [965, 4904.18]
+    - [996, 4904.18]
   - - [1536, 256, 1, 64]
-    - [933, 2578.57]
+    - [964, 2578.57]
   - - [800, 128, 1, 196]
-    - [995, 1991.21]
+    - [1026, 1991.21]
   - - [800, 64, 1, 196]
-    - [990, 1150.93]
+    - [1021, 1150.93]
   - - [864, 208, 1, 196]
-    - [967, 2684.82]
+    - [998, 2684.82]
   - - [1440, 320, 1, 49]
-    - [936, 2313.54]
+    - [967, 2313.54]
   - - [512, 128, 1, 784]
-    - [986, 2780.42]
+    - [1017, 2780.42]
   - - [720, 192, 1, 5041]
-    - [961, 5410.56]
+    - [992, 5410.56]
   - - [256, 64, 1, 784]
-    - [1018, 1163.6]
+    - [1049, 1163.6]
   - - [256, 48, 1, 1225]
-    - [1013, 1075.3]
+    - [1044, 1075.3]
   - - [576, 192, 1, 3136]
-    - [961, 4833.11]
+    - [992, 4833.11]
   - - [160, 64, 1, 5329]
-    - [1015, 1753.6]
+    - [1046, 1753.6]
   - - [3456, 384, 1, 289]
-    - [955, 7341.85]
+    - [986, 7341.85]
   - - [32, 32, 36, 43808]
-    - [1009, 1378.13]
+    - [1040, 1378.13]
   - - [1344, 512, 1, 64]
-    - [934, 3823.03]
+    - [965, 3823.03]
   - - [192, 16, 1, 784]
-    - [1014, 228.173]
+    - [1045, 228.173]
   - - [3456, 384, 1, 169]
-    - [951, 6675.12]
+    - [982, 6675.12]
   - - [1152, 256, 1, 196]
-    - [944, 3211.36]
+    - [975, 3211.36]
   - - [1728, 192, 1, 1225]
-    - [945, 4852.36]
+    - [976, 4852.36]
   - - [2048, 512, 1, 49]
-    - [957, 3471.74]
+    - [988, 3471.74]
   - - [576, 96, 1, 1225]
-    - [988, 2176.76]
+    - [1019, 2176.76]
   - - [512, 2048, 1, 49]
-    - [939, 3845.93]
+    - [970, 3845.93]
   - - [1728, 192, 1, 64]
-    - [934, 2369.93]
+    - [965, 2369.93]
   - - [832, 256, 1, 49]
-    - [964, 1433.7]
+    - [995, 1433.7]
   - - [512, 128, 1, 196]
-    - [989, 1459.77]
+    - [1020, 1459.77]
   - - [1200, 128, 1, 49]
-    - [984, 1069.19]
+    - [1015, 1069.19]
   - - [528, 256, 1, 196]
-    - [972, 2069.86]
+    - [1003, 2069.86]
   - - [256, 512, 1, 784]
-    - [995, 4538.99]
+    - [1026, 4538.99]
   - - [480, 192, 1, 196]
-    - [995, 1792.1]
+    - [1026, 1792.1]
   - - [96, 64, 36, 2592]
-    - [1002, 4845.51]
+    - [1033, 4845.51]
   - - [96, 96, 36, 2592]
-    - [1007, 5111.63]
+    - [1038, 5111.63]
   - - [1024, 192, 1, 289]
-    - [969, 3431.24]
+    - [1000, 3431.24]
   - - [1536, 384, 1, 64]
-    - [940, 3166.94]
+    - [971, 3166.94]
   - - [192, 96, 1, 784]
-    - [980, 881.24]
+    - [1011, 881.24]
   - - [2048, 192, 1, 64]
-    - [937, 2330.27]
+    - [968, 2330.27]
   - - [192, 64, 1, 1225]
-    - [1019, 1100.45]
+    - [1050, 1100.45]
   - - [512, 32, 1, 196]
-    - [1010, 477.967]
+    - [1041, 477.967]
   - - [128, 96, 36, 1568]
-    - [1006, 6649.19]
+    - [1037, 6649.19]
   - - [528, 128, 1, 196]
-    - [992, 1403.33]
+    - [1023, 1403.33]
   - - [128, 512, 1, 784]
-    - [982, 2237.91]
+    - [1013, 2237.91]
   - - [128, 128, 36, 3136]
-    - [999, 6538.87]
+    - [1030, 6538.87]
   - - [528, 160, 1, 196]
-    - [996, 1642.77]
+    - [1027, 1642.77]
   - - [448, 64, 1, 5329]
-    - [971, 3264.91]
+    - [1002, 3264.91]
   - - [1280, 320, 1, 64]
-    - [935, 2777.05]
+    - [966, 2777.05]
   - - [1792, 320, 1, 289]
-    - [947, 5205.0]
+    - [978, 5205.0]
   - - [2880, 320, 1, 64]
-    - [943, 4337.04]
+    - [974, 4337.04]
   - - [147, 64, 1, 12544]
-    - [1024, 2430.37]
+    - [1055, 2430.37]
   - - [4096, 512, 1, 1001]
-    - [959, 9619.09]
+    - [990, 9619.09]
   - - [1536, 32, 1, 1001]
-    - [996, 1757.28]
+    - [1027, 1757.28]
   - - [512, 160, 1, 196]
-    - [992, 1592.99]
+    - [1023, 1592.99]
   - - [768, 160, 1, 289]
-    - [993, 2757.27]
+    - [1024, 2757.27]
   - - [1728, 384, 1, 49]
-    - [945, 3102.59]
+    - [976, 3102.59]
   - - [64, 32, 36, 43808]
-    - [1000, 2626.53]
+    - [1031, 2626.53]
   - - [64, 64, 1, 3136]
-    - [1012, 610.606]
+    - [1043, 610.606]
   - - [256, 32, 1, 784]
-    - [1013, 612.937]
+    - [1044, 612.937]
   - - [480, 96, 1, 196]
-    - [988, 1055.2]
+    - [1019, 1055.2]
   - - [1024, 32, 1, 1001]
-    - [978, 1188.53]
+    - [1009, 1188.53]
   - - [832, 160, 1, 49]
-    - [993, 959.347]
+    - [1024, 959.347]
   - - [512, 1024, 1, 196]
-    - [936, 4978.8]
-  - - [96, 64, 36, 10368]
-    - [1030, 5001.05]
-  - - [384, 448, 36, 512]
-    - [1035, 8903.1]
+    - [967, 4978.8]
   - - [2048, 64, 1, 1001]
-    - [1028, 4385.23]
-  - - [224, 192, 36, 5184]
-    - [1034, 7487.91]
+    - [1059, 4385.23]
   - - [2048, 128, 1, 1001]
-    - [1027, 5764.73]
-  - - [96, 96, 36, 10368]
-    - [1036, 5275.31]
-  - - [192, 80, 36, 20736]
-    - [1032, 5409.5]
-  - - [96, 64, 36, 5184]
-    - [1030, 4911.93]
+    - [1058, 5764.73]
   - - [1536, 64, 1, 1001]
-    - [1029, 3162.13]
-  - - [96, 64, 36, 20736]
-    - [1031, 5034.43]
+    - [1060, 3162.13]
+  - - [32, 32, 64, 40000]
+    - [1094, 2449.5]
+  - - [224, 192, 36, 5184]
+    - [1089, 7500.22]
+  - - [32, 32, 49, 115200]
+    - [1095, 1878.38]
+  - - [384, 448, 49, 512]
+    - [1085, 8945.42]
+  - - [192, 80, 36, 20736]
+    - [1083, 5412.36]
+  - - [384, 448, 64, 256]
+    - [1086, 9230.43]
+  - - [96, 64, 64, 18432]
+    - [1070, 5008.5]
+  - - [224, 192, 64, 4608]
+    - [1089, 8684.63]
+  - - [96, 96, 49, 3136]
+    - [1093, 5183.73]
+  - - [224, 192, 64, 2304]
+    - [1085, 8722.86]
+  - - [64, 32, 49, 57600]
+    - [1075, 3565.36]
   - - [384, 448, 36, 256]
-    - [1033, 8815.97]
+    - [1084, 8843.51]
+  - - [96, 64, 36, 10368]
+    - [1077, 4997.56]
+  - - [96, 64, 36, 20736]
+    - [1079, 5034.87]
+  - - [192, 80, 49, 14400]
+    - [1075, 4892.32]
+  - - [96, 64, 49, 6272]
+    - [1096, 5617.14]
+  - - [64, 32, 49, 115200]
+    - [1074, 3572.67]
+  - - [384, 448, 49, 256]
+    - [1087, 8858.76]
+  - - [96, 96, 64, 2304]
+    - [1083, 5379.12]
+  - - [96, 96, 49, 6272]
+    - [1092, 5235.86]
+  - - [224, 192, 49, 6272]
+    - [1088, 7629.38]
+  - - [96, 96, 36, 10368]
+    - [1091, 5281.14]
+  - - [96, 64, 36, 5184]
+    - [1076, 4945.83]
+  - - [384, 448, 64, 512]
+    - [1084, 9294.96]
+  - - [224, 192, 49, 3136]
+    - [1088, 7513.5]
+  - - [384, 448, 36, 512]
+    - [1090, 8961.48]
+  - - [32, 32, 36, 175232]
+    - [1098, 1385.6]
+  - - [224, 192, 36, 10368]
+    - [1089, 7565.83]
+  - - [64, 32, 64, 40000]
+    - [1074, 4658.95]
+  - - [96, 64, 64, 4608]
+    - [1073, 5461.7]
+  - - [32, 32, 49, 57600]
+    - [1095, 1877.11]
+  - - [192, 80, 36, 41472]
+    - [1081, 5123.69]
+  - - [32, 32, 36, 87616]
+    - [1094, 1382.42]
+  - - [192, 80, 49, 28800]
+    - [1074, 4902.05]
+  - - [96, 64, 49, 28800]
+    - [1071, 4862.6]
+  - - [96, 64, 36, 41472]
+    - [1078, 5002.36]
+  - - [192, 80, 64, 9216]
+    - [1069, 5300.65]
   - - [96, 96, 36, 5184]
-    - [1037, 5236.12]
+    - [1091, 5246.34]
+  - - [32, 32, 64, 80000]
+    - [1099, 2457.21]
+  - - [96, 64, 64, 2304]
+    - [1097, 6225.84]
+  - - [96, 64, 49, 3136]
+    - [1096, 5489.12]
+  - - [64, 32, 36, 87616]
+    - [1074, 2636.39]
+  - - [64, 32, 64, 80000]
+    - [1074, 4677.74]
+  - - [96, 96, 64, 4608]
+    - [1080, 5119.73]
+  - - [64, 32, 36, 175232]
+    - [1075, 2639.93]
 - null
diff --git a/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Ailk_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Ailk_BjlkC_CB.yaml
new file mode 100644
index 000000000..a18db1e4e
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Ailk_BjlkC_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 95.3262]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 95.4262]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Ailk_BjlkC_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Ailk_BjlkC_ZB.yaml
new file mode 100644
index 000000000..e0bd43b74
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Ailk_BjlkC_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 74.2624]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 74.3624]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Ailk_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Ailk_Bjlk_CB.yaml
new file mode 100644
index 000000000..45ba1e705
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Ailk_Bjlk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 98.1813]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 98.28129999999999]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Ailk_Bjlk_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Ailk_Bjlk_ZB.yaml
new file mode 100644
index 000000000..3e8e40558
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Ailk_Bjlk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 55.1309]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 55.2309]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Ailk_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Ailk_Bljk_CB.yaml
new file mode 100644
index 000000000..fea9d7cb1
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Ailk_Bljk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 86.661]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 86.761]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Ailk_Bljk_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Ailk_Bljk_ZB.yaml
new file mode 100644
index 000000000..ca8209d1c
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Ailk_Bljk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 73.8434]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 73.9434]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_AlikC_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_AlikC_BjlkC_CB.yaml
new file mode 100644
index 000000000..2a713ef20
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_AlikC_BjlkC_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 98.5504]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 98.65039999999999]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_AlikC_BjlkC_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_AlikC_BjlkC_ZB.yaml
new file mode 100644
index 000000000..fd7d3c6b5
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_AlikC_BjlkC_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: true
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 63.1677]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 63.267700000000005]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_AlikC_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_AlikC_Bjlk_CB.yaml
new file mode 100644
index 000000000..8076baf2b
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_AlikC_Bjlk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 87.091]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 87.19099999999999]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_AlikC_Bjlk_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_AlikC_Bjlk_ZB.yaml
new file mode 100644
index 000000000..eaa83de6f
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_AlikC_Bjlk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 67.477]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 67.577]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_AlikC_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_AlikC_Bljk_CB.yaml
new file mode 100644
index 000000000..edfeff8e1
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_AlikC_Bljk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 100.055]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 100.155]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_AlikC_Bljk_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_AlikC_Bljk_ZB.yaml
new file mode 100644
index 000000000..c7193004b
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_AlikC_Bljk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 54.614]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 54.714]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Alik_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Alik_BjlkC_CB.yaml
new file mode 100644
index 000000000..58f790973
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Alik_BjlkC_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 95.3251]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 95.4251]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Alik_BjlkC_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Alik_BjlkC_ZB.yaml
new file mode 100644
index 000000000..c3cc687af
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Alik_BjlkC_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 68.8053]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 68.9053]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Alik_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Alik_Bjlk_CB.yaml
new file mode 100644
index 000000000..021645d68
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Alik_Bjlk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 95.4998]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 95.59979999999999]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Alik_Bjlk_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Alik_Bjlk_ZB.yaml
new file mode 100644
index 000000000..3d4595e89
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Alik_Bjlk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 54.1627]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 54.2627]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Alik_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Alik_Bljk_CB.yaml
new file mode 100644
index 000000000..beeaa8416
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Alik_Bljk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 83.8878]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 83.9878]
+- null
diff --git a/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Alik_Bljk_ZB.yaml b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Alik_Bljk_ZB.yaml
new file mode 100644
index 000000000..d532fa4ad
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/asm_lite/hip_Cijk_Alik_Bljk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 72.1173]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 72.2173]
+- null
diff --git a/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Ailk_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Ailk_BjlkC_CB.yaml
new file mode 100644
index 000000000..a18db1e4e
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Ailk_BjlkC_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 95.3262]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 95.4262]
+- null
diff --git a/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Ailk_BjlkC_ZB.yaml b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Ailk_BjlkC_ZB.yaml
new file mode 100644
index 000000000..e0bd43b74
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Ailk_BjlkC_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 74.2624]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 74.3624]
+- null
diff --git a/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Ailk_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Ailk_Bjlk_CB.yaml
new file mode 100644
index 000000000..45ba1e705
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Ailk_Bjlk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 98.1813]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 98.28129999999999]
+- null
diff --git a/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Ailk_Bjlk_ZB.yaml b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Ailk_Bjlk_ZB.yaml
new file mode 100644
index 000000000..3e8e40558
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Ailk_Bjlk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 32
+    LSPA: 8
+    LSPB: 8
+    LVCA: 32
+    LVCB: 32
+    LVPA: 8
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 55.1309]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 55.2309]
+- null
diff --git a/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Ailk_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Ailk_Bljk_CB.yaml
new file mode 100644
index 000000000..fea9d7cb1
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Ailk_Bljk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 86.661]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 86.761]
+- null
diff --git a/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Ailk_Bljk_ZB.yaml b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Ailk_Bljk_ZB.yaml
new file mode 100644
index 000000000..ca8209d1c
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Ailk_Bljk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [0, 3, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 1
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: true
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: false
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Ailk_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 32
+    LSCB: 8
+    LSPA: 8
+    LSPB: 32
+    LVCA: 32
+    LVCB: 8
+    LVPA: 8
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [0, 3, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 1
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: true
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: false
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Ailk_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 73.8434]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 73.9434]
+- null
diff --git a/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_AlikC_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_AlikC_BjlkC_CB.yaml
new file mode 100644
index 000000000..2a713ef20
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_AlikC_BjlkC_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 98.5504]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 98.65039999999999]
+- null
diff --git a/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_AlikC_BjlkC_ZB.yaml b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_AlikC_BjlkC_ZB.yaml
new file mode 100644
index 000000000..fd7d3c6b5
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_AlikC_BjlkC_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: true
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 63.1677]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 63.267700000000005]
+- null
diff --git a/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_AlikC_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_AlikC_Bjlk_CB.yaml
new file mode 100644
index 000000000..8076baf2b
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_AlikC_Bjlk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 87.091]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 87.19099999999999]
+- null
diff --git a/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_AlikC_Bjlk_ZB.yaml b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_AlikC_Bjlk_ZB.yaml
new file mode 100644
index 000000000..eaa83de6f
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_AlikC_Bjlk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 67.477]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 67.577]
+- null
diff --git a/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_AlikC_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_AlikC_Bljk_CB.yaml
new file mode 100644
index 000000000..edfeff8e1
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_AlikC_Bljk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 100.055]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 100.155]
+- null
diff --git a/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_AlikC_Bljk_ZB.yaml b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_AlikC_Bljk_ZB.yaml
new file mode 100644
index 000000000..c7193004b
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_AlikC_Bljk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: true
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_AlikC_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: true
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_AlikC_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 54.614]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 54.714]
+- null
diff --git a/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Alik_BjlkC_CB.yaml b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Alik_BjlkC_CB.yaml
new file mode 100644
index 000000000..58f790973
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Alik_BjlkC_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_BjlkC_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 95.3251]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 95.4251]
+- null
diff --git a/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Alik_BjlkC_ZB.yaml b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Alik_BjlkC_ZB.yaml
new file mode 100644
index 000000000..c3cc687af
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Alik_BjlkC_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: true
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: true
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_BjlkC_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 68.8053]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 68.9053]
+- null
diff --git a/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Alik_Bjlk_CB.yaml b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Alik_Bjlk_CB.yaml
new file mode 100644
index 000000000..021645d68
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Alik_Bjlk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bjlk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 95.4998]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 95.59979999999999]
+- null
diff --git a/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Alik_Bjlk_ZB.yaml b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Alik_Bjlk_ZB.yaml
new file mode 100644
index 000000000..3d4595e89
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Alik_Bjlk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [1, 3, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 1
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: true
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: true
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 32
+    LSPA: 32
+    LSPB: 8
+    LVCA: 8
+    LVCB: 32
+    LVPA: 32
+    LVPB: 8
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [1, 3, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 1
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: true
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: true
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bjlk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 54.1627]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 54.2627]
+- null
diff --git a/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Alik_Bljk_CB.yaml b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Alik_Bljk_CB.yaml
new file mode 100644
index 000000000..beeaa8416
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Alik_Bljk_CB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 2
+  DataType: 2
+  DestDataType: 2
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 2
+      DataType: 2
+      DestDataType: 2
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bljk_CB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 2
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 83.8878]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 83.9878]
+- null
diff --git a/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Alik_Bljk_ZB.yaml b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Alik_Bljk_ZB.yaml
new file mode 100644
index 000000000..d532fa4ad
--- /dev/null
+++ b/library/src/blas3/Tensile/Logic/hip_lite/hip_Cijk_Alik_Bljk_ZB.yaml
@@ -0,0 +1,395 @@
+- {MinimumRequiredVersion: 4.10.0}
+- hip
+- fallback
+- [Device 0000]
+- AssignedDerivedParameters: true
+  Batched: true
+  ComplexConjugateA: false
+  ComplexConjugateB: false
+  ComputeDataType: 3
+  DataType: 3
+  DestDataType: 3
+  HighPrecisionAccumulate: false
+  Index0: 0
+  Index01A: 0
+  Index01B: 1
+  Index1: 1
+  IndexAssignmentsA: [3, 0, 2]
+  IndexAssignmentsB: [3, 1, 2]
+  IndexAssignmentsLD: [4, 5, 6, 7]
+  IndexUnroll: 3
+  IndexUnrollA: 0
+  IndexUnrollB: 0
+  IndicesBatch: [2]
+  IndicesFree: [0, 1]
+  IndicesSummation: [3]
+  NumIndicesBatch: 1
+  NumIndicesC: 3
+  NumIndicesFree: 2
+  NumIndicesLD: 4
+  NumIndicesSummation: 1
+  OperationType: GEMM
+  SetConstStrideA: []
+  SilentHighPrecisionAccumulate: false
+  TLUA: false
+  TLUB: false
+  Tensor0: 0
+  Tensor1: 1
+  TileA: 0
+  TileAwareSelection: false
+  TileB: 1
+  TotalIndices: 4
+  TransposeA: true
+  TransposeB: false
+  UseBeta: true
+  UseInitialStrides: false
+- - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: true
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 0
+    SolutionNameMin: Cijk_Alik_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+  - AggressivePerfMode: 1
+    AssertFree0ElementMultiple: 1
+    AssertFree1ElementMultiple: 1
+    AssertMinApproxSize: 0
+    AssertSummationElementMultiple: 1
+    AssignedDerivedParameters: false
+    AssignedProblemIndependentDerivedParameters: true
+    BufferLoad: false
+    BufferStore: true
+    CheckDimOverflow: 0
+    CheckTensorDimAsserts: false
+    DepthU: 8
+    DirectToLds: false
+    DirectToLdsA: false
+    DirectToLdsB: false
+    DisableKernelPieces: 0
+    EdgeType: ShiftPtr
+    ExpandPointerSwap: false
+    FractionalLoad: false
+    GlobalLoadVectorWidthA: 1
+    GlobalLoadVectorWidthB: 1
+    GlobalRead2A: true
+    GlobalRead2B: true
+    GlobalReadCoalesceGroupA: true
+    GlobalReadCoalesceGroupB: true
+    GlobalReadCoalesceVectorA: true
+    GlobalReadCoalesceVectorB: true
+    GlobalReadVectorWidth: 1
+    GlobalSplitU: 1
+    GlobalSplitUSummationAssignmentRoundRobin: true
+    GlobalSplitUWorkGroupMappingRoundRobin: false
+    GlobalWriteVectorWidth: 1
+    GuaranteeNoPartialA: true
+    GuaranteeNoPartialB: true
+    InnerUnroll: 1
+    InterleaveAlpha: 0
+    KernelLanguage: Source
+    LSCA: 8
+    LSCB: 8
+    LSPA: 32
+    LSPB: 32
+    LVCA: 8
+    LVCB: 8
+    LVPA: 32
+    LVPB: 32
+    LdcEqualsLdd: false
+    LdsNumElements: 1024
+    LdsNumElementsAlignedA: 256
+    LdsNumElementsAlignedB: 256
+    LdsOffsetA: 0
+    LdsOffsetA_Blk: 512
+    LdsOffsetB: 256
+    LdsOffsetB_Blk: 768
+    LdsPadA: 0
+    LdsPadB: 0
+    LocalDotLayout: 1
+    LocalRead2A: true
+    LocalRead2B: true
+    LocalSplitU: 1
+    LocalWrite2A: true
+    LocalWrite2B: true
+    LocalWriteUseSgprA: false
+    LocalWriteUseSgprB: false
+    LoopDoWhile: false
+    LoopTail: true
+    LoopUnroll: 8
+    MacroTile0: 32
+    MacroTile1: 32
+    MacroTileA: 32
+    MacroTileB: 32
+    MacroTileShapeMax: 64
+    MacroTileShapeMin: 1
+    MaxOccupancy: 40
+    MaxVgprNumber: 256
+    MinGlobalWriteVectorWidth: 1
+    MinVgprNumber: 0
+    NonTemporalA: 0
+    NonTemporalB: 0
+    NonTemporalC: 0
+    NumElementsPerThread: 4
+    NumGlobalWriteVectorsPerThread: 4
+    NumLoadsA: 1
+    NumLoadsB: 1
+    NumLoadsCoalescedA: 1
+    NumLoadsCoalescedB: 1
+    NumLoadsPerpendicularA: 1
+    NumLoadsPerpendicularB: 1
+    NumThreads: 256
+    OptNoLoadLoop: 1
+    PackBatchDims: 0
+    PackFreeDims: 1
+    PackGranularity: 2
+    PackedC0Indices: [I]
+    PackedC1Indices: [J]
+    PerformanceSyncLocation: -1
+    PerformanceWaitCount: -1
+    PerformanceWaitLocation: -1
+    PersistentKernel: 0
+    PrefetchAcrossPersistent: 0
+    PrefetchGlobalRead: true
+    PrefetchLocalRead: true
+    ProblemType:
+      AssignedDerivedParameters: true
+      Batched: true
+      ComplexConjugateA: false
+      ComplexConjugateB: false
+      ComputeDataType: 3
+      DataType: 3
+      DestDataType: 3
+      HighPrecisionAccumulate: false
+      Index0: 0
+      Index01A: 0
+      Index01B: 1
+      Index1: 1
+      IndexAssignmentsA: [3, 0, 2]
+      IndexAssignmentsB: [3, 1, 2]
+      IndexAssignmentsLD: [4, 5, 6, 7]
+      IndexUnroll: 3
+      IndexUnrollA: 0
+      IndexUnrollB: 0
+      IndicesBatch: [2]
+      IndicesFree: [0, 1]
+      IndicesSummation: [3]
+      NumIndicesBatch: 1
+      NumIndicesC: 3
+      NumIndicesFree: 2
+      NumIndicesLD: 4
+      NumIndicesSummation: 1
+      OperationType: GEMM
+      SetConstStrideA: []
+      SilentHighPrecisionAccumulate: false
+      TLUA: false
+      TLUB: false
+      Tensor0: 0
+      Tensor1: 1
+      TileA: 0
+      TileAwareSelection: false
+      TileB: 1
+      TotalIndices: 4
+      TransposeA: true
+      TransposeB: false
+      UseBeta: true
+      UseInitialStrides: false
+    ReplacementKernel: false
+    ScheduleGlobalRead: 1
+    ScheduleIterAlg: 1
+    ScheduleLocalWrite: 1
+    SolutionIndex: 1
+    SolutionNameMin: Cijk_Alik_Bljk_ZB_MT32x32x8_SE_
+    StaggerU: 32
+    StaggerUMapping: 0
+    StaggerUStride: 256
+    SubGroup0: 16
+    SubGroup1: 16
+    SubGroupA: 16
+    SubGroupB: 16
+    SuppressNoLoadLoop: false
+    ThreadTile: [2, 2]
+    ThreadTile0: 2
+    ThreadTile1: 2
+    ThreadTileA: 2
+    ThreadTileB: 2
+    UnrollMemFence: false
+    UseSgprForGRO: 0
+    Valid: true
+    VectorAtomicWidth: 1
+    VectorStore: true
+    VectorWidth: 1
+    WorkGroup: [16, 16, 1]
+    WorkGroupMapping: 8
+    WorkGroupMappingType: B
+    _staggerStrideShift: 1
+- [2, 3, 0, 1]
+- - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [0, 72.1173]
+  - - [64, 64, 2, 64, 64, 64, 64, 64]
+    - [1, 72.2173]
+- null
diff --git a/library/src/blas3/Tensile/gemm.cpp b/library/src/blas3/Tensile/gemm.cpp
index d8a1e9faa..21f625fd7 100644
--- a/library/src/blas3/Tensile/gemm.cpp
+++ b/library/src/blas3/Tensile/gemm.cpp
@@ -9,34 +9,6 @@
 #include "utility.h"
 #include <sys/time.h>
 
-/*******************************************************************************
- * Helper enumeration over different transpose combinations
- ******************************************************************************/
-typedef enum transpose_mode_
-{
-    // First letter refers to A, second letter refers to B
-    NN,
-    NT,
-    TN,
-    TT
-} transpose_mode;
-
-constexpr transpose_mode GetTransposeMode(rocblas_operation trans_a, rocblas_operation trans_b)
-{
-    if(trans_a == rocblas_operation_none)
-    {
-        if(trans_b == rocblas_operation_none)
-            return NN;
-        return NT;
-    }
-    else
-    {
-        if(trans_b == rocblas_operation_none)
-            return TN;
-        return TT;
-    }
-}
-
 /*******************************************************************************
  * Tensile Solution Name (debug only)
  ******************************************************************************/
@@ -54,83 +26,510 @@ const char* tensileGetSolutionName(rocblas_operation trans_a,
                                    rocblas_int       sizeK,
                                    rocblas_int       sizeL)
 {
+    return "";
+};
+
 // This macro condenses all the identical arguments to the various
 // tensileGetSolutionName function calls for consistency / brevity
 #define TENSILE_ARG_NAMES                                                                         \
     strideC1, strideC2, strideC1, strideC2, strideA1, strideA2, strideB1, strideB2, sizeI, sizeJ, \
         sizeK, sizeL
 
-    transpose_mode transposeMode = GetTransposeMode(trans_a, trans_b);
+template <>
+const char* tensileGetSolutionName<rocblas_half>(rocblas_operation trans_a,
+                                                 rocblas_operation trans_b,
+                                                 rocblas_int       strideC1,
+                                                 rocblas_int       strideC2,
+                                                 rocblas_int       strideA1,
+                                                 rocblas_int       strideA2,
+                                                 rocblas_int       strideB1,
+                                                 rocblas_int       strideB2,
+                                                 rocblas_int       sizeI,
+                                                 rocblas_int       sizeJ,
+                                                 rocblas_int       sizeK,
+                                                 rocblas_int       sizeL)
+{
+    switch(GetTransposeMode(trans_a, trans_b))
+    {
+    case NN:
+        return tensileGetSolutionName_Cijk_Ailk_Bljk_HB(TENSILE_ARG_NAMES);
+    case NT:
+    case NC:
+        return tensileGetSolutionName_Cijk_Ailk_Bjlk_HB(TENSILE_ARG_NAMES);
+    case TN:
+    case CN:
+        return tensileGetSolutionName_Cijk_Alik_Bljk_HB(TENSILE_ARG_NAMES);
+    case TT:
+    case TC:
+    case CT:
+    case CC:
+        return tensileGetSolutionName_Cijk_Alik_Bjlk_HB(TENSILE_ARG_NAMES);
+    }
+}
 
-    if(std::is_same<T, rocblas_half>{})
+template <>
+const char* tensileGetSolutionName<float>(rocblas_operation trans_a,
+                                          rocblas_operation trans_b,
+                                          rocblas_int       strideC1,
+                                          rocblas_int       strideC2,
+                                          rocblas_int       strideA1,
+                                          rocblas_int       strideA2,
+                                          rocblas_int       strideB1,
+                                          rocblas_int       strideB2,
+                                          rocblas_int       sizeI,
+                                          rocblas_int       sizeJ,
+                                          rocblas_int       sizeK,
+                                          rocblas_int       sizeL)
+{
+    switch(GetTransposeMode(trans_a, trans_b))
     {
-        switch(transposeMode)
-        {
-        case NN:
-            return tensileGetSolutionName_Cijk_Ailk_Bljk_HB(TENSILE_ARG_NAMES);
-        case NT:
-            return tensileGetSolutionName_Cijk_Ailk_Bjlk_HB(TENSILE_ARG_NAMES);
-        case TN:
-            return tensileGetSolutionName_Cijk_Alik_Bljk_HB(TENSILE_ARG_NAMES);
-        case TT:
-            return tensileGetSolutionName_Cijk_Alik_Bjlk_HB(TENSILE_ARG_NAMES);
-        }
+    case NN:
+        return tensileGetSolutionName_Cijk_Ailk_Bljk_SB(TENSILE_ARG_NAMES);
+    case NT:
+    case NC:
+        return tensileGetSolutionName_Cijk_Ailk_Bjlk_SB(TENSILE_ARG_NAMES);
+    case TN:
+    case CN:
+        return tensileGetSolutionName_Cijk_Alik_Bljk_SB(TENSILE_ARG_NAMES);
+    case TT:
+    case TC:
+    case CT:
+    case CC:
+        return tensileGetSolutionName_Cijk_Alik_Bjlk_SB(TENSILE_ARG_NAMES);
+    }
+}
+
+template <>
+const char* tensileGetSolutionName<double>(rocblas_operation trans_a,
+                                           rocblas_operation trans_b,
+                                           rocblas_int       strideC1,
+                                           rocblas_int       strideC2,
+                                           rocblas_int       strideA1,
+                                           rocblas_int       strideA2,
+                                           rocblas_int       strideB1,
+                                           rocblas_int       strideB2,
+                                           rocblas_int       sizeI,
+                                           rocblas_int       sizeJ,
+                                           rocblas_int       sizeK,
+                                           rocblas_int       sizeL)
+{
+    switch(GetTransposeMode(trans_a, trans_b))
+    {
+    case NN:
+        return tensileGetSolutionName_Cijk_Ailk_Bljk_DB(TENSILE_ARG_NAMES);
+    case NT:
+    case NC:
+        return tensileGetSolutionName_Cijk_Ailk_Bjlk_DB(TENSILE_ARG_NAMES);
+    case TN:
+    case CN:
+        return tensileGetSolutionName_Cijk_Alik_Bljk_DB(TENSILE_ARG_NAMES);
+    case TT:
+    case TC:
+    case CT:
+    case CC:
+        return tensileGetSolutionName_Cijk_Alik_Bjlk_DB(TENSILE_ARG_NAMES);
     }
-    else if(std::is_same<T, float>{})
+}
+
+template <>
+const char* tensileGetSolutionName<rocblas_float_complex>(rocblas_operation trans_a,
+                                                          rocblas_operation trans_b,
+                                                          rocblas_int       strideC1,
+                                                          rocblas_int       strideC2,
+                                                          rocblas_int       strideA1,
+                                                          rocblas_int       strideA2,
+                                                          rocblas_int       strideB1,
+                                                          rocblas_int       strideB2,
+                                                          rocblas_int       sizeI,
+                                                          rocblas_int       sizeJ,
+                                                          rocblas_int       sizeK,
+                                                          rocblas_int       sizeL)
+{
+    switch(GetTransposeMode(trans_a, trans_b))
     {
-        switch(transposeMode)
-        {
-        case NN:
-            return tensileGetSolutionName_Cijk_Ailk_Bljk_SB(TENSILE_ARG_NAMES);
-        case NT:
-            return tensileGetSolutionName_Cijk_Ailk_Bjlk_SB(TENSILE_ARG_NAMES);
-        case TN:
-            return tensileGetSolutionName_Cijk_Alik_Bljk_SB(TENSILE_ARG_NAMES);
-        case TT:
-            return tensileGetSolutionName_Cijk_Alik_Bjlk_SB(TENSILE_ARG_NAMES);
-        }
+    case NN:
+        return tensileGetSolutionName_Cijk_Ailk_Bljk_CB(TENSILE_ARG_NAMES);
+    case NT:
+        return tensileGetSolutionName_Cijk_Ailk_Bjlk_CB(TENSILE_ARG_NAMES);
+    case TN:
+        return tensileGetSolutionName_Cijk_Alik_Bljk_CB(TENSILE_ARG_NAMES);
+    case TT:
+        return tensileGetSolutionName_Cijk_Alik_Bjlk_CB(TENSILE_ARG_NAMES);
+    case NC:
+        return tensileGetSolutionName_Cijk_Ailk_BjlkC_CB(TENSILE_ARG_NAMES);
+    case CN:
+        return tensileGetSolutionName_Cijk_AlikC_Bljk_CB(TENSILE_ARG_NAMES);
+    case TC:
+        return tensileGetSolutionName_Cijk_Alik_BjlkC_CB(TENSILE_ARG_NAMES);
+    case CT:
+        return tensileGetSolutionName_Cijk_AlikC_Bjlk_CB(TENSILE_ARG_NAMES);
+    case CC:
+        return tensileGetSolutionName_Cijk_AlikC_BjlkC_CB(TENSILE_ARG_NAMES);
     }
-    else if(std::is_same<T, double>{})
+}
+
+template <>
+const char* tensileGetSolutionName<rocblas_double_complex>(rocblas_operation trans_a,
+                                                           rocblas_operation trans_b,
+                                                           rocblas_int       strideC1,
+                                                           rocblas_int       strideC2,
+                                                           rocblas_int       strideA1,
+                                                           rocblas_int       strideA2,
+                                                           rocblas_int       strideB1,
+                                                           rocblas_int       strideB2,
+                                                           rocblas_int       sizeI,
+                                                           rocblas_int       sizeJ,
+                                                           rocblas_int       sizeK,
+                                                           rocblas_int       sizeL)
+{
+    switch(GetTransposeMode(trans_a, trans_b))
     {
-        switch(transposeMode)
-        {
-        case NN:
-            return tensileGetSolutionName_Cijk_Ailk_Bljk_DB(TENSILE_ARG_NAMES);
-        case NT:
-            return tensileGetSolutionName_Cijk_Ailk_Bjlk_DB(TENSILE_ARG_NAMES);
-        case TN:
-            return tensileGetSolutionName_Cijk_Alik_Bljk_DB(TENSILE_ARG_NAMES);
-        case TT:
-            return tensileGetSolutionName_Cijk_Alik_Bjlk_DB(TENSILE_ARG_NAMES);
-        }
+    case NN:
+        return tensileGetSolutionName_Cijk_Ailk_Bljk_ZB(TENSILE_ARG_NAMES);
+    case NT:
+        return tensileGetSolutionName_Cijk_Ailk_Bjlk_ZB(TENSILE_ARG_NAMES);
+    case TN:
+        return tensileGetSolutionName_Cijk_Alik_Bljk_ZB(TENSILE_ARG_NAMES);
+    case TT:
+        return tensileGetSolutionName_Cijk_Alik_Bjlk_ZB(TENSILE_ARG_NAMES);
+    case NC:
+        return tensileGetSolutionName_Cijk_Ailk_BjlkC_ZB(TENSILE_ARG_NAMES);
+    case CN:
+        return tensileGetSolutionName_Cijk_AlikC_Bljk_ZB(TENSILE_ARG_NAMES);
+    case TC:
+        return tensileGetSolutionName_Cijk_Alik_BjlkC_ZB(TENSILE_ARG_NAMES);
+    case CT:
+        return tensileGetSolutionName_Cijk_AlikC_Bjlk_ZB(TENSILE_ARG_NAMES);
+    case CC:
+        return tensileGetSolutionName_Cijk_AlikC_BjlkC_ZB(TENSILE_ARG_NAMES);
     }
-    return "";
+}
 
 #undef TENSILE_ARG_NAMES
+
+/*******************************************************************************
+ * Tensile Helper Funcation call
+ ******************************************************************************/
+template <typename T>
+hipError_t tensile_helper(T&                alpha_h,
+                          T&                beta_h,
+                          const T*          A,
+                          const T*          B,
+                          T*                C,
+                          rocblas_operation trans_a,
+                          rocblas_operation trans_b,
+                          rocblas_int       strideC1,
+                          rocblas_int       strideC2,
+                          rocblas_int       strideA1,
+                          rocblas_int       strideA2,
+                          rocblas_int       strideB1,
+                          rocblas_int       strideB2,
+                          rocblas_int       sizeI,
+                          rocblas_int       sizeJ,
+                          rocblas_int       sizeK,
+                          rocblas_int       sizeL,
+                          rocblas_handle    handle);
+
+#define TENSILE_ARGS(T)                                                                            \
+    (T*)C, (const T*)C, (const T*)A, (const T*)B, *((T*)&alpha_h), *((T*)&beta_h), strideC1,       \
+        strideC2, strideC1, strideC2, strideA1, strideA2, strideB1, strideB2, sizeI, sizeJ, sizeK, \
+        sizeL, handle->rocblas_stream, 0, nullptr, nullptr
+
+template <>
+hipError_t tensile_helper(rocblas_half&       alpha_h,
+                          rocblas_half&       beta_h,
+                          const rocblas_half* A,
+                          const rocblas_half* B,
+                          rocblas_half*       C,
+                          rocblas_operation   trans_a,
+                          rocblas_operation   trans_b,
+                          rocblas_int         strideC1,
+                          rocblas_int         strideC2,
+                          rocblas_int         strideA1,
+                          rocblas_int         strideA2,
+                          rocblas_int         strideB1,
+                          rocblas_int         strideB2,
+                          rocblas_int         sizeI,
+                          rocblas_int         sizeJ,
+                          rocblas_int         sizeK,
+                          rocblas_int         sizeL,
+                          rocblas_handle      handle)
+{
+    hipError_t status = hipErrorInvalidValue;
+
+    switch(GetTransposeMode(trans_a, trans_b))
+    {
+    case NN:
+        status = tensile_Cijk_Ailk_Bljk_HB(TENSILE_ARGS(_Float16));
+        break;
+    case NT:
+    case NC:
+        status = tensile_Cijk_Ailk_Bjlk_HB(TENSILE_ARGS(_Float16));
+        break;
+    case TN:
+    case CN:
+        status = tensile_Cijk_Alik_Bljk_HB(TENSILE_ARGS(_Float16));
+        break;
+    case TT:
+    case TC:
+    case CT:
+    case CC:
+        status = tensile_Cijk_Alik_Bjlk_HB(TENSILE_ARGS(_Float16));
+        break;
+    }
+
+    return status;
+}
+
+template <>
+hipError_t tensile_helper(float&            alpha_h,
+                          float&            beta_h,
+                          const float*      A,
+                          const float*      B,
+                          float*            C,
+                          rocblas_operation trans_a,
+                          rocblas_operation trans_b,
+                          rocblas_int       strideC1,
+                          rocblas_int       strideC2,
+                          rocblas_int       strideA1,
+                          rocblas_int       strideA2,
+                          rocblas_int       strideB1,
+                          rocblas_int       strideB2,
+                          rocblas_int       sizeI,
+                          rocblas_int       sizeJ,
+                          rocblas_int       sizeK,
+                          rocblas_int       sizeL,
+                          rocblas_handle    handle)
+{
+    hipError_t status = hipErrorInvalidValue;
+
+    switch(GetTransposeMode(trans_a, trans_b))
+    {
+    case NN:
+        status = tensile_Cijk_Ailk_Bljk_SB(TENSILE_ARGS(float));
+        break;
+    case NT:
+    case NC:
+        status = tensile_Cijk_Ailk_Bjlk_SB(TENSILE_ARGS(float));
+        break;
+    case TN:
+    case CN:
+        status = tensile_Cijk_Alik_Bljk_SB(TENSILE_ARGS(float));
+        break;
+    case TT:
+    case TC:
+    case CT:
+    case CC:
+        status = tensile_Cijk_Alik_Bjlk_SB(TENSILE_ARGS(float));
+        break;
+    }
+
+    return status;
+}
+
+template <>
+hipError_t tensile_helper(double&           alpha_h,
+                          double&           beta_h,
+                          const double*     A,
+                          const double*     B,
+                          double*           C,
+                          rocblas_operation trans_a,
+                          rocblas_operation trans_b,
+                          rocblas_int       strideC1,
+                          rocblas_int       strideC2,
+                          rocblas_int       strideA1,
+                          rocblas_int       strideA2,
+                          rocblas_int       strideB1,
+                          rocblas_int       strideB2,
+                          rocblas_int       sizeI,
+                          rocblas_int       sizeJ,
+                          rocblas_int       sizeK,
+                          rocblas_int       sizeL,
+                          rocblas_handle    handle)
+{
+    hipError_t status = hipErrorInvalidValue;
+
+    switch(GetTransposeMode(trans_a, trans_b))
+    {
+    case NN:
+        status = tensile_Cijk_Ailk_Bljk_DB(TENSILE_ARGS(double));
+        break;
+    case NT:
+    case NC:
+        status = tensile_Cijk_Ailk_Bjlk_DB(TENSILE_ARGS(double));
+        break;
+    case TN:
+    case CN:
+        status = tensile_Cijk_Alik_Bljk_DB(TENSILE_ARGS(double));
+        break;
+    case TT:
+    case TC:
+    case CT:
+    case CC:
+        status = tensile_Cijk_Alik_Bjlk_DB(TENSILE_ARGS(double));
+        break;
+    }
+
+    return status;
+}
+
+template <>
+hipError_t tensile_helper(rocblas_float_complex&       alpha_h,
+                          rocblas_float_complex&       beta_h,
+                          const rocblas_float_complex* A,
+                          const rocblas_float_complex* B,
+                          rocblas_float_complex*       C,
+                          rocblas_operation            trans_a,
+                          rocblas_operation            trans_b,
+                          rocblas_int                  strideC1,
+                          rocblas_int                  strideC2,
+                          rocblas_int                  strideA1,
+                          rocblas_int                  strideA2,
+                          rocblas_int                  strideB1,
+                          rocblas_int                  strideB2,
+                          rocblas_int                  sizeI,
+                          rocblas_int                  sizeJ,
+                          rocblas_int                  sizeK,
+                          rocblas_int                  sizeL,
+                          rocblas_handle               handle)
+{
+    static_assert(std::is_standard_layout<TensileComplexFloat>{},
+                  "TensileComplexFloat is not a standard layout type, and thus is "
+                  "incompatible with C.");
+
+    static_assert(std::is_trivial<TensileComplexFloat>{},
+                  "TensileComplexFloat is not a trivial type, and thus is "
+                  "incompatible with C.");
+
+    static_assert(sizeof(rocblas_float_complex) == sizeof(TensileComplexFloat),
+                  "TensileComplexFloat does not match rocblas_float_complex");
+
+    hipError_t status = hipErrorInvalidValue;
+
+    switch(GetTransposeMode(trans_a, trans_b))
+    {
+    case NN:
+        status = tensile_Cijk_Ailk_Bljk_CB(TENSILE_ARGS(TensileComplexFloat));
+        break;
+    case NT:
+        status = tensile_Cijk_Ailk_Bjlk_CB(TENSILE_ARGS(TensileComplexFloat));
+        break;
+    case TN:
+        status = tensile_Cijk_Alik_Bljk_CB(TENSILE_ARGS(TensileComplexFloat));
+        break;
+    case TT:
+        status = tensile_Cijk_Alik_Bjlk_CB(TENSILE_ARGS(TensileComplexFloat));
+        break;
+    case NC:
+        status = tensile_Cijk_Ailk_BjlkC_CB(TENSILE_ARGS(TensileComplexFloat));
+        break;
+    case CN:
+        status = tensile_Cijk_AlikC_Bljk_CB(TENSILE_ARGS(TensileComplexFloat));
+        break;
+    case TC:
+        status = tensile_Cijk_Alik_BjlkC_CB(TENSILE_ARGS(TensileComplexFloat));
+        break;
+    case CT:
+        status = tensile_Cijk_AlikC_Bjlk_CB(TENSILE_ARGS(TensileComplexFloat));
+        break;
+    case CC:
+        status = tensile_Cijk_AlikC_BjlkC_CB(TENSILE_ARGS(TensileComplexFloat));
+        break;
+    }
+
+    return status;
 }
 
+template <>
+hipError_t tensile_helper(rocblas_double_complex&       alpha_h,
+                          rocblas_double_complex&       beta_h,
+                          const rocblas_double_complex* A,
+                          const rocblas_double_complex* B,
+                          rocblas_double_complex*       C,
+                          rocblas_operation             trans_a,
+                          rocblas_operation             trans_b,
+                          rocblas_int                   strideC1,
+                          rocblas_int                   strideC2,
+                          rocblas_int                   strideA1,
+                          rocblas_int                   strideA2,
+                          rocblas_int                   strideB1,
+                          rocblas_int                   strideB2,
+                          rocblas_int                   sizeI,
+                          rocblas_int                   sizeJ,
+                          rocblas_int                   sizeK,
+                          rocblas_int                   sizeL,
+                          rocblas_handle                handle)
+{
+    static_assert(std::is_standard_layout<TensileComplexDouble>{},
+                  "TensileComplexDouble is not a standard layout type, and thus is "
+                  "incompatible with C.");
+
+    static_assert(std::is_trivial<TensileComplexDouble>{},
+                  "TensileComplexDouble is not a trivial type, and thus is "
+                  "incompatible with C.");
+
+    static_assert(sizeof(rocblas_double_complex) == sizeof(TensileComplexDouble),
+                  "TensileComplexDouble does not match rocblas_double_complex");
+
+    hipError_t status = hipErrorInvalidValue;
+
+    switch(GetTransposeMode(trans_a, trans_b))
+    {
+    case NN:
+        status = tensile_Cijk_Ailk_Bljk_ZB(TENSILE_ARGS(TensileComplexDouble));
+        break;
+    case NT:
+        status = tensile_Cijk_Ailk_Bjlk_ZB(TENSILE_ARGS(TensileComplexDouble));
+        break;
+    case TN:
+        status = tensile_Cijk_Alik_Bljk_ZB(TENSILE_ARGS(TensileComplexDouble));
+        break;
+    case TT:
+        status = tensile_Cijk_Alik_Bjlk_ZB(TENSILE_ARGS(TensileComplexDouble));
+        break;
+    case NC:
+        status = tensile_Cijk_Ailk_BjlkC_ZB(TENSILE_ARGS(TensileComplexDouble));
+        break;
+    case CN:
+        status = tensile_Cijk_AlikC_Bljk_ZB(TENSILE_ARGS(TensileComplexDouble));
+        break;
+    case TC:
+        status = tensile_Cijk_Alik_BjlkC_ZB(TENSILE_ARGS(TensileComplexDouble));
+        break;
+    case CT:
+        status = tensile_Cijk_AlikC_Bjlk_ZB(TENSILE_ARGS(TensileComplexDouble));
+        break;
+    case CC:
+        status = tensile_Cijk_AlikC_BjlkC_ZB(TENSILE_ARGS(TensileComplexDouble));
+        break;
+    }
+
+    return status;
+}
+#undef TENSILE_ARGS
+
 /*******************************************************************************
  * Tensile Function call
  ******************************************************************************/
 template <typename T>
-hipError_t callTensile(const T*          alpha,
-                       const T*          beta,
-                       const T*          A,
-                       const T*          B,
-                       T*                C,
-                       rocblas_operation trans_a,
-                       rocblas_operation trans_b,
-                       rocblas_int       strideC1,
-                       rocblas_int       strideC2,
-                       rocblas_int       strideA1,
-                       rocblas_int       strideA2,
-                       rocblas_int       strideB1,
-                       rocblas_int       strideB2,
-                       rocblas_int       sizeI,
-                       rocblas_int       sizeJ,
-                       rocblas_int       sizeK,
-                       rocblas_int       sizeL,
-                       rocblas_handle    handle)
+hipError_t call_tensile(const T*          alpha,
+                        const T*          beta,
+                        const T*          A,
+                        const T*          B,
+                        T*                C,
+                        rocblas_operation trans_a,
+                        rocblas_operation trans_b,
+                        rocblas_int       strideC1,
+                        rocblas_int       strideC2,
+                        rocblas_int       strideA1,
+                        rocblas_int       strideA2,
+                        rocblas_int       strideB1,
+                        rocblas_int       strideB2,
+                        rocblas_int       sizeI,
+                        rocblas_int       sizeJ,
+                        rocblas_int       sizeK,
+                        rocblas_int       sizeL,
+                        rocblas_handle    handle)
 {
 #ifndef NDEBUG
     std::cout << "Solution Name: "
@@ -163,74 +562,24 @@ hipError_t callTensile(const T*          alpha,
         hipMemcpy(&beta_h, beta, sizeof(T), hipMemcpyDeviceToHost);
     }
 
-// Helper macros for function call brevity
-#define TENSILE_ARGS(T)                                                                      \
-    reinterpret_cast<T*>(C), reinterpret_cast<const T*>(C), reinterpret_cast<const T*>(A),   \
-        reinterpret_cast<const T*>(B), *reinterpret_cast<T*>(&alpha_h),                      \
-        *reinterpret_cast<T*>(&beta_h), strideC1, strideC2, strideC1, strideC2, strideA1,    \
-        strideA2, strideB1, strideB2, sizeI, sizeJ, sizeK, sizeL, handle->rocblas_stream, 0, \
-        nullptr, nullptr
-
-    hipError_t     status;
-    transpose_mode transposeMode = GetTransposeMode(trans_a, trans_b);
-    if(std::is_same<T, rocblas_half>{})
-    {
-        switch(transposeMode)
-        {
-        case NN:
-            status = tensile_Cijk_Ailk_Bljk_HB(TENSILE_ARGS(_Float16));
-            break;
-        case NT:
-            status = tensile_Cijk_Ailk_Bjlk_HB(TENSILE_ARGS(_Float16));
-            break;
-        case TN:
-            status = tensile_Cijk_Alik_Bljk_HB(TENSILE_ARGS(_Float16));
-            break;
-        case TT:
-            status = tensile_Cijk_Alik_Bjlk_HB(TENSILE_ARGS(_Float16));
-            break;
-        }
-    }
-    else if(std::is_same<T, float>{})
-    {
-        switch(transposeMode)
-        {
-        case NN:
-            status = tensile_Cijk_Ailk_Bljk_SB(TENSILE_ARGS(float));
-            break;
-        case NT:
-            status = tensile_Cijk_Ailk_Bjlk_SB(TENSILE_ARGS(float));
-            break;
-        case TN:
-            status = tensile_Cijk_Alik_Bljk_SB(TENSILE_ARGS(float));
-            break;
-        case TT:
-            status = tensile_Cijk_Alik_Bjlk_SB(TENSILE_ARGS(float));
-            break;
-        }
-    }
-    else if(std::is_same<T, double>{})
-    {
-        switch(transposeMode)
-        {
-        case NN:
-            status = tensile_Cijk_Ailk_Bljk_DB(TENSILE_ARGS(double));
-            break;
-        case NT:
-            status = tensile_Cijk_Ailk_Bjlk_DB(TENSILE_ARGS(double));
-            break;
-        case TN:
-            status = tensile_Cijk_Alik_Bljk_DB(TENSILE_ARGS(double));
-            break;
-        case TT:
-            status = tensile_Cijk_Alik_Bjlk_DB(TENSILE_ARGS(double));
-            break;
-        }
-    }
-    else
-    {
-        std::cerr << "Unsupported input format" << std::endl;
-    }
+    hipError_t status = tensile_helper(alpha_h,
+                                       beta_h,
+                                       A,
+                                       B,
+                                       C,
+                                       trans_a,
+                                       trans_b,
+                                       strideC1,
+                                       strideC2,
+                                       strideA1,
+                                       strideA2,
+                                       strideB1,
+                                       strideB2,
+                                       sizeI,
+                                       sizeJ,
+                                       sizeK,
+                                       sizeL,
+                                       handle);
 
 #ifndef NDEBUG
     std::cout << "Return Status: " << status << std::endl;
@@ -247,6 +596,10 @@ template <>
 static constexpr char rocblas_gemm_name<float>[] = "rocblas_sgemm";
 template <>
 static constexpr char rocblas_gemm_name<double>[] = "rocblas_dgemm";
+template <>
+static constexpr char rocblas_gemm_name<rocblas_float_complex>[] = "rocblas_cgemm";
+template <>
+static constexpr char rocblas_gemm_name<rocblas_double_complex>[] = "rocblas_zgemm";
 
 /*******************************************************************************
  * GEMM implementation
@@ -303,6 +656,17 @@ rocblas_status rocblas_gemm_impl(rocblas_handle    handle,
                           ld_c);
 
             if(layer_mode & rocblas_layer_mode_log_bench)
+            {
+                std::stringstream alphass;
+                alphass << "--alpha " << std::real(*alpha);
+                if (std::imag(*alpha) != 0)
+                    alphass << " --alphai " << std::imag(*alpha);
+
+                std::stringstream betass;
+                betass << "--beta " << std::real(*beta);
+                if (std::imag(*beta) != 0)
+                    betass << " --betai " << std::imag(*beta);
+
                 log_bench(handle,
                           "./rocblas-bench -f gemm -r",
                           rocblas_precision_string<T>,
@@ -316,16 +680,15 @@ rocblas_status rocblas_gemm_impl(rocblas_handle    handle,
                           n,
                           "-k",
                           k,
-                          "--alpha",
-                          *alpha,
+                          alphass.str(),
                           "--lda",
                           ld_a,
                           "--ldb",
                           ld_b,
-                          "--beta",
-                          *beta,
+                          betass.str(),
                           "--ldc",
                           ld_c);
+            }
         }
         else
         {
@@ -389,24 +752,24 @@ rocblas_status rocblas_gemm_impl(rocblas_handle    handle,
     if(validArgs != rocblas_status_success)
         return validArgs;
 
-    unsigned int strideC1 = static_cast<unsigned int>(ld_c);
-    unsigned int strideC2 = static_cast<unsigned int>(stride_c);
-    unsigned int strideA1 = static_cast<unsigned int>(ld_a);
-    unsigned int strideA2 = static_cast<unsigned int>(stride_a);
-    unsigned int strideB1 = static_cast<unsigned int>(ld_b);
-    unsigned int strideB2 = static_cast<unsigned int>(stride_b);
-    unsigned int sizeI    = static_cast<unsigned int>(m);
-    unsigned int sizeJ    = static_cast<unsigned int>(n);
-    unsigned int sizeK    = b_c;
-    unsigned int sizeL    = static_cast<unsigned int>(k);
-
-    hipError_t status = callTensile<T>(alpha, beta, A, B, C,
-                                       trans_a, trans_b,
-                                       strideC1, strideC2,
-                                       strideA1, strideA2,
-                                       strideB1, strideB2,
-                                       sizeI, sizeJ, sizeK, sizeL,
-                                       handle);
+    unsigned int strideC1 = unsigned(ld_c);
+    unsigned int strideC2 = unsigned(stride_c);
+    unsigned int strideA1 = unsigned(ld_a);
+    unsigned int strideA2 = unsigned(stride_a);
+    unsigned int strideB1 = unsigned(ld_b);
+    unsigned int strideB2 = unsigned(stride_b);
+    unsigned int sizeI    = unsigned(m);
+    unsigned int sizeJ    = unsigned(n);
+    unsigned int sizeK    = unsigned(b_c);
+    unsigned int sizeL    = unsigned(k);
+
+    hipError_t status = call_tensile<T>(alpha, beta, A, B, C,
+                                        trans_a, trans_b,
+                                        strideC1, strideC2,
+                                        strideA1, strideA2,
+                                        strideB1, strideB2,
+                                        sizeI, sizeJ, sizeK, sizeL,
+                                        handle);
     // clang-format on
 
     return get_rocblas_status_for_hip_status(status);
@@ -421,6 +784,12 @@ template <>
 static constexpr char rocblas_gemm_strided_batched_name<float>[] = "rocblas_sgemm_strided_batched";
 template <>
 static constexpr char rocblas_gemm_strided_batched_name<double>[] = "rocblas_dgemm_strided_batched";
+template <>
+static constexpr char rocblas_gemm_strided_batched_name<rocblas_float_complex>[]
+    = "rocblas_cgemm_strided_batched";
+template <>
+static constexpr char rocblas_gemm_strided_batched_name<rocblas_double_complex>[]
+    = "rocblas_zgemm_strided_batched";
 
 /*******************************************************************************
  * Strided / Batched GEMM implementation
@@ -484,6 +853,16 @@ rocblas_status rocblas_gemm_strided_batched_impl(rocblas_handle    handle,
 
             if(layer_mode & rocblas_layer_mode_log_bench)
             {
+                std::stringstream alphass;
+                alphass << "--alpha " << std::real(*alpha);
+                if (std::imag(*alpha) != 0)
+                    alphass << " --alphai " << std::imag(*alpha);
+
+                std::stringstream betass;
+                betass << "--beta " << std::real(*beta);
+                if (std::imag(*beta) != 0)
+                    betass << " --betai " << std::imag(*beta);
+
                 log_bench(handle,
                           "./rocblas-bench -f gemm_strided_batched -r",
                           rocblas_precision_string<T>,
@@ -497,8 +876,7 @@ rocblas_status rocblas_gemm_strided_batched_impl(rocblas_handle    handle,
                           n,
                           "-k",
                           k,
-                          "--alpha",
-                          *alpha,
+                          alphass.str(),
                           "--lda",
                           ld_a,
                           "--stride_a",
@@ -507,8 +885,7 @@ rocblas_status rocblas_gemm_strided_batched_impl(rocblas_handle    handle,
                           ld_b,
                           "--stride_b",
                           stride_b,
-                          "--beta",
-                          *beta,
+                          betass.str(),
                           "--ldc",
                           ld_c,
                           "--stride_c",
@@ -588,24 +965,24 @@ rocblas_status rocblas_gemm_strided_batched_impl(rocblas_handle    handle,
     if(validArgs != rocblas_status_success)
         return validArgs;
 
-    unsigned int strideC1 = static_cast<unsigned int>(ld_c);
-    unsigned int strideC2 = static_cast<unsigned int>(stride_c);
-    unsigned int strideA1 = static_cast<unsigned int>(ld_a);
-    unsigned int strideA2 = static_cast<unsigned int>(stride_a);
-    unsigned int strideB1 = static_cast<unsigned int>(ld_b);
-    unsigned int strideB2 = static_cast<unsigned int>(stride_b);
-    unsigned int sizeI    = static_cast<unsigned int>(m);
-    unsigned int sizeJ    = static_cast<unsigned int>(n);
-    unsigned int sizeK    = static_cast<unsigned int>(b_c);
-    unsigned int sizeL    = static_cast<unsigned int>(k);
-
-    hipError_t status = callTensile<T>(alpha, beta, A, B, C,
-                                       trans_a, trans_b,
-                                       strideC1, strideC2,
-                                       strideA1, strideA2,
-                                       strideB1, strideB2,
-                                       sizeI, sizeJ, sizeK, sizeL,
-                                       handle);
+    unsigned int strideC1 = unsigned(ld_c);
+    unsigned int strideC2 = unsigned(stride_c);
+    unsigned int strideA1 = unsigned(ld_a);
+    unsigned int strideA2 = unsigned(stride_a);
+    unsigned int strideB1 = unsigned(ld_b);
+    unsigned int strideB2 = unsigned(stride_b);
+    unsigned int sizeI    = unsigned(m);
+    unsigned int sizeJ    = unsigned(n);
+    unsigned int sizeK    = unsigned(b_c);
+    unsigned int sizeL    = unsigned(k);
+
+    hipError_t status = call_tensile<T>(alpha, beta, A, B, C,
+                                        trans_a, trans_b,
+                                        strideC1, strideC2,
+                                        strideA1, strideA2,
+                                        strideB1, strideB2,
+                                        sizeI, sizeJ, sizeK, sizeL,
+                                        handle);
     return get_rocblas_status_for_hip_status(status);
 
     // clang-format on
@@ -765,16 +1142,16 @@ rocblas_status rocblas_gemm_kernel_name_impl(rocblas_handle    handle,
     if(validArgs != rocblas_status_success)
         return validArgs;
 
-    unsigned int strideC1 = static_cast<unsigned int>(ld_c);
-    unsigned int strideC2 = static_cast<unsigned int>(stride_c);
-    unsigned int strideA1 = static_cast<unsigned int>(ld_a);
-    unsigned int strideA2 = static_cast<unsigned int>(stride_a);
-    unsigned int strideB1 = static_cast<unsigned int>(ld_b);
-    unsigned int strideB2 = static_cast<unsigned int>(stride_b);
-    unsigned int sizeI    = static_cast<unsigned int>(m);
-    unsigned int sizeJ    = static_cast<unsigned int>(n);
-    unsigned int sizeK    = static_cast<unsigned int>(b_c);
-    unsigned int sizeL    = static_cast<unsigned int>(k);
+    unsigned int strideC1 = unsigned(ld_c);
+    unsigned int strideC2 = unsigned(stride_c);
+    unsigned int strideA1 = unsigned(ld_a);
+    unsigned int strideA2 = unsigned(stride_a);
+    unsigned int strideB1 = unsigned(ld_b);
+    unsigned int strideB2 = unsigned(stride_b);
+    unsigned int sizeI    = unsigned(m);
+    unsigned int sizeJ    = unsigned(n);
+    unsigned int sizeK    = unsigned(b_c);
+    unsigned int sizeL    = unsigned(k);
 
     std::cout << "gemm kernel Name: ";
 
@@ -853,6 +1230,46 @@ rocblas_status rocblas_dgemm(rocblas_handle handle,
                                      B, ld_b, beta, C, ld_c);
 }
 
+rocblas_status rocblas_cgemm(rocblas_handle handle,
+                             rocblas_operation trans_a,
+                             rocblas_operation trans_b,
+                             rocblas_int m,
+                             rocblas_int n,
+                             rocblas_int k,
+                             const rocblas_float_complex *alpha,
+                             const rocblas_float_complex *A,
+                             rocblas_int ld_a,
+                             const rocblas_float_complex *B,
+                             rocblas_int ld_b,
+                             const rocblas_float_complex *beta,
+                             rocblas_float_complex *C,
+                             rocblas_int ld_c)
+{
+    return rocblas_gemm_impl<rocblas_float_complex>(handle, trans_a, trans_b,
+                                                    m, n, k, alpha, A, ld_a,
+                                                    B, ld_b, beta, C, ld_c);
+}
+
+
+rocblas_status rocblas_zgemm(rocblas_handle handle,
+                             rocblas_operation trans_a,
+                             rocblas_operation trans_b,
+                             rocblas_int m,
+                             rocblas_int n,
+                             rocblas_int k,
+                             const rocblas_double_complex *alpha,
+                             const rocblas_double_complex *A,
+                             rocblas_int ld_a,
+                             const rocblas_double_complex *B,
+                             rocblas_int ld_b,
+                             const rocblas_double_complex *beta,
+                             rocblas_double_complex *C,
+                             rocblas_int ld_c)
+{
+    return rocblas_gemm_impl<rocblas_double_complex>(handle, trans_a, trans_b,
+                                                    m, n, k, alpha, A, ld_a,
+                                                    B, ld_b, beta, C, ld_c);
+}
 
 /*******************************************************************************
  * Batched / Strided GEMM APIs
@@ -945,6 +1362,65 @@ rocblas_status rocblas_dgemm_strided_batched(rocblas_handle handle,
         C, ld_c, stride_c, b_c);
 }
 
+rocblas_status rocblas_cgemm_strided_batched(rocblas_handle handle,
+                                             rocblas_operation trans_a,
+                                             rocblas_operation trans_b,
+                                             rocblas_int m,
+                                             rocblas_int n,
+                                             rocblas_int k,
+                                             const rocblas_float_complex *alpha,
+                                             const rocblas_float_complex *A,
+                                             rocblas_int ld_a,
+                                             rocblas_int stride_a,
+                                             const rocblas_float_complex *B,
+                                             rocblas_int ld_b,
+                                             rocblas_int stride_b,
+                                             const rocblas_float_complex *beta,
+                                             rocblas_float_complex *C,
+                                             rocblas_int ld_c,
+                                             rocblas_int stride_c,
+                                             rocblas_int b_c)
+{
+    return rocblas_gemm_strided_batched_impl<rocblas_float_complex>(
+        handle, trans_a, trans_b,
+        m, n, k,
+        alpha,
+        A, ld_a, stride_a,
+        B, ld_b, stride_b,
+        beta,
+        C, ld_c, stride_c, b_c);
+}
+
+rocblas_status rocblas_zgemm_strided_batched(rocblas_handle handle,
+                                             rocblas_operation trans_a,
+                                             rocblas_operation trans_b,
+                                             rocblas_int m,
+                                             rocblas_int n,
+                                             rocblas_int k,
+                                             const rocblas_double_complex *alpha,
+                                             const rocblas_double_complex *A,
+                                             rocblas_int ld_a,
+                                             rocblas_int stride_a,
+                                             const rocblas_double_complex *B,
+                                             rocblas_int ld_b,
+                                             rocblas_int stride_b,
+                                             const rocblas_double_complex *beta,
+                                             rocblas_double_complex *C,
+                                             rocblas_int ld_c,
+                                             rocblas_int stride_c,
+                                             rocblas_int b_c)
+{
+    return rocblas_gemm_strided_batched_impl<rocblas_double_complex>(
+        handle, trans_a, trans_b,
+        m, n, k,
+        alpha,
+        A, ld_a, stride_a,
+        B, ld_b, stride_b,
+        beta,
+        C, ld_c, stride_c, b_c);
+}
+
+
 /*******************************************************************************
  * Batched / Strided GEMM Kernel name APIs
  ******************************************************************************/
diff --git a/library/src/blas3/Tensile/gemm.h b/library/src/blas3/Tensile/gemm.h
index f66aeb59f..00dcf5cf9 100644
--- a/library/src/blas3/Tensile/gemm.h
+++ b/library/src/blas3/Tensile/gemm.h
@@ -4,6 +4,51 @@
 #include "Tensile.h"
 #include "rocblas-types.h"
 
+/*******************************************************************************
+ * Helper enumeration over different transpose combinations
+ ******************************************************************************/
+typedef enum transpose_mode_
+{
+    // First letter refers to A, second letter refers to B
+    NN,
+    NT,
+    TN,
+    TT,
+    NC,
+    CN,
+    TC,
+    CT,
+    CC,
+} transpose_mode;
+
+constexpr transpose_mode GetTransposeMode(rocblas_operation trans_a, rocblas_operation trans_b)
+{
+    if(trans_a == rocblas_operation_none)
+    {
+        if(trans_b == rocblas_operation_none)
+            return NN;
+        if(trans_b == rocblas_operation_conjugate_transpose)
+            return NC;
+        return NT;
+    }
+    else if(trans_a == rocblas_operation_conjugate_transpose)
+    {
+        if(trans_b == rocblas_operation_none)
+            return CN;
+        if(trans_b == rocblas_operation_conjugate_transpose)
+            return CC;
+        return CT;
+    }
+    else
+    {
+        if(trans_b == rocblas_operation_none)
+            return TN;
+        if(trans_b == rocblas_operation_conjugate_transpose)
+            return TC;
+        return TT;
+    }
+}
+
 /*******************************************************************************
  * Infer Batch Strides
  ******************************************************************************/
diff --git a/library/src/blas_ex/rocblas_gemm_ex.cpp b/library/src/blas_ex/rocblas_gemm_ex.cpp
index c5fd99369..734238272 100644
--- a/library/src/blas_ex/rocblas_gemm_ex.cpp
+++ b/library/src/blas_ex/rocblas_gemm_ex.cpp
@@ -60,30 +60,76 @@ extern "C" rocblas_status rocblas_gemm_ex(rocblas_handle    handle,
         {
             if(handle->pointer_mode == rocblas_pointer_mode_host)
             {
-                double alpha_double;
-                double beta_double;
+                std::stringstream alphass;
+                std::stringstream betass;
+                std::stringstream bench_alphass;
+                std::stringstream bench_betass;
+
                 if(compute_type == rocblas_datatype_f16_r)
                 {
-                    alpha_double = *static_cast<const _Float16*>(alpha);
-                    beta_double  = *static_cast<const _Float16*>(beta);
+                    alphass << *((const _Float16*)alpha);
+                    betass << *((const _Float16*)beta);
+
+                    bench_alphass << "--alpha " << *((const _Float16*)alpha);
+                    bench_betass << "--beta " << *((const _Float16*)beta);
                 }
                 else if(compute_type == rocblas_datatype_f32_r)
                 {
-                    alpha_double = *static_cast<const float*>(alpha);
-                    beta_double  = *static_cast<const float*>(beta);
+                    alphass << *((const float*)alpha);
+                    betass << *((const float*)beta);
+
+                    bench_alphass << "--alpha " << *((const float*)alpha);
+                    bench_betass << "--beta " << *((const float*)beta);
                 }
                 else if(compute_type == rocblas_datatype_f64_r)
                 {
-                    alpha_double = *static_cast<const double*>(alpha);
-                    beta_double  = *static_cast<const double*>(beta);
+                    alphass << *((const double*)alpha);
+                    betass << *((const double*)beta);
+
+                    bench_alphass << "--alpha " << *((const double*)alpha);
+                    bench_betass << "--beta " << *((const double*)beta);
                 }
                 else if(compute_type == rocblas_datatype_i32_r)
                 {
-                    alpha_double = *static_cast<const int32_t*>(alpha);
-                    beta_double  = *static_cast<const int32_t*>(beta);
+                    alphass << *((const int32_t*)alpha);
+                    betass << *((const int32_t*)beta);
+
+                    bench_alphass << "--alpha " << *((const int32_t*)alpha);
+                    bench_betass << "--beta " << *((const int32_t*)beta);
+                }
+                else if(compute_type == rocblas_datatype_f32_c)
+                {
+                    rocblas_float_complex tmpa = *((const rocblas_float_complex*)alpha);
+                    rocblas_float_complex tmpb = *((const rocblas_float_complex*)beta);
+
+                    alphass << tmpa;
+                    betass << tmpb;
+
+                    bench_alphass << "--alpha " << std::real(tmpa);
+                    if(std::imag(tmpa) != 0)
+                        bench_alphass << " --alphai " << std::imag(tmpa);
+                    bench_betass << "--beta " << std::real(tmpb);
+                    if(std::imag(tmpb) != 0)
+                        bench_betass << " --betai " << std::imag(tmpb);
+                }
+                else if(compute_type == rocblas_datatype_f64_c)
+                {
+                    rocblas_double_complex tmpa = *((const rocblas_double_complex*)alpha);
+                    rocblas_double_complex tmpb = *((const rocblas_double_complex*)beta);
+
+                    alphass << tmpa;
+                    betass << tmpb;
+
+                    bench_alphass << "--alpha " << std::real(tmpa);
+                    if(std::imag(tmpa) != 0)
+                        bench_alphass << " --alphai " << std::imag(tmpa);
+                    bench_betass << "--beta " << std::real(tmpb);
+                    if(std::imag(tmpb) != 0)
+                        bench_betass << " --betai " << std::imag(tmpb);
                 }
 
                 if(layer_mode & rocblas_layer_mode_log_trace)
+                {
                     log_trace(handle,
                               "rocblas_gemm_ex",
                               trans_a,
@@ -91,14 +137,14 @@ extern "C" rocblas_status rocblas_gemm_ex(rocblas_handle    handle,
                               m,
                               n,
                               k,
-                              alpha_double,
+                              alphass.str(),
                               a,
                               a_type_string,
                               lda,
                               b,
                               b_type_string,
                               ldb,
-                              beta_double,
+                              betass.str(),
                               c,
                               c_type_string,
                               ldc,
@@ -109,6 +155,7 @@ extern "C" rocblas_status rocblas_gemm_ex(rocblas_handle    handle,
                               algo,
                               solution_index,
                               flags);
+                }
 
                 if(layer_mode & rocblas_layer_mode_log_bench)
                 {
@@ -124,8 +171,7 @@ extern "C" rocblas_status rocblas_gemm_ex(rocblas_handle    handle,
                               n,
                               "-k",
                               k,
-                              "--alpha",
-                              alpha_double,
+                              bench_alphass.str(),
                               "--a_type",
                               a_type_string,
                               "--lda",
@@ -134,8 +180,7 @@ extern "C" rocblas_status rocblas_gemm_ex(rocblas_handle    handle,
                               b_type_string,
                               "--ldb",
                               ldb,
-                              "--beta",
-                              beta_double,
+                              bench_betass.str(),
                               "--c_type",
                               c_type_string,
                               "--ldc",
@@ -254,135 +299,40 @@ extern "C" rocblas_status rocblas_gemm_ex(rocblas_handle    handle,
     rocblas_int    stride_c    = ldc * n;
     rocblas_int    stride_d    = ldd * n;
 
+#define EX_TYPECASTING_PARM                                                                     \
+    handle, trans_a, trans_b, m, n, k, alpha, a, lda, stride_a, b, ldb, stride_b, beta, c, ldc, \
+        stride_c, d, ldd, stride_d, batch_count
+
     if(a_type == rocblas_datatype_f64_r && b_type == rocblas_datatype_f64_r
        && c_type == rocblas_datatype_f64_r && d_type == rocblas_datatype_f64_r
        && compute_type == rocblas_datatype_f64_r)
     {
-        rb_status = gemm_ex_typecasting<double, double, double>(handle,
-                                                                trans_a,
-                                                                trans_b,
-                                                                m,
-                                                                n,
-                                                                k,
-                                                                alpha,
-                                                                a,
-                                                                lda,
-                                                                stride_a,
-                                                                b,
-                                                                ldb,
-                                                                stride_b,
-                                                                beta,
-                                                                c,
-                                                                ldc,
-                                                                stride_c,
-                                                                d,
-                                                                ldd,
-                                                                stride_d,
-                                                                batch_count);
+        rb_status = gemm_ex_typecasting<double, double, double>(EX_TYPECASTING_PARM);
     }
     else if(a_type == rocblas_datatype_f32_r && b_type == rocblas_datatype_f32_r
             && c_type == rocblas_datatype_f32_r && d_type == rocblas_datatype_f32_r
             && compute_type == rocblas_datatype_f32_r)
     {
-        rb_status = gemm_ex_typecasting<float, float, float>(handle,
-                                                             trans_a,
-                                                             trans_b,
-                                                             m,
-                                                             n,
-                                                             k,
-                                                             alpha,
-                                                             a,
-                                                             lda,
-                                                             stride_a,
-                                                             b,
-                                                             ldb,
-                                                             stride_b,
-                                                             beta,
-                                                             c,
-                                                             ldc,
-                                                             stride_c,
-                                                             d,
-                                                             ldd,
-                                                             stride_d,
-                                                             batch_count);
+        rb_status = gemm_ex_typecasting<float, float, float>(EX_TYPECASTING_PARM);
     }
     else if(a_type == rocblas_datatype_f16_r && b_type == rocblas_datatype_f16_r
             && c_type == rocblas_datatype_f16_r && d_type == rocblas_datatype_f16_r
             && compute_type == rocblas_datatype_f16_r)
     {
-        rb_status = gemm_ex_typecasting<_Float16, _Float16, _Float16>(handle,
-                                                                      trans_a,
-                                                                      trans_b,
-                                                                      m,
-                                                                      n,
-                                                                      k,
-                                                                      alpha,
-                                                                      a,
-                                                                      lda,
-                                                                      stride_a,
-                                                                      b,
-                                                                      ldb,
-                                                                      stride_b,
-                                                                      beta,
-                                                                      c,
-                                                                      ldc,
-                                                                      stride_c,
-                                                                      d,
-                                                                      ldd,
-                                                                      stride_d,
-                                                                      batch_count);
+        rb_status = gemm_ex_typecasting<_Float16, _Float16, _Float16>(EX_TYPECASTING_PARM);
     }
     else if(a_type == rocblas_datatype_f16_r && b_type == rocblas_datatype_f16_r
             && c_type == rocblas_datatype_f16_r && d_type == rocblas_datatype_f16_r
             && compute_type == rocblas_datatype_f32_r)
     {
-        rb_status = gemm_ex_typecasting<_Float16, _Float16, float>(handle,
-                                                                   trans_a,
-                                                                   trans_b,
-                                                                   m,
-                                                                   n,
-                                                                   k,
-                                                                   alpha,
-                                                                   a,
-                                                                   lda,
-                                                                   stride_a,
-                                                                   b,
-                                                                   ldb,
-                                                                   stride_b,
-                                                                   beta,
-                                                                   c,
-                                                                   ldc,
-                                                                   stride_c,
-                                                                   d,
-                                                                   ldd,
-                                                                   stride_d,
-                                                                   batch_count);
+        rb_status = gemm_ex_typecasting<_Float16, _Float16, float>(EX_TYPECASTING_PARM);
     }
     else if(a_type == rocblas_datatype_bf16_r && b_type == rocblas_datatype_bf16_r
             && c_type == rocblas_datatype_bf16_r && d_type == rocblas_datatype_bf16_r
             && compute_type == rocblas_datatype_f32_r)
     {
-        rb_status = gemm_ex_typecasting<tensile_bfloat16, tensile_bfloat16, float>(handle,
-                                                                                   trans_a,
-                                                                                   trans_b,
-                                                                                   m,
-                                                                                   n,
-                                                                                   k,
-                                                                                   alpha,
-                                                                                   a,
-                                                                                   lda,
-                                                                                   stride_a,
-                                                                                   b,
-                                                                                   ldb,
-                                                                                   stride_b,
-                                                                                   beta,
-                                                                                   c,
-                                                                                   ldc,
-                                                                                   stride_c,
-                                                                                   d,
-                                                                                   ldd,
-                                                                                   stride_d,
-                                                                                   batch_count);
+        rb_status
+            = gemm_ex_typecasting<tensile_bfloat16, tensile_bfloat16, float>(EX_TYPECASTING_PARM);
     }
     else if(a_type == rocblas_datatype_i8_r && b_type == rocblas_datatype_i8_r
             && c_type == rocblas_datatype_i32_r && d_type == rocblas_datatype_i32_r
@@ -403,33 +353,31 @@ extern "C" rocblas_status rocblas_gemm_ex(rocblas_handle    handle,
             stride_b = stride_b / 4;
             k        = k / 4;
 
-            rb_status = gemm_ex_typecasting<TensileInt8x4, TensileInt32, TensileInt32>(handle,
-                                                                                       trans_a,
-                                                                                       trans_b,
-                                                                                       m,
-                                                                                       n,
-                                                                                       k,
-                                                                                       alpha,
-                                                                                       a,
-                                                                                       lda,
-                                                                                       stride_a,
-                                                                                       b,
-                                                                                       ldb,
-                                                                                       stride_b,
-                                                                                       beta,
-                                                                                       c,
-                                                                                       ldc,
-                                                                                       stride_c,
-                                                                                       d,
-                                                                                       ldd,
-                                                                                       stride_d,
-                                                                                       batch_count);
+            rb_status = gemm_ex_typecasting<TensileInt8x4, TensileInt32, TensileInt32>(
+                EX_TYPECASTING_PARM);
         }
     }
+    else if(a_type == rocblas_datatype_f32_c && b_type == rocblas_datatype_f32_c
+            && c_type == rocblas_datatype_f32_c && d_type == rocblas_datatype_f32_c
+            && compute_type == rocblas_datatype_f32_c)
+    {
+        rb_status = gemm_ex_typecasting<rocblas_float_complex,
+                                        rocblas_float_complex,
+                                        rocblas_float_complex>(EX_TYPECASTING_PARM);
+    }
+    else if(a_type == rocblas_datatype_f64_c && b_type == rocblas_datatype_f64_c
+            && c_type == rocblas_datatype_f64_c && d_type == rocblas_datatype_f64_c
+            && compute_type == rocblas_datatype_f64_c)
+    {
+        rb_status = gemm_ex_typecasting<rocblas_double_complex,
+                                        rocblas_double_complex,
+                                        rocblas_double_complex>(EX_TYPECASTING_PARM);
+    }
     else
     {
         rb_status = rocblas_status_not_implemented;
     }
+#undef EX_TYPECASTING_PARM
 
     return rb_status;
 }
@@ -494,28 +442,75 @@ extern "C" rocblas_status rocblas_gemm_strided_batched_ex(rocblas_handle    hand
         {
             if(handle->pointer_mode == rocblas_pointer_mode_host)
             {
-                double alpha_double;
-                double beta_double;
+                std::stringstream alphass;
+                std::stringstream betass;
+                std::stringstream bench_alphass;
+                std::stringstream bench_betass;
+
                 if(compute_type == rocblas_datatype_f16_r)
                 {
-                    alpha_double = *static_cast<const _Float16*>(alpha);
-                    beta_double  = *static_cast<const _Float16*>(beta);
+                    alphass << *((const _Float16*)alpha);
+                    betass << *((const _Float16*)beta);
+
+                    bench_alphass << "--alpha " << *((const _Float16*)alpha);
+                    bench_betass << "--beta " << *((const _Float16*)beta);
                 }
                 else if(compute_type == rocblas_datatype_f32_r)
                 {
-                    alpha_double = *static_cast<const float*>(alpha);
-                    beta_double  = *static_cast<const float*>(beta);
+                    alphass << *((const float*)alpha);
+                    betass << *((const float*)beta);
+
+                    bench_alphass << "--alpha " << *((const float*)alpha);
+                    bench_betass << "--beta " << *((const float*)beta);
                 }
                 else if(compute_type == rocblas_datatype_f64_r)
                 {
-                    alpha_double = *static_cast<const double*>(alpha);
-                    beta_double  = *static_cast<const double*>(beta);
+                    alphass << *((const double*)alpha);
+                    betass << *((const double*)beta);
+
+                    bench_alphass << "--alpha " << *((const double*)alpha);
+                    bench_betass << "--beta " << *((const double*)beta);
                 }
                 else if(compute_type == rocblas_datatype_i32_r)
                 {
-                    alpha_double = *static_cast<const int32_t*>(alpha);
-                    beta_double  = *static_cast<const int32_t*>(beta);
+                    alphass << *((const int32_t*)alpha);
+                    betass << *((const int32_t*)beta);
+
+                    bench_alphass << "--alpha " << *((const int32_t*)alpha);
+                    bench_betass << "--beta " << *((const int32_t*)beta);
+                }
+                else if(compute_type == rocblas_datatype_f32_c)
+                {
+                    rocblas_float_complex tmpa = *((const rocblas_float_complex*)alpha);
+                    rocblas_float_complex tmpb = *((const rocblas_float_complex*)beta);
+
+                    alphass << tmpa;
+                    betass << tmpb;
+
+                    bench_alphass << "--alpha " << std::real(tmpa);
+                    if(std::imag(tmpa) != 0)
+                        bench_alphass << " --alphai " << std::imag(tmpa);
+
+                    bench_betass << "--beta " << std::real(tmpb);
+                    if(std::imag(tmpb) != 0)
+                        bench_betass << " --betai " << std::imag(tmpb);
                 }
+                else if(compute_type == rocblas_datatype_f64_c)
+                {
+                    rocblas_double_complex tmpa = *((const rocblas_double_complex*)alpha);
+                    rocblas_double_complex tmpb = *((const rocblas_double_complex*)beta);
+
+                    alphass << tmpa;
+                    betass << tmpb;
+
+                    bench_alphass << "--alpha " << std::real(tmpa);
+                    if(std::imag(tmpa) != 0)
+                        bench_alphass << " --alphai " << std::imag(tmpa);
+                    bench_betass << "--beta " << std::real(tmpb);
+                    if(std::imag(tmpb) != 0)
+                        bench_betass << " --betai " << std::imag(tmpb);
+                }
+
                 if(layer_mode & rocblas_layer_mode_log_trace)
                 {
                     log_trace(handle,
@@ -525,7 +520,7 @@ extern "C" rocblas_status rocblas_gemm_strided_batched_ex(rocblas_handle    hand
                               m,
                               n,
                               k,
-                              alpha_double,
+                              alphass.str(),
                               a,
                               a_type_string,
                               lda,
@@ -534,7 +529,7 @@ extern "C" rocblas_status rocblas_gemm_strided_batched_ex(rocblas_handle    hand
                               b_type_string,
                               ldb,
                               stride_b,
-                              beta_double,
+                              betass.str(),
                               c,
                               c_type_string,
                               ldc,
@@ -563,8 +558,7 @@ extern "C" rocblas_status rocblas_gemm_strided_batched_ex(rocblas_handle    hand
                               n,
                               "-k",
                               k,
-                              "--alpha",
-                              alpha_double,
+                              bench_alphass.str(),
                               "--a_type",
                               a_type_string,
                               "--lda",
@@ -577,8 +571,7 @@ extern "C" rocblas_status rocblas_gemm_strided_batched_ex(rocblas_handle    hand
                               ldb,
                               "--stride_b",
                               stride_b,
-                              "--beta",
-                              beta_double,
+                              bench_betass.str(),
                               "--c_type",
                               c_type_string,
                               "--ldc",
@@ -715,135 +708,40 @@ extern "C" rocblas_status rocblas_gemm_strided_batched_ex(rocblas_handle    hand
 
     rocblas_status rb_status = rocblas_status_internal_error;
 
+#define EX_TYPECASTING_PARM                                                                     \
+    handle, trans_a, trans_b, m, n, k, alpha, a, lda, stride_a, b, ldb, stride_b, beta, c, ldc, \
+        stride_c, d, ldd, stride_d, batch_count
+
     if(a_type == rocblas_datatype_f64_r && b_type == rocblas_datatype_f64_r
        && c_type == rocblas_datatype_f64_r && d_type == rocblas_datatype_f64_r
        && compute_type == rocblas_datatype_f64_r)
     {
-        rb_status = gemm_ex_typecasting<double, double, double>(handle,
-                                                                trans_a,
-                                                                trans_b,
-                                                                m,
-                                                                n,
-                                                                k,
-                                                                alpha,
-                                                                a,
-                                                                lda,
-                                                                stride_a,
-                                                                b,
-                                                                ldb,
-                                                                stride_b,
-                                                                beta,
-                                                                c,
-                                                                ldc,
-                                                                stride_c,
-                                                                d,
-                                                                ldd,
-                                                                stride_d,
-                                                                batch_count);
+        rb_status = gemm_ex_typecasting<double, double, double>(EX_TYPECASTING_PARM);
     }
     else if(a_type == rocblas_datatype_f32_r && b_type == rocblas_datatype_f32_r
             && c_type == rocblas_datatype_f32_r && d_type == rocblas_datatype_f32_r
             && compute_type == rocblas_datatype_f32_r)
     {
-        rb_status = gemm_ex_typecasting<float, float, float>(handle,
-                                                             trans_a,
-                                                             trans_b,
-                                                             m,
-                                                             n,
-                                                             k,
-                                                             alpha,
-                                                             a,
-                                                             lda,
-                                                             stride_a,
-                                                             b,
-                                                             ldb,
-                                                             stride_b,
-                                                             beta,
-                                                             c,
-                                                             ldc,
-                                                             stride_c,
-                                                             d,
-                                                             ldd,
-                                                             stride_d,
-                                                             batch_count);
+        rb_status = gemm_ex_typecasting<float, float, float>(EX_TYPECASTING_PARM);
     }
     else if(a_type == rocblas_datatype_f16_r && b_type == rocblas_datatype_f16_r
             && c_type == rocblas_datatype_f16_r && d_type == rocblas_datatype_f16_r
             && compute_type == rocblas_datatype_f16_r)
     {
-        rb_status = gemm_ex_typecasting<_Float16, _Float16, _Float16>(handle,
-                                                                      trans_a,
-                                                                      trans_b,
-                                                                      m,
-                                                                      n,
-                                                                      k,
-                                                                      alpha,
-                                                                      a,
-                                                                      lda,
-                                                                      stride_a,
-                                                                      b,
-                                                                      ldb,
-                                                                      stride_b,
-                                                                      beta,
-                                                                      c,
-                                                                      ldc,
-                                                                      stride_c,
-                                                                      d,
-                                                                      ldd,
-                                                                      stride_d,
-                                                                      batch_count);
+        rb_status = gemm_ex_typecasting<_Float16, _Float16, _Float16>(EX_TYPECASTING_PARM);
     }
     else if(a_type == rocblas_datatype_f16_r && b_type == rocblas_datatype_f16_r
             && c_type == rocblas_datatype_f16_r && d_type == rocblas_datatype_f16_r
             && compute_type == rocblas_datatype_f32_r)
     {
-        rb_status = gemm_ex_typecasting<_Float16, _Float16, float>(handle,
-                                                                   trans_a,
-                                                                   trans_b,
-                                                                   m,
-                                                                   n,
-                                                                   k,
-                                                                   alpha,
-                                                                   a,
-                                                                   lda,
-                                                                   stride_a,
-                                                                   b,
-                                                                   ldb,
-                                                                   stride_b,
-                                                                   beta,
-                                                                   c,
-                                                                   ldc,
-                                                                   stride_c,
-                                                                   d,
-                                                                   ldd,
-                                                                   stride_d,
-                                                                   batch_count);
+        rb_status = gemm_ex_typecasting<_Float16, _Float16, float>(EX_TYPECASTING_PARM);
     }
     else if(a_type == rocblas_datatype_bf16_r && b_type == rocblas_datatype_bf16_r
             && c_type == rocblas_datatype_bf16_r && d_type == rocblas_datatype_bf16_r
             && compute_type == rocblas_datatype_f32_r)
     {
-        rb_status = gemm_ex_typecasting<tensile_bfloat16, tensile_bfloat16, float>(handle,
-                                                                                   trans_a,
-                                                                                   trans_b,
-                                                                                   m,
-                                                                                   n,
-                                                                                   k,
-                                                                                   alpha,
-                                                                                   a,
-                                                                                   lda,
-                                                                                   stride_a,
-                                                                                   b,
-                                                                                   ldb,
-                                                                                   stride_b,
-                                                                                   beta,
-                                                                                   c,
-                                                                                   ldc,
-                                                                                   stride_c,
-                                                                                   d,
-                                                                                   ldd,
-                                                                                   stride_d,
-                                                                                   batch_count);
+        rb_status
+            = gemm_ex_typecasting<tensile_bfloat16, tensile_bfloat16, float>(EX_TYPECASTING_PARM);
     }
     else if(a_type == rocblas_datatype_i8_r && b_type == rocblas_datatype_i8_r
             && c_type == rocblas_datatype_i32_r && d_type == rocblas_datatype_i32_r
@@ -865,33 +763,31 @@ extern "C" rocblas_status rocblas_gemm_strided_batched_ex(rocblas_handle    hand
             stride_b = stride_b / 4;
             k        = k / 4;
 
-            rb_status = gemm_ex_typecasting<TensileInt8x4, TensileInt32, TensileInt32>(handle,
-                                                                                       trans_a,
-                                                                                       trans_b,
-                                                                                       m,
-                                                                                       n,
-                                                                                       k,
-                                                                                       alpha,
-                                                                                       a,
-                                                                                       lda,
-                                                                                       stride_a,
-                                                                                       b,
-                                                                                       ldb,
-                                                                                       stride_b,
-                                                                                       beta,
-                                                                                       c,
-                                                                                       ldc,
-                                                                                       stride_c,
-                                                                                       d,
-                                                                                       ldd,
-                                                                                       stride_d,
-                                                                                       batch_count);
+            rb_status = gemm_ex_typecasting<TensileInt8x4, TensileInt32, TensileInt32>(
+                EX_TYPECASTING_PARM);
         }
     }
+    else if(a_type == rocblas_datatype_f32_c && b_type == rocblas_datatype_f32_c
+            && c_type == rocblas_datatype_f32_c && d_type == rocblas_datatype_f32_c
+            && compute_type == rocblas_datatype_f32_c)
+    {
+        rb_status = gemm_ex_typecasting<rocblas_float_complex,
+                                        rocblas_float_complex,
+                                        rocblas_float_complex>(EX_TYPECASTING_PARM);
+    }
+    else if(a_type == rocblas_datatype_f64_c && b_type == rocblas_datatype_f64_c
+            && c_type == rocblas_datatype_f64_c && d_type == rocblas_datatype_f64_c
+            && compute_type == rocblas_datatype_f64_c)
+    {
+        rb_status = gemm_ex_typecasting<rocblas_double_complex,
+                                        rocblas_double_complex,
+                                        rocblas_double_complex>(EX_TYPECASTING_PARM);
+    }
     else
     {
         rb_status = rocblas_status_not_implemented;
     }
+#undef EX_TYPECASTING_PARM
 
     return rb_status;
 }
diff --git a/library/src/blas_ex/rocblas_gemm_ex.hpp b/library/src/blas_ex/rocblas_gemm_ex.hpp
index bdf79be24..835126ec7 100644
--- a/library/src/blas_ex/rocblas_gemm_ex.hpp
+++ b/library/src/blas_ex/rocblas_gemm_ex.hpp
@@ -6,6 +6,7 @@
 
 #include "Tensile.h"
 #include "TensileTypes.h"
+#include "gemm.h"
 #include "handle.h"
 #include "logging.h"
 #include "rocblas.h"
@@ -113,60 +114,112 @@ static void device_strided_batched_matrix_copy(const void* src,
     }
 }
 //------------------------------------------------------------------------------
-#define TENSILE_IN_ARGS(Ti, To, Tc)                                                             \
-    To *dataD, const To *dataC, const Ti *dataA, const Ti *dataB, Tc alpha, Tc beta,            \
-        unsigned int strideD1J, unsigned int strideD2K, unsigned int strideC1J,                 \
-        unsigned int strideC2K, unsigned int strideA1L, unsigned int strideA2K,                 \
-        unsigned int strideB1J, unsigned int strideB2K, unsigned int sizeI, unsigned int sizeJ, \
-        unsigned int sizeK, unsigned int sizeL, hipStream_t stream
+#define TENSILE_IN_ARGS(Ti, To, Tc)                                                                         \
+    To* dataD, const To* dataC, const Ti* dataA, const Ti* dataB,                                           \
+        Tc alpha, Tc beta,                                                                                  \
+        unsigned int strideD1J, unsigned int strideD2K,                                                     \
+        unsigned int strideC1J, unsigned int strideC2K,                                                     \
+        unsigned int strideA1L, unsigned int strideA2K,                                                     \
+        unsigned int strideB1J, unsigned int strideB2K,                                                     \
+        unsigned int sizeI, unsigned int sizeJ, unsigned int sizeK, unsigned int sizeL, hipStream_t stream, \
+        unsigned int numInputEvents, void* dummy1, void* dummy2
+
+#define TENSILE_OUT_ARGS                                        \
+    dataD, dataC, dataA, dataB, alpha, beta,                    \
+        strideD1J, strideD2K, strideC1J, strideC2K,             \
+        strideA1L, strideA2K, strideB1J, strideB2K,             \
+        sizeI, sizeJ, sizeK, sizeL, stream, 0, nullptr, nullptr
 
 // Ti is typename for input data, To is typename for output data, Tc is typename for compute
 template <typename Ti, typename To, typename Tc>
-TensileStatus tensile_Cijk_Ailk_Bljk_B(TENSILE_IN_ARGS(Ti, To, Tc));
+inline TensileStatus tensile_Cijk_Ailk_Bljk_B(TENSILE_IN_ARGS(Ti, To, Tc))
+{
+    return tensileStatusFailure;
+}
+
+template <typename Ti, typename To, typename Tc>
+inline TensileStatus tensile_Cijk_Ailk_Bjlk_B(TENSILE_IN_ARGS(Ti, To, Tc))
+{
+    return tensileStatusFailure;
+}
+
+template <typename Ti, typename To, typename Tc>
+inline TensileStatus tensile_Cijk_Alik_Bljk_B(TENSILE_IN_ARGS(Ti, To, Tc))
+{
+    return tensileStatusFailure;
+}
+
+template <typename Ti, typename To, typename Tc>
+inline TensileStatus tensile_Cijk_Alik_Bjlk_B(TENSILE_IN_ARGS(Ti, To, Tc))
+{
+    return tensileStatusFailure;
+}
+
 template <typename Ti, typename To, typename Tc>
-TensileStatus tensile_Cijk_Ailk_Bjlk_B(TENSILE_IN_ARGS(Ti, To, Tc));
+inline TensileStatus tensile_Cijk_Ailk_BjlkC_B(TENSILE_IN_ARGS(Ti, To, Tc))
+{
+    return tensile_Cijk_Ailk_Bjlk_B<Ti,To,Tc>(TENSILE_OUT_ARGS);
+}
+
 template <typename Ti, typename To, typename Tc>
-TensileStatus tensile_Cijk_Alik_Bljk_B(TENSILE_IN_ARGS(Ti, To, Tc));
+inline TensileStatus tensile_Cijk_AlikC_Bljk_B(TENSILE_IN_ARGS(Ti, To, Tc))
+{
+    return tensile_Cijk_Alik_Bljk_B<Ti,To,Tc>(TENSILE_OUT_ARGS);
+}
+
 template <typename Ti, typename To, typename Tc>
-TensileStatus tensile_Cijk_Alik_Bjlk_B(TENSILE_IN_ARGS(Ti, To, Tc));
+inline TensileStatus tensile_Cijk_Alik_BjlkC_B(TENSILE_IN_ARGS(Ti, To, Tc))
+{
+    return tensile_Cijk_Alik_Bjlk_B<Ti,To,Tc>(TENSILE_OUT_ARGS);
+}
+
+template <typename Ti, typename To, typename Tc>
+inline TensileStatus tensile_Cijk_AlikC_Bjlk_B(TENSILE_IN_ARGS(Ti, To, Tc))
+{
+    return tensile_Cijk_Alik_Bjlk_B<Ti,To,Tc>(TENSILE_OUT_ARGS);
+}
+
+template <typename Ti, typename To, typename Tc>
+inline TensileStatus tensile_Cijk_AlikC_BjlkC_B(TENSILE_IN_ARGS(Ti, To, Tc))
+{
+    return tensile_Cijk_Alik_Bjlk_B<Ti,To,Tc>(TENSILE_OUT_ARGS);
+}
 
-#define TENSILE_OUT_ARGS                                                                   \
-    dataD, dataC, dataA, dataB, alpha, beta, strideD1J, strideD2K, strideC1J, strideC2K,   \
-        strideA1L, strideA2K, strideB1J, strideB2K, sizeI, sizeJ, sizeK, sizeL, stream, 0, \
-        nullptr, nullptr
-//---typename_data=tensile_bfloat16-----typename_compute=float---------------------------
+//----- typename_data = tensile_bfloat16 ----- typename_compute = float -----------------------
 template <>
-TensileStatus tensile_Cijk_Ailk_Bljk_B<tensile_bfloat16, tensile_bfloat16, float>(
+inline TensileStatus tensile_Cijk_Ailk_Bljk_B<tensile_bfloat16, tensile_bfloat16, float>(
     TENSILE_IN_ARGS(tensile_bfloat16, tensile_bfloat16, float))
 {
     return tensile_Cijk_Ailk_Bljk_BBH(TENSILE_OUT_ARGS);
 }
 template <>
-TensileStatus tensile_Cijk_Ailk_Bjlk_B<tensile_bfloat16, tensile_bfloat16, float>(
+inline TensileStatus tensile_Cijk_Ailk_Bjlk_B<tensile_bfloat16, tensile_bfloat16, float>(
     TENSILE_IN_ARGS(tensile_bfloat16, tensile_bfloat16, float))
 {
     return tensile_Cijk_Ailk_Bjlk_BBH(TENSILE_OUT_ARGS);
 }
 template <>
-TensileStatus tensile_Cijk_Alik_Bljk_B<tensile_bfloat16, tensile_bfloat16, float>(
+inline TensileStatus tensile_Cijk_Alik_Bljk_B<tensile_bfloat16, tensile_bfloat16, float>(
     TENSILE_IN_ARGS(tensile_bfloat16, tensile_bfloat16, float))
 {
     return tensile_Cijk_Alik_Bljk_BBH(TENSILE_OUT_ARGS);
 }
 template <>
-TensileStatus tensile_Cijk_Alik_Bjlk_B<tensile_bfloat16, tensile_bfloat16, float>(
+inline TensileStatus tensile_Cijk_Alik_Bjlk_B<tensile_bfloat16, tensile_bfloat16, float>(
     TENSILE_IN_ARGS(tensile_bfloat16, tensile_bfloat16, float))
 {
     return tensile_Cijk_Alik_Bjlk_BBH(TENSILE_OUT_ARGS);
 }
 
-#define TENSILE_OUT_ARGS_HALF                                                                      \
-    dataD, dataC, dataA, dataB, alpha_half, beta_half, strideD1J, strideD2K, strideC1J, strideC2K, \
-        strideA1L, strideA2K, strideB1J, strideB2K, sizeI, sizeJ, sizeK, sizeL, stream, 0,         \
-        nullptr, nullptr
-//---typename_data=TensileHalf-----typename_compute=float---------------------------
+//----- typename_data = TensileHalf ----- typename_compute = float---------------------------
+#define TENSILE_OUT_ARGS_HALF                                   \
+    dataD, dataC, dataA, dataB, alpha_half, beta_half,          \
+        strideD1J, strideD2K, strideC1J, strideC2K,             \
+        strideA1L, strideA2K, strideB1J, strideB2K,             \
+        sizeI, sizeJ, sizeK, sizeL, stream, 0, nullptr, nullptr
+
 template <>
-TensileStatus tensile_Cijk_Ailk_Bljk_B<TensileHalf, TensileHalf, float>(TENSILE_IN_ARGS(TensileHalf,
+inline TensileStatus tensile_Cijk_Ailk_Bljk_B<TensileHalf, TensileHalf, float>(TENSILE_IN_ARGS(TensileHalf,
                                                                                         TensileHalf,
                                                                                         float))
 {
@@ -176,7 +229,7 @@ TensileStatus tensile_Cijk_Ailk_Bljk_B<TensileHalf, TensileHalf, float>(TENSILE_
     return tensile_Cijk_Ailk_Bljk_HBH(TENSILE_OUT_ARGS_HALF);
 }
 template <>
-TensileStatus tensile_Cijk_Ailk_Bjlk_B<TensileHalf, TensileHalf, float>(TENSILE_IN_ARGS(TensileHalf,
+inline TensileStatus tensile_Cijk_Ailk_Bjlk_B<TensileHalf, TensileHalf, float>(TENSILE_IN_ARGS(TensileHalf,
                                                                                         TensileHalf,
                                                                                         float))
 {
@@ -186,7 +239,7 @@ TensileStatus tensile_Cijk_Ailk_Bjlk_B<TensileHalf, TensileHalf, float>(TENSILE_
     return tensile_Cijk_Ailk_Bjlk_HBH(TENSILE_OUT_ARGS_HALF);
 }
 template <>
-TensileStatus tensile_Cijk_Alik_Bljk_B<TensileHalf, TensileHalf, float>(TENSILE_IN_ARGS(TensileHalf,
+inline TensileStatus tensile_Cijk_Alik_Bljk_B<TensileHalf, TensileHalf, float>(TENSILE_IN_ARGS(TensileHalf,
                                                                                         TensileHalf,
                                                                                         float))
 {
@@ -196,7 +249,7 @@ TensileStatus tensile_Cijk_Alik_Bljk_B<TensileHalf, TensileHalf, float>(TENSILE_
     return tensile_Cijk_Alik_Bljk_HBH(TENSILE_OUT_ARGS_HALF);
 }
 template <>
-TensileStatus tensile_Cijk_Alik_Bjlk_B<TensileHalf, TensileHalf, float>(TENSILE_IN_ARGS(TensileHalf,
+inline TensileStatus tensile_Cijk_Alik_Bjlk_B<TensileHalf, TensileHalf, float>(TENSILE_IN_ARGS(TensileHalf,
                                                                                         TensileHalf,
                                                                                         float))
 {
@@ -206,104 +259,298 @@ TensileStatus tensile_Cijk_Alik_Bjlk_B<TensileHalf, TensileHalf, float>(TENSILE_
     return tensile_Cijk_Alik_Bjlk_HBH(TENSILE_OUT_ARGS_HALF);
 }
 #undef TENSILE_OUT_ARGS_HALF
-//---typename_data=TensileHalf-----typename_compute=TensileHalf---------------------
+
+//----- typename_data = TensileHalf ----- typename_compute = TensileHalf ---------------------
 template <>
-TensileStatus tensile_Cijk_Ailk_Bljk_B<TensileHalf, TensileHalf, TensileHalf>(
+inline TensileStatus tensile_Cijk_Ailk_Bljk_B<TensileHalf, TensileHalf, TensileHalf>(
     TENSILE_IN_ARGS(TensileHalf, TensileHalf, TensileHalf))
 {
     return tensile_Cijk_Ailk_Bljk_HB(TENSILE_OUT_ARGS);
 }
 template <>
-TensileStatus tensile_Cijk_Ailk_Bjlk_B<TensileHalf, TensileHalf, TensileHalf>(
+inline TensileStatus tensile_Cijk_Ailk_Bjlk_B<TensileHalf, TensileHalf, TensileHalf>(
     TENSILE_IN_ARGS(TensileHalf, TensileHalf, TensileHalf))
 {
     return tensile_Cijk_Ailk_Bjlk_HB(TENSILE_OUT_ARGS);
 }
 template <>
-TensileStatus tensile_Cijk_Alik_Bljk_B<TensileHalf, TensileHalf, TensileHalf>(
+inline TensileStatus tensile_Cijk_Alik_Bljk_B<TensileHalf, TensileHalf, TensileHalf>(
     TENSILE_IN_ARGS(TensileHalf, TensileHalf, TensileHalf))
 {
     return tensile_Cijk_Alik_Bljk_HB(TENSILE_OUT_ARGS);
 }
 template <>
-TensileStatus tensile_Cijk_Alik_Bjlk_B<TensileHalf, TensileHalf, TensileHalf>(
+inline TensileStatus tensile_Cijk_Alik_Bjlk_B<TensileHalf, TensileHalf, TensileHalf>(
     TENSILE_IN_ARGS(TensileHalf, TensileHalf, TensileHalf))
 {
     return tensile_Cijk_Alik_Bjlk_HB(TENSILE_OUT_ARGS);
 }
-//---typename_data=float-----------typename_compute=float---------------------------
+
+//----- typename_data = float ----------- typename_compute = float ---------------------------
 template <>
-TensileStatus tensile_Cijk_Ailk_Bljk_B<float, float, float>(TENSILE_IN_ARGS(float, float, float))
+inline TensileStatus tensile_Cijk_Ailk_Bljk_B<float, float, float>(TENSILE_IN_ARGS(float, float, float))
 {
     return tensile_Cijk_Ailk_Bljk_SB(TENSILE_OUT_ARGS);
 }
 template <>
-TensileStatus tensile_Cijk_Ailk_Bjlk_B<float, float, float>(TENSILE_IN_ARGS(float, float, float))
+inline TensileStatus tensile_Cijk_Ailk_Bjlk_B<float, float, float>(TENSILE_IN_ARGS(float, float, float))
 {
     return tensile_Cijk_Ailk_Bjlk_SB(TENSILE_OUT_ARGS);
 }
 template <>
-TensileStatus tensile_Cijk_Alik_Bljk_B<float, float, float>(TENSILE_IN_ARGS(float, float, float))
+inline TensileStatus tensile_Cijk_Alik_Bljk_B<float, float, float>(TENSILE_IN_ARGS(float, float, float))
 {
     return tensile_Cijk_Alik_Bljk_SB(TENSILE_OUT_ARGS);
 }
 template <>
-TensileStatus tensile_Cijk_Alik_Bjlk_B<float, float, float>(TENSILE_IN_ARGS(float, float, float))
+inline TensileStatus tensile_Cijk_Alik_Bjlk_B<float, float, float>(TENSILE_IN_ARGS(float, float, float))
 {
     return tensile_Cijk_Alik_Bjlk_SB(TENSILE_OUT_ARGS);
 }
-//---typename_data=double----------typename_compute=double--------------------------
+
+//----- typename_data = double ---------- typename_compute = double --------------------------
 template <>
-TensileStatus
+inline TensileStatus
     tensile_Cijk_Ailk_Bljk_B<double, double, double>(TENSILE_IN_ARGS(double, double, double))
 {
     return tensile_Cijk_Ailk_Bljk_DB(TENSILE_OUT_ARGS);
 }
 template <>
-TensileStatus
+inline TensileStatus
     tensile_Cijk_Ailk_Bjlk_B<double, double, double>(TENSILE_IN_ARGS(double, double, double))
 {
     return tensile_Cijk_Ailk_Bjlk_DB(TENSILE_OUT_ARGS);
 }
 template <>
-TensileStatus
+inline TensileStatus
     tensile_Cijk_Alik_Bljk_B<double, double, double>(TENSILE_IN_ARGS(double, double, double))
 {
     return tensile_Cijk_Alik_Bljk_DB(TENSILE_OUT_ARGS);
 }
 template <>
-TensileStatus
+inline TensileStatus
     tensile_Cijk_Alik_Bjlk_B<double, double, double>(TENSILE_IN_ARGS(double, double, double))
 {
     return tensile_Cijk_Alik_Bjlk_DB(TENSILE_OUT_ARGS);
 }
-//---typename_input=int8----typename_output=int------typename_compute=int--------------------------
+
+//----- typename_input = int8 ---- typename_output = int ------ typename_compute = int ------------------
 template <>
-TensileStatus tensile_Cijk_Ailk_Bljk_B<TensileInt8x4, TensileInt32, TensileInt32>(
+inline TensileStatus tensile_Cijk_Ailk_Bljk_B<TensileInt8x4, TensileInt32, TensileInt32>(
     TENSILE_IN_ARGS(TensileInt8x4, TensileInt32, TensileInt32))
 {
     return tensile_Cijk_Ailk_Bljk_4xi8BH(TENSILE_OUT_ARGS);
 }
 template <>
-TensileStatus tensile_Cijk_Ailk_Bjlk_B<TensileInt8x4, TensileInt32, TensileInt32>(
+inline TensileStatus tensile_Cijk_Ailk_Bjlk_B<TensileInt8x4, TensileInt32, TensileInt32>(
     TENSILE_IN_ARGS(TensileInt8x4, TensileInt32, TensileInt32))
 {
     return tensile_Cijk_Ailk_Bjlk_4xi8BH(TENSILE_OUT_ARGS);
 }
 template <>
-TensileStatus tensile_Cijk_Alik_Bljk_B<TensileInt8x4, TensileInt32, TensileInt32>(
+inline TensileStatus tensile_Cijk_Alik_Bljk_B<TensileInt8x4, TensileInt32, TensileInt32>(
     TENSILE_IN_ARGS(TensileInt8x4, TensileInt32, TensileInt32))
 {
     return tensile_Cijk_Alik_Bljk_4xi8BH(TENSILE_OUT_ARGS);
 }
 template <>
-TensileStatus tensile_Cijk_Alik_Bjlk_B<TensileInt8x4, TensileInt32, TensileInt32>(
+inline TensileStatus tensile_Cijk_Alik_Bjlk_B<TensileInt8x4, TensileInt32, TensileInt32>(
     TENSILE_IN_ARGS(TensileInt8x4, TensileInt32, TensileInt32))
 {
     return tensile_Cijk_Alik_Bjlk_4xi8BH(TENSILE_OUT_ARGS);
 }
+
+//----- typename_data=rocblas_float_complex ---------- typename_compute = rocblas_float_complex --------------------------
+#define TENSILE_COMPLEX_OUT_ARGS(Ti, To, Tc)                                        \
+    (To*)dataD, (const To*)dataC, (const Ti*)dataA, (const Ti*)dataB,               \
+        *((Tc*)&alpha), *((Tc*)&beta),                                              \
+        strideD1J, strideD2K, strideC1J, strideC2K,                                 \
+        strideA1L, strideA2K, strideB1J, strideB2K,                                 \
+        sizeI, sizeJ, sizeK, sizeL, stream, 0, nullptr, nullptr
+
+static_assert(std::is_standard_layout<TensileComplexFloat>{},
+          "TensileComplexFloat is not a standard layout type, and thus is "
+          "incompatible with C.");
+
+static_assert(std::is_trivial<TensileComplexFloat>{},
+          "TensileComplexFloat is not a trivial type, and thus is "
+          "incompatible with C.");
+
+static_assert(sizeof(rocblas_float_complex) == sizeof(TensileComplexFloat),
+          "TensileComplexFloat does not match public rocblas_float_complex");
+template <>
+inline TensileStatus tensile_Cijk_Ailk_Bljk_B<rocblas_float_complex,rocblas_float_complex,rocblas_float_complex>(
+    TENSILE_IN_ARGS(rocblas_float_complex, rocblas_float_complex, rocblas_float_complex))
+{
+    return tensile_Cijk_Ailk_Bljk_CB(TENSILE_COMPLEX_OUT_ARGS(TensileComplexFloat, TensileComplexFloat, TensileComplexFloat));
+}
+template <>
+inline TensileStatus tensile_Cijk_Ailk_Bjlk_B<rocblas_float_complex,rocblas_float_complex,rocblas_float_complex>(
+    TENSILE_IN_ARGS(rocblas_float_complex, rocblas_float_complex, rocblas_float_complex))
+{
+    return tensile_Cijk_Ailk_Bjlk_CB(TENSILE_COMPLEX_OUT_ARGS(TensileComplexFloat, TensileComplexFloat, TensileComplexFloat));
+}
+template <>
+inline TensileStatus tensile_Cijk_Alik_Bljk_B<rocblas_float_complex,rocblas_float_complex,rocblas_float_complex>(
+    TENSILE_IN_ARGS(rocblas_float_complex, rocblas_float_complex, rocblas_float_complex))
+{
+    return tensile_Cijk_Alik_Bljk_CB(TENSILE_COMPLEX_OUT_ARGS(TensileComplexFloat, TensileComplexFloat, TensileComplexFloat));
+}
+template <>
+inline TensileStatus tensile_Cijk_Alik_Bjlk_B<rocblas_float_complex,rocblas_float_complex,rocblas_float_complex>(
+    TENSILE_IN_ARGS(rocblas_float_complex, rocblas_float_complex, rocblas_float_complex))
+{
+    return tensile_Cijk_Alik_Bjlk_CB(TENSILE_COMPLEX_OUT_ARGS(TensileComplexFloat, TensileComplexFloat, TensileComplexFloat));
+}
+// Complex Conjugate
+template <>
+inline TensileStatus tensile_Cijk_Ailk_BjlkC_B<rocblas_float_complex,rocblas_float_complex,rocblas_float_complex>(
+    TENSILE_IN_ARGS(rocblas_float_complex, rocblas_float_complex, rocblas_float_complex))
+{
+    return tensile_Cijk_Ailk_BjlkC_CB(TENSILE_COMPLEX_OUT_ARGS(TensileComplexFloat, TensileComplexFloat, TensileComplexFloat));
+}
+template <>
+inline TensileStatus tensile_Cijk_AlikC_Bljk_B<rocblas_float_complex,rocblas_float_complex,rocblas_float_complex>(
+    TENSILE_IN_ARGS(rocblas_float_complex, rocblas_float_complex, rocblas_float_complex))
+{
+    return tensile_Cijk_AlikC_Bljk_CB(TENSILE_COMPLEX_OUT_ARGS(TensileComplexFloat, TensileComplexFloat, TensileComplexFloat));
+}
+template <>
+inline TensileStatus tensile_Cijk_Alik_BjlkC_B<rocblas_float_complex,rocblas_float_complex,rocblas_float_complex>(
+    TENSILE_IN_ARGS(rocblas_float_complex, rocblas_float_complex, rocblas_float_complex))
+{
+    return tensile_Cijk_Alik_BjlkC_CB(TENSILE_COMPLEX_OUT_ARGS(TensileComplexFloat, TensileComplexFloat, TensileComplexFloat));
+}
+template <>
+inline TensileStatus tensile_Cijk_AlikC_Bjlk_B<rocblas_float_complex,rocblas_float_complex,rocblas_float_complex>(
+    TENSILE_IN_ARGS(rocblas_float_complex, rocblas_float_complex, rocblas_float_complex))
+{
+    return tensile_Cijk_AlikC_Bjlk_CB(TENSILE_COMPLEX_OUT_ARGS(TensileComplexFloat, TensileComplexFloat, TensileComplexFloat));
+}
+template <>
+inline TensileStatus tensile_Cijk_AlikC_BjlkC_B<rocblas_float_complex,rocblas_float_complex,rocblas_float_complex>(
+    TENSILE_IN_ARGS(rocblas_float_complex, rocblas_float_complex, rocblas_float_complex))
+{
+    return tensile_Cijk_AlikC_BjlkC_CB(TENSILE_COMPLEX_OUT_ARGS(TensileComplexFloat, TensileComplexFloat, TensileComplexFloat));
+}
+
+//----- typename_data = rocblas_double_complex ---------- typename_compute = rocblas_double_complex --------------------------
+static_assert(std::is_standard_layout<TensileComplexDouble>{},
+              "TensileComplexDouble is not a standard layout type, and thus is "
+              "incompatible with C.");
+
+static_assert(std::is_trivial<TensileComplexDouble>{},
+              "TensileComplexDouble is not a trivial type, and thus is "
+              "incompatible with C.");
+
+static_assert(sizeof(rocblas_double_complex) == sizeof(TensileComplexDouble),
+              "TensileComplexDouble does not match rocblas_double_complex");
+template <>
+inline TensileStatus tensile_Cijk_Ailk_Bljk_B<rocblas_double_complex,rocblas_double_complex,rocblas_double_complex>(
+    TENSILE_IN_ARGS(rocblas_double_complex, rocblas_double_complex, rocblas_double_complex))
+{
+    return tensile_Cijk_Ailk_Bljk_ZB(TENSILE_COMPLEX_OUT_ARGS(TensileComplexDouble, TensileComplexDouble, TensileComplexDouble));
+}
+template <>
+inline TensileStatus tensile_Cijk_Ailk_Bjlk_B<rocblas_double_complex,rocblas_double_complex,rocblas_double_complex>(
+    TENSILE_IN_ARGS(rocblas_double_complex, rocblas_double_complex, rocblas_double_complex))
+{
+    return tensile_Cijk_Ailk_Bjlk_ZB(TENSILE_COMPLEX_OUT_ARGS(TensileComplexDouble, TensileComplexDouble, TensileComplexDouble));
+}
+template <>
+inline TensileStatus tensile_Cijk_Alik_Bljk_B<rocblas_double_complex,rocblas_double_complex,rocblas_double_complex>(
+    TENSILE_IN_ARGS(rocblas_double_complex, rocblas_double_complex, rocblas_double_complex))
+{
+    return tensile_Cijk_Alik_Bljk_ZB(TENSILE_COMPLEX_OUT_ARGS(TensileComplexDouble, TensileComplexDouble, TensileComplexDouble));
+}
+template <>
+inline TensileStatus tensile_Cijk_Alik_Bjlk_B<rocblas_double_complex,rocblas_double_complex,rocblas_double_complex>(
+    TENSILE_IN_ARGS(rocblas_double_complex, rocblas_double_complex, rocblas_double_complex))
+{
+    return tensile_Cijk_Alik_Bjlk_ZB(TENSILE_COMPLEX_OUT_ARGS(TensileComplexDouble, TensileComplexDouble, TensileComplexDouble));
+}
+// Complex Conjugate
+template <>
+inline TensileStatus tensile_Cijk_Ailk_BjlkC_B<rocblas_double_complex,rocblas_double_complex,rocblas_double_complex>(
+    TENSILE_IN_ARGS(rocblas_double_complex, rocblas_double_complex, rocblas_double_complex))
+{
+    return tensile_Cijk_Ailk_BjlkC_ZB(TENSILE_COMPLEX_OUT_ARGS(TensileComplexDouble, TensileComplexDouble, TensileComplexDouble));
+}
+template <>
+inline TensileStatus tensile_Cijk_AlikC_Bljk_B<rocblas_double_complex,rocblas_double_complex,rocblas_double_complex>(
+    TENSILE_IN_ARGS(rocblas_double_complex, rocblas_double_complex, rocblas_double_complex))
+{
+    return tensile_Cijk_AlikC_Bljk_ZB(TENSILE_COMPLEX_OUT_ARGS(TensileComplexDouble, TensileComplexDouble, TensileComplexDouble));
+}
+template <>
+inline TensileStatus tensile_Cijk_Alik_BjlkC_B<rocblas_double_complex,rocblas_double_complex,rocblas_double_complex>(
+    TENSILE_IN_ARGS(rocblas_double_complex, rocblas_double_complex, rocblas_double_complex))
+{
+    return tensile_Cijk_Alik_BjlkC_ZB(TENSILE_COMPLEX_OUT_ARGS(TensileComplexDouble, TensileComplexDouble, TensileComplexDouble));
+}
+template <>
+inline TensileStatus tensile_Cijk_AlikC_Bjlk_B<rocblas_double_complex,rocblas_double_complex,rocblas_double_complex>(
+    TENSILE_IN_ARGS(rocblas_double_complex, rocblas_double_complex, rocblas_double_complex))
+{
+    return tensile_Cijk_AlikC_Bjlk_ZB(TENSILE_COMPLEX_OUT_ARGS(TensileComplexDouble, TensileComplexDouble, TensileComplexDouble));
+}
+template <>
+inline TensileStatus tensile_Cijk_AlikC_BjlkC_B<rocblas_double_complex,rocblas_double_complex,rocblas_double_complex>(
+    TENSILE_IN_ARGS(rocblas_double_complex, rocblas_double_complex, rocblas_double_complex))
+{
+    return tensile_Cijk_AlikC_BjlkC_ZB(TENSILE_COMPLEX_OUT_ARGS(TensileComplexDouble, TensileComplexDouble, TensileComplexDouble));
+}
+
+template <typename Ti, typename To, typename Tc>
+inline TensileStatus call_tensile_ex(To* dataD,
+                                     const To* dataC,
+                                     const Ti* dataA,
+                                     const Ti* dataB,
+                                     Tc alpha, Tc beta,
+                                     unsigned int strideD1J,
+                                     unsigned int strideD2K,
+                                     unsigned int strideC1J,
+                                     unsigned int strideC2K,
+                                     unsigned int strideA1L,
+                                     unsigned int strideA2K,
+                                     unsigned int strideB1J,
+                                     unsigned int strideB2K,
+                                     unsigned int sizeI,
+                                     unsigned int sizeJ,
+                                     unsigned int sizeK,
+                                     unsigned int sizeL,
+                                     hipStream_t stream,
+                                     transpose_mode transposeMode)
+{
+    switch(transposeMode)
+    {
+    case NN:
+        return tensile_Cijk_Ailk_Bljk_B<Ti, To, Tc>(TENSILE_OUT_ARGS);
+    case NT:
+        return tensile_Cijk_Ailk_Bjlk_B<Ti, To, Tc>(TENSILE_OUT_ARGS);
+    case NC:
+        return tensile_Cijk_Ailk_BjlkC_B<Ti, To, Tc>(TENSILE_OUT_ARGS);
+    case TN:
+        return tensile_Cijk_Alik_Bljk_B<Ti, To, Tc>(TENSILE_OUT_ARGS);
+    case CN:
+        return tensile_Cijk_AlikC_Bljk_B<Ti, To, Tc>(TENSILE_OUT_ARGS);
+    case TT:
+        return tensile_Cijk_Alik_Bjlk_B<Ti, To, Tc>(TENSILE_OUT_ARGS);
+    case TC:
+        return tensile_Cijk_Alik_BjlkC_B<Ti, To, Tc>(TENSILE_OUT_ARGS);
+    case CT:
+        return tensile_Cijk_AlikC_Bjlk_B<Ti, To, Tc>(TENSILE_OUT_ARGS);
+    case CC:
+        return tensile_Cijk_AlikC_BjlkC_B<Ti, To, Tc>(TENSILE_OUT_ARGS);
+    }
+
+    return tensileStatusFailure;
+}
+
+#undef TENSILE_COMPLEX_OUT_ARGS
 #undef TENSILE_IN_ARGS
 #undef TENSILE_OUT_ARGS
+
 //------------------------------------------------------------------------------
 
 template <typename Ti, typename To, typename Tc>
@@ -335,6 +582,7 @@ rocblas_status gemm_ex_handle_transpose(rocblas_handle    handle,
     static const bool arch_lt906 = handle->device_arch_id() < 906;
     const To* c_in;
     unsigned int ldi, stride_i;
+
     if(!arch_lt906 && (std::is_same<Ti, float>{} || std::is_same<Ti, double>{}) &&
        ((ldc >= ldd && stride_c >= stride_d && m == ldd) || (ldc == ldd && stride_c == stride_d)))
     {
@@ -351,103 +599,22 @@ rocblas_status gemm_ex_handle_transpose(rocblas_handle    handle,
         stride_i = stride_d;
     }
 
-    if((trans_a == rocblas_operation_none) && (trans_b == rocblas_operation_none))
-    {
-        t_status = tensile_Cijk_Ailk_Bljk_B<Ti, To, Tc>(static_cast<To*>(d),
-                                                        static_cast<const To*>(c_in),
-                                                        static_cast<const Ti*>(a),
-                                                        static_cast<const Ti*>(b),
-                                                        alpha,
-                                                        beta,
-                                                        static_cast<unsigned int>(ldd),
-                                                        stride_d,
-                                                        static_cast<unsigned int>(ldi),
-                                                        stride_i,
-                                                        static_cast<unsigned int>(lda),
-                                                        stride_a,
-                                                        static_cast<unsigned int>(ldb),
-                                                        stride_b,
-                                                        static_cast<unsigned int>(m),
-                                                        static_cast<unsigned int>(n),
-                                                        static_cast<unsigned int>(batch_count),
-                                                        static_cast<unsigned int>(k),
-                                                        handle->rocblas_stream);
-    }
-    else if((trans_a == rocblas_operation_none)
-            && (trans_b == rocblas_operation_transpose
-                || trans_b == rocblas_operation_conjugate_transpose))
-    {
-        t_status = tensile_Cijk_Ailk_Bjlk_B<Ti,To,Tc>(static_cast<To*>(d),
-                                                      static_cast<const To*>(c_in),
-                                                      static_cast<const Ti*>(a),
-                                                      static_cast<const Ti*>(b),
-                                                      alpha, beta,
-                                                      static_cast<unsigned int>(ldd), stride_d,
-                                                      static_cast<unsigned int>(ldi), stride_i,
-                                                      static_cast<unsigned int>(lda), stride_a,
-                                                      static_cast<unsigned int>(ldb), stride_b,
-                                                      static_cast<unsigned int>(m),
-                                                      static_cast<unsigned int>(n),
-                                                      static_cast<unsigned int>(batch_count),
-                                                      static_cast<unsigned int>(k),
-                                                      handle->rocblas_stream);
-    }
-    else if((trans_a == rocblas_operation_transpose
-             || trans_a == rocblas_operation_conjugate_transpose)
-            && (trans_b == rocblas_operation_none))
-    {
-        t_status = tensile_Cijk_Alik_Bljk_B<Ti, To, Tc>(static_cast<To*>(d),
-                                                        static_cast<const To*>(c_in),
-                                                        static_cast<const Ti*>(a),
-                                                        static_cast<const Ti*>(b),
-                                                        alpha,
-                                                        beta,
-                                                        static_cast<unsigned int>(ldd),
-                                                        stride_d,
-                                                        static_cast<unsigned int>(ldi),
-                                                        stride_i,
-                                                        static_cast<unsigned int>(lda),
-                                                        stride_a,
-                                                        static_cast<unsigned int>(ldb),
-                                                        stride_b,
-                                                        static_cast<unsigned int>(m),
-                                                        static_cast<unsigned int>(n),
-                                                        static_cast<unsigned int>(batch_count),
-                                                        static_cast<unsigned int>(k),
-                                                        handle->rocblas_stream);
-    }
-    else if((trans_a == rocblas_operation_transpose
-             || trans_a == rocblas_operation_conjugate_transpose)
-            && (trans_b == rocblas_operation_transpose
-                || trans_b == rocblas_operation_conjugate_transpose))
-    {
-        t_status = tensile_Cijk_Alik_Bjlk_B<Ti, To, Tc>(static_cast<To*>(d),
-                                                        static_cast<const To*>(c_in),
-                                                        static_cast<const Ti*>(a),
-                                                        static_cast<const Ti*>(b),
-                                                        alpha,
-                                                        beta,
-                                                        static_cast<unsigned int>(ldd),
-                                                        stride_d,
-                                                        static_cast<unsigned int>(ldi),
-                                                        stride_i,
-                                                        static_cast<unsigned int>(lda),
-                                                        stride_a,
-                                                        static_cast<unsigned int>(ldb),
-                                                        stride_b,
-                                                        static_cast<unsigned int>(m),
-                                                        static_cast<unsigned int>(n),
-                                                        static_cast<unsigned int>(batch_count),
-                                                        static_cast<unsigned int>(k),
-                                                        handle->rocblas_stream);
-    }
-    else
-    {
-        t_status = tensileStatusFailure;
-    }
-
-    rb_status
-        = t_status == tensileStatusSuccess ? rocblas_status_success : rocblas_status_internal_error;
+    t_status = call_tensile_ex<Ti,To,Tc>((To*)d,
+                                         (const To*)c_in,
+                                         (const Ti*)a,
+                                         (const Ti*)b,
+                                         alpha, beta,
+                                         unsigned(ldd), stride_d,
+                                         unsigned(ldi), stride_i,
+                                         unsigned(lda), stride_a,
+                                         unsigned(ldb), stride_b,
+                                         unsigned(m),
+                                         unsigned(n),
+                                         unsigned(batch_count),
+                                         unsigned(k),
+                                         handle->rocblas_stream, GetTransposeMode(trans_a, trans_b));
+
+    rb_status = (t_status == tensileStatusSuccess) ? rocblas_status_success : rocblas_status_internal_error;
     return rb_status;
 }
 
@@ -604,8 +771,8 @@ rocblas_status gemm_ex_typecasting(rocblas_handle    handle,
     }
     else
     {
-        h_alpha = *(static_cast<const Tc*>(alpha));
-        h_beta  = *(static_cast<const Tc*>(beta));
+        h_alpha = *((const Tc*)alpha);
+        h_beta  = *((const Tc*)beta);
     }
 
     // check alignment of pointers before casting
@@ -618,24 +785,24 @@ rocblas_status gemm_ex_typecasting(rocblas_handle    handle,
     return gemm_ex_chunking<Ti, To, Tc>(handle,
                                         trans_a,
                                         trans_b,
-                                        static_cast<unsigned int>(m),
-                                        static_cast<unsigned int>(n),
-                                        static_cast<unsigned int>(k),
+                                        unsigned(m),
+                                        unsigned(n),
+                                        unsigned(k),
                                         h_alpha,
-                                        static_cast<const Ti*>(a),
-                                        static_cast<unsigned int>(lda),
-                                        static_cast<unsigned int>(stride_a),
-                                        static_cast<const Ti*>(b),
-                                        static_cast<unsigned int>(ldb),
-                                        static_cast<unsigned int>(stride_b),
+                                        (const Ti*)a,
+                                        unsigned(lda),
+                                        unsigned(stride_a),
+                                        (const Ti*)b,
+                                        unsigned(ldb),
+                                        unsigned(stride_b),
                                         h_beta,
-                                        static_cast<const To*>(c),
-                                        static_cast<unsigned int>(ldc),
-                                        static_cast<unsigned int>(stride_c),
-                                        static_cast<To*>(d),
-                                        static_cast<unsigned int>(ldd),
-                                        static_cast<unsigned int>(stride_d),
-                                        static_cast<unsigned int>(batch_count));
+                                        (const To*)c,
+                                        unsigned(ldc),
+                                        unsigned(stride_c),
+                                        (To*)d,
+                                        unsigned(ldd),
+                                        unsigned(stride_d),
+                                        unsigned(batch_count));
 }
 
 #endif
diff --git a/library/src/include/utility.h b/library/src/include/utility.h
index ac0e85559..ed7672166 100644
--- a/library/src/include/utility.h
+++ b/library/src/include/utility.h
@@ -6,6 +6,7 @@
 #define UTILITY_H
 #include "definitions.h"
 #include "rocblas.h"
+#include <cmath>
 #include <complex>
 #include <hip/hip_runtime.h>
 #include <type_traits>
@@ -240,4 +241,26 @@ constexpr auto get_rocblas_status_for_hip_status(hipError_t status)
         return rocblas_status_internal_error;
     }
 }
+
+// Absolute value
+template <typename T, typename std::enable_if<!is_complex<T>, int>::type = 0>
+__device__ __host__ inline auto rocblas_abs(T x)
+{
+    return x < 0 ? -x : x;
+}
+
+// For complex, we have defined a __device__ __host__ compatible std::abs
+template <typename T, typename std::enable_if<is_complex<T>, int>::type = 0>
+__device__ __host__ inline auto rocblas_abs(T x)
+{
+    return std::abs(x);
+}
+
+// rocblas_bfloat16 is handled specially
+__device__ __host__ inline auto rocblas_abs(rocblas_bfloat16 x)
+{
+    x.data &= 0x7fff;
+    return x;
+}
+
 #endif
diff --git a/scripts/performance/sgemm_dlrm2.sh b/scripts/performance/sgemm_dlrm2.sh
new file mode 100755
index 000000000..382a7cdb2
--- /dev/null
+++ b/scripts/performance/sgemm_dlrm2.sh
@@ -0,0 +1,13 @@
+#!/bin/bash
+
+./rocblas-bench -f gemm -r f32_r --transposeA N --transposeB N -m 2048 -n 1024 -k 1 --alpha 1.0 --lda 2048 --ldb 1 --beta 0.0 --ldc 2048
+./rocblas-bench -f gemm -r f32_r --transposeA N --transposeB N -m 256 -n 1024 -k 1 --alpha 1.0 --lda 256 --ldb 1 --beta 0.0 --ldc 256
+./rocblas-bench -f gemm -r f32_r --transposeA N --transposeB N -m 4096 -n 1024 -k 1 --alpha 1.0 --lda 4096 --ldb 1 --beta 0.0 --ldc 4096
+./rocblas-bench -f gemm -r f32_r --transposeA N --transposeB N -m 257 -n 1024 -k 4096 --alpha 1.0 --lda 257 --ldb 4096 --beta 0.0 --ldc 257
+./rocblas-bench -f gemm -r f32_r --transposeA N --transposeB N -m 3200 -n 1024 -k 2048 --alpha 1.0 --lda 3200 --ldb 2048 --beta 0.0 --ldc 3200
+./rocblas-bench -f gemm -r f32_r --transposeA N --transposeB N -m 2048 -n 1024 -k 256 --alpha 1.0 --lda 2048 --ldb 256 --beta 0.0 --ldc 2048
+./rocblas-bench -f gemm -r f32_r --transposeA N --transposeB T -m 3200 -n 2048 -k 1024 --alpha 1.0 --lda 3200 --ldb 2048 --beta 0.0 --ldc 3200
+./rocblas-bench -f gemm -r f32_r --transposeA N --transposeB T -m 4096 -n 4096 -k 1024 --alpha 1.0 --lda 4096 --ldb 4096 --beta 0.0 --ldc 4096
+./rocblas-bench -f gemm -r f32_r --transposeA N --transposeB T -m 257 -n 4096 -k 1024 --alpha 1.0 --lda 257 --ldb 4096 --beta 0.0 --ldc 257
+./rocblas-bench -f gemm -r f32_r --transposeA N --transposeB T -m 2048 -n 256 -k 1024 --alpha 1.0 --lda 2048 --ldb 256 --beta 0.0 --ldc 2048
+./rocblas-bench -f gemm -r f32_r --transposeA N --transposeB T -m 2048 -n 2048 -k 1024 --alpha 1.0 --lda 2048 --ldb 2048 --beta 0.0 --ldc 2048
diff --git a/scripts/performance/sgemm_resnet_inception1.sh b/scripts/performance/sgemm_resnet_inception1.sh
new file mode 100755
index 000000000..dfd335e07
--- /dev/null
+++ b/scripts/performance/sgemm_resnet_inception1.sh
@@ -0,0 +1,58 @@
+#!/bin/bash
+
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 3136 -n 256 -k 64 --alpha 1.0 --lda 3136 --stride_a 200704 --ldb 64 --stride_b 0 --beta 0.0 --ldc 3136 --stride_c 802816 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 3136 -n 64 -k 64 --alpha 1.0 --lda 3136 --stride_a 200704 --ldb 64 --stride_b 0 --beta 0.0 --ldc 3136 --stride_c 200704 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 3136 -n 64 -k 256 --alpha 1.0 --lda 3136 --stride_a 802816 --ldb 256 --stride_b 0 --beta 0.0 --ldc 3136 --stride_c 200704 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 784 -n 512 -k 128 --alpha 1.0 --lda 784 --stride_a 100352 --ldb 128 --stride_b 0 --beta 0.0 --ldc 784 --stride_c 401408 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 784 -n 128 -k 512 --alpha 1.0 --lda 784 --stride_a 401408 --ldb 512 --stride_b 0 --beta 0.0 --ldc 784 --stride_c 100352 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 196 -n 1024 -k 256 --alpha 1.0 --lda 196 --stride_a 50176 --ldb 256 --stride_b 0 --beta 0.0 --ldc 196 --stride_c 200704 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 196 -n 256 -k 1024 --alpha 1.0 --lda 196 --stride_a 200704 --ldb 1024 --stride_b 0 --beta 0.0 --ldc 196 --stride_c 50176 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 320 -k 1280 --alpha 1.0 --lda 64 --stride_a 81920 --ldb 1280 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 20480 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 384 -k 1280 --alpha 1.0 --lda 64 --stride_a 81920 --ldb 1280 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 24576 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 448 -k 1280 --alpha 1.0 --lda 64 --stride_a 81920 --ldb 1280 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 28672 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 192 -k 1280 --alpha 1.0 --lda 64 --stride_a 81920 --ldb 1280 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 12288 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 320 -k 2048 --alpha 1.0 --lda 64 --stride_a 131072 --ldb 2048 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 20480 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 384 -k 2048 --alpha 1.0 --lda 64 --stride_a 131072 --ldb 2048 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 24576 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 448 -k 2048 --alpha 1.0 --lda 64 --stride_a 131072 --ldb 2048 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 28672 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 64 -n 192 -k 2048 --alpha 1.0 --lda 64 --stride_a 131072 --ldb 2048 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 12288 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3136 -n 64 -k 256 --alpha 1.0 --lda 3136 --stride_a 802816 --ldb 64 --stride_b 0 --beta 0.0 --ldc 3136 --stride_c 200704 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3136 -n 64 -k 64 --alpha 1.0 --lda 3136 --stride_a 200704 --ldb 64 --stride_b 0 --beta 0.0 --ldc 3136 --stride_c 200704 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3136 -n 256 -k 64 --alpha 1.0 --lda 3136 --stride_a 200704 --ldb 256 --stride_b 0 --beta 0.0 --ldc 3136 --stride_c 802816 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 784 -n 128 -k 512 --alpha 1.0 --lda 784 --stride_a 401408 --ldb 128 --stride_b 0 --beta 0.0 --ldc 784 --stride_c 100352 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 784 -n 512 -k 128 --alpha 1.0 --lda 784 --stride_a 100352 --ldb 512 --stride_b 0 --beta 0.0 --ldc 784 --stride_c 401408 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 196 -n 256 -k 1024 --alpha 1.0 --lda 196 --stride_a 200704 --ldb 256 --stride_b 0 --beta 0.0 --ldc 196 --stride_c 50176 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 196 -n 1024 -k 256 --alpha 1.0 --lda 196 --stride_a 50176 --ldb 1024 --stride_b 0 --beta 0.0 --ldc 196 --stride_c 200704 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 1280 -k 320 --alpha 1.0 --lda 64 --stride_a 20480 --ldb 1280 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 81920 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 1280 -k 384 --alpha 1.0 --lda 64 --stride_a 24576 --ldb 1280 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 81920 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 1280 -k 448 --alpha 1.0 --lda 64 --stride_a 28672 --ldb 1280 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 81920 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 1280 -k 192 --alpha 1.0 --lda 64 --stride_a 12288 --ldb 1280 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 81920 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 2048 -k 320 --alpha 1.0 --lda 64 --stride_a 20480 --ldb 2048 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 131072 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 2048 -k 384 --alpha 1.0 --lda 64 --stride_a 24576 --ldb 2048 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 131072 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 2048 -k 448 --alpha 1.0 --lda 64 --stride_a 28672 --ldb 2048 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 131072 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 2048 -k 192 --alpha 1.0 --lda 64 --stride_a 12288 --ldb 2048 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 131072 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 49 -n 2048 -k 512 --alpha 1.0 --lda 49 --stride_a 25088 --ldb 512 --stride_b 0 --beta 0.0 --ldc 49 --stride_c 100352 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 49 -n 512 -k 2048 --alpha 1.0 --lda 49 --stride_a 100352 --ldb 2048 --stride_b 0 --beta 0.0 --ldc 49 --stride_c 25088 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 5329 -n 80 -k 64 --alpha 1.0 --lda 5329 --stride_a 341056 --ldb 64 --stride_b 0 --beta 0.0 --ldc 5329 --stride_c 426320 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 64 -k 192 --alpha 1.0 --lda 1225 --stride_a 235200 --ldb 192 --stride_b 0 --beta 0.0 --ldc 1225 --stride_c 78400 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 48 -k 192 --alpha 1.0 --lda 1225 --stride_a 235200 --ldb 192 --stride_b 0 --beta 0.0 --ldc 1225 --stride_c 58800 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 32 -k 192 --alpha 1.0 --lda 1225 --stride_a 235200 --ldb 192 --stride_b 0 --beta 0.0 --ldc 1225 --stride_c 39200 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 64 -k 256 --alpha 1.0 --lda 1225 --stride_a 313600 --ldb 256 --stride_b 0 --beta 0.0 --ldc 1225 --stride_c 78400 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 48 -k 256 --alpha 1.0 --lda 1225 --stride_a 313600 --ldb 256 --stride_b 0 --beta 0.0 --ldc 1225 --stride_c 58800 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 64 -k 288 --alpha 1.0 --lda 1225 --stride_a 352800 --ldb 288 --stride_b 0 --beta 0.0 --ldc 1225 --stride_c 78400 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 1225 -n 48 -k 288 --alpha 1.0 --lda 1225 --stride_a 352800 --ldb 288 --stride_b 0 --beta 0.0 --ldc 1225 --stride_c 58800 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 289 -n 192 -k 768 --alpha 1.0 --lda 289 --stride_a 221952 --ldb 768 --stride_b 0 --beta 0.0 --ldc 289 --stride_c 55488 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 289 -n 128 -k 768 --alpha 1.0 --lda 289 --stride_a 221952 --ldb 768 --stride_b 0 --beta 0.0 --ldc 289 --stride_c 36992 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB N -m 289 -n 160 -k 768 --alpha 1.0 --lda 289 --stride_a 221952 --ldb 768 --stride_b 0 --beta 0.0 --ldc 289 --stride_c 46240 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 49 -n 512 -k 2048 --alpha 1.0 --lda 49 --stride_a 100352 --ldb 512 --stride_b 0 --beta 0.0 --ldc 49 --stride_c 25088 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 49 -n 2048 -k 512 --alpha 1.0 --lda 49 --stride_a 25088 --ldb 2048 --stride_b 0 --beta 0.0 --ldc 49 --stride_c 100352 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 5329 -n 64 -k 80 --alpha 1.0 --lda 5329 --stride_a 426320 --ldb 64 --stride_b 0 --beta 0.0 --ldc 5329 --stride_c 341056 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 192 -k 64 --alpha 1.0 --lda 1225 --stride_a 78400 --ldb 192 --stride_b 0 --beta 0.0 --ldc 1225 --stride_c 235200 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 192 -k 48 --alpha 1.0 --lda 1225 --stride_a 58800 --ldb 192 --stride_b 0 --beta 0.0 --ldc 1225 --stride_c 235200 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 192 -k 32 --alpha 1.0 --lda 1225 --stride_a 39200 --ldb 192 --stride_b 0 --beta 0.0 --ldc 1225 --stride_c 235200 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 256 -k 64 --alpha 1.0 --lda 1225 --stride_a 78400 --ldb 256 --stride_b 0 --beta 0.0 --ldc 1225 --stride_c 313600 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 256 -k 48 --alpha 1.0 --lda 1225 --stride_a 58800 --ldb 256 --stride_b 0 --beta 0.0 --ldc 1225 --stride_c 313600 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 288 -k 64 --alpha 1.0 --lda 1225 --stride_a 78400 --ldb 288 --stride_b 0 --beta 0.0 --ldc 1225 --stride_c 352800 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1225 -n 288 -k 48 --alpha 1.0 --lda 1225 --stride_a 58800 --ldb 288 --stride_b 0 --beta 0.0 --ldc 1225 --stride_c 352800 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 289 -n 768 -k 192 --alpha 1.0 --lda 289 --stride_a 55488 --ldb 768 --stride_b 0 --beta 0.0 --ldc 289 --stride_c 221952 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 289 -n 768 -k 128 --alpha 1.0 --lda 289 --stride_a 36992 --ldb 768 --stride_b 0 --beta 0.0 --ldc 289 --stride_c 221952 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 289 -n 768 -k 160 --alpha 1.0 --lda 289 --stride_a 46240 --ldb 768 --stride_b 0 --beta 0.0 --ldc 289 --stride_c 221952 --batch 64
diff --git a/scripts/performance/sgemm_winograd2.sh b/scripts/performance/sgemm_winograd2.sh
new file mode 100755
index 000000000..2276154c5
--- /dev/null
+++ b/scripts/performance/sgemm_winograd2.sh
@@ -0,0 +1,50 @@
+#!/bin/bash
+
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 192 -n 80 -k 14400 --alpha 1.0 --lda 14400 --stride_a 2764800 --ldb 14400 --stride_b 0 --beta 0.0 --ldc 192 --stride_c 15360 --batch 49
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 192 -n 80 -k 18432 --alpha 1.0 --lda 18432 --stride_a 3538944 --ldb 18432 --stride_b 0 --beta 0.0 --ldc 192 --stride_c 15360 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 192 -n 80 -k 20736 --alpha 1.0 --lda 20736 --stride_a 3981312 --ldb 20736 --stride_b 0 --beta 0.0 --ldc 192 --stride_c 15360 --batch 36
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 192 -n 80 -k 28800 --alpha 1.0 --lda 28800 --stride_a 5529600 --ldb 28800 --stride_b 0 --beta 0.0 --ldc 192 --stride_c 15360 --batch 49
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 192 -n 80 -k 41472 --alpha 1.0 --lda 41472 --stride_a 7962624 --ldb 41472 --stride_b 0 --beta 0.0 --ldc 192 --stride_c 15360 --batch 36
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 192 -n 80 -k 9216 --alpha 1.0 --lda 9216 --stride_a 1769472 --ldb 9216 --stride_b 0 --beta 0.0 --ldc 192 --stride_c 15360 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 224 -n 192 -k 10368 --alpha 1.0 --lda 10368 --stride_a 2322432 --ldb 10368 --stride_b 0 --beta 0.0 --ldc 224 --stride_c 43008 --batch 36
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 224 -n 192 -k 2304 --alpha 1.0 --lda 2304 --stride_a 516096 --ldb 2304 --stride_b 0 --beta 0.0 --ldc 224 --stride_c 43008 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 224 -n 192 -k 3136 --alpha 1.0 --lda 3136 --stride_a 702464 --ldb 3136 --stride_b 0 --beta 0.0 --ldc 224 --stride_c 43008 --batch 49
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 224 -n 192 -k 4608 --alpha 1.0 --lda 4608 --stride_a 1032192 --ldb 4608 --stride_b 0 --beta 0.0 --ldc 224 --stride_c 43008 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 224 -n 192 -k 5184 --alpha 1.0 --lda 5184 --stride_a 1161216 --ldb 5184 --stride_b 0 --beta 0.0 --ldc 224 --stride_c 43008 --batch 36
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 224 -n 192 -k 6272 --alpha 1.0 --lda 6272 --stride_a 1404928 --ldb 6272 --stride_b 0 --beta 0.0 --ldc 224 --stride_c 43008 --batch 49
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 32 -n 32 -k 115200 --alpha 1.0 --lda 115200 --stride_a 3686400 --ldb 115200 --stride_b 0 --beta 0.0 --ldc 32 --stride_c 1024 --batch 49
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 32 -n 32 -k 175232 --alpha 1.0 --lda 175232 --stride_a 5607424 --ldb 175232 --stride_b 0 --beta 0.0 --ldc 32 --stride_c 1024 --batch 36
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 32 -n 32 -k 40000 --alpha 1.0 --lda 40000 --stride_a 1280000 --ldb 40000 --stride_b 0 --beta 0.0 --ldc 32 --stride_c 1024 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 32 -n 32 -k 57600 --alpha 1.0 --lda 57600 --stride_a 1843200 --ldb 57600 --stride_b 0 --beta 0.0 --ldc 32 --stride_c 1024 --batch 49
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 32 -n 32 -k 80000 --alpha 1.0 --lda 80000 --stride_a 2560000 --ldb 80000 --stride_b 0 --beta 0.0 --ldc 32 --stride_c 1024 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 32 -n 32 -k 87616 --alpha 1.0 --lda 87616 --stride_a 2803712 --ldb 87616 --stride_b 0 --beta 0.0 --ldc 32 --stride_c 1024 --batch 36
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 384 -n 448 -k 256 --alpha 1.0 --lda 256 --stride_a 98304 --ldb 256 --stride_b 0 --beta 0.0 --ldc 384 --stride_c 172032 --batch 36
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 384 -n 448 -k 256 --alpha 1.0 --lda 256 --stride_a 98304 --ldb 256 --stride_b 0 --beta 0.0 --ldc 384 --stride_c 172032 --batch 49
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 384 -n 448 -k 256 --alpha 1.0 --lda 256 --stride_a 98304 --ldb 256 --stride_b 0 --beta 0.0 --ldc 384 --stride_c 172032 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 384 -n 448 -k 512 --alpha 1.0 --lda 512 --stride_a 196608 --ldb 512 --stride_b 0 --beta 0.0 --ldc 384 --stride_c 172032 --batch 36
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 384 -n 448 -k 512 --alpha 1.0 --lda 512 --stride_a 196608 --ldb 512 --stride_b 0 --beta 0.0 --ldc 384 --stride_c 172032 --batch 49
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 384 -n 448 -k 512 --alpha 1.0 --lda 512 --stride_a 196608 --ldb 512 --stride_b 0 --beta 0.0 --ldc 384 --stride_c 172032 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 64 -n 32 -k 115200 --alpha 1.0 --lda 115200 --stride_a 7372800 --ldb 115200 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 2048 --batch 49
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 64 -n 32 -k 175232 --alpha 1.0 --lda 175232 --stride_a 11214848 --ldb 175232 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 2048 --batch 36
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 64 -n 32 -k 40000 --alpha 1.0 --lda 40000 --stride_a 2560000 --ldb 40000 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 2048 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 64 -n 32 -k 57600 --alpha 1.0 --lda 57600 --stride_a 3686400 --ldb 57600 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 2048 --batch 49
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 64 -n 32 -k 80000 --alpha 1.0 --lda 80000 --stride_a 5120000 --ldb 80000 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 2048 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 64 -n 32 -k 87616 --alpha 1.0 --lda 87616 --stride_a 5607424 --ldb 87616 --stride_b 0 --beta 0.0 --ldc 64 --stride_c 2048 --batch 36
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 96 -n 64 -k 10368 --alpha 1.0 --lda 10368 --stride_a 995328 --ldb 10368 --stride_b 0 --beta 0.0 --ldc 96 --stride_c 6144 --batch 36
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 96 -n 64 -k 14400 --alpha 1.0 --lda 14400 --stride_a 1382400 --ldb 14400 --stride_b 0 --beta 0.0 --ldc 96 --stride_c 6144 --batch 49
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 96 -n 64 -k 18432 --alpha 1.0 --lda 18432 --stride_a 1769472 --ldb 18432 --stride_b 0 --beta 0.0 --ldc 96 --stride_c 6144 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 96 -n 64 -k 20736 --alpha 1.0 --lda 20736 --stride_a 1990656 --ldb 20736 --stride_b 0 --beta 0.0 --ldc 96 --stride_c 6144 --batch 36
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 96 -n 64 -k 2304 --alpha 1.0 --lda 2304 --stride_a 221184 --ldb 2304 --stride_b 0 --beta 0.0 --ldc 96 --stride_c 6144 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 96 -n 64 -k 28800 --alpha 1.0 --lda 28800 --stride_a 2764800 --ldb 28800 --stride_b 0 --beta 0.0 --ldc 96 --stride_c 6144 --batch 49
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 96 -n 64 -k 3136 --alpha 1.0 --lda 3136 --stride_a 301056 --ldb 3136 --stride_b 0 --beta 0.0 --ldc 96 --stride_c 6144 --batch 49
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 96 -n 64 -k 41472 --alpha 1.0 --lda 41472 --stride_a 3981312 --ldb 41472 --stride_b 0 --beta 0.0 --ldc 96 --stride_c 6144 --batch 36
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 96 -n 64 -k 4608 --alpha 1.0 --lda 4608 --stride_a 442368 --ldb 4608 --stride_b 0 --beta 0.0 --ldc 96 --stride_c 6144 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 96 -n 64 -k 5184 --alpha 1.0 --lda 5184 --stride_a 497664 --ldb 5184 --stride_b 0 --beta 0.0 --ldc 96 --stride_c 6144 --batch 36
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 96 -n 64 -k 6272 --alpha 1.0 --lda 6272 --stride_a 602112 --ldb 6272 --stride_b 0 --beta 0.0 --ldc 96 --stride_c 6144 --batch 49
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 96 -n 64 -k 9216 --alpha 1.0 --lda 9216 --stride_a 884736 --ldb 9216 --stride_b 0 --beta 0.0 --ldc 96 --stride_c 6144 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 96 -n 96 -k 10368 --alpha 1.0 --lda 10368 --stride_a 995328 --ldb 10368 --stride_b 0 --beta 0.0 --ldc 96 --stride_c 9216 --batch 36
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 96 -n 96 -k 2304 --alpha 1.0 --lda 2304 --stride_a 221184 --ldb 2304 --stride_b 0 --beta 0.0 --ldc 96 --stride_c 9216 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 96 -n 96 -k 3136 --alpha 1.0 --lda 3136 --stride_a 301056 --ldb 3136 --stride_b 0 --beta 0.0 --ldc 96 --stride_c 9216 --batch 49
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 96 -n 96 -k 4608 --alpha 1.0 --lda 4608 --stride_a 442368 --ldb 4608 --stride_b 0 --beta 0.0 --ldc 96 --stride_c 9216 --batch 64
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 96 -n 96 -k 5184 --alpha 1.0 --lda 5184 --stride_a 497664 --ldb 5184 --stride_b 0 --beta 0.0 --ldc 96 --stride_c 9216 --batch 36
+./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA T --transposeB N -m 96 -n 96 -k 6272 --alpha 1.0 --lda 6272 --stride_a 602112 --ldb 6272 --stride_b 0 --beta 0.0 --ldc 96 --stride_c 9216 --batch 49